歡迎訪問網易云社區,了解更多網易技術產品運營經驗。
這里提供一個關于如何管理論壇廣告貼的深度視角。
一般的論壇在發展初期,用戶自發產生的內容不多,每一條數據都彌足珍貴,因此幾乎不會考慮到反垃圾需求。隨著產品規模的擴大,吸引了灰黑產的注意,伴隨著各類垃圾廣告信息隨之而來。第一類風險主要來自于監管部門,主包括涉政、涉黃、涉暴的違法信息,近幾年國家監管部門對網絡信息的監控達到空前的高度,每年面臨關停、整頓等處罰的企業數量一路攀升。與此同時,各行業面臨的另一個挑戰是廣告牛皮癬問題。從某種意義上,一個產品的流量越高,越是灰黑產眼中的香餑餑。
當遇到垃圾信息困擾時,常規采用的方法是文本添加關鍵詞,進而人工審核,對于圖像的檢測基本就是純人工了。以關鍵詞為例,通常會遇到兩難的選擇:一、設置致命詞(命中就刪除)簡單粗暴,背后犧牲的是用戶體驗。二、設置嫌疑詞(命中后人工審核),將會帶來風險與成本。人工審核時效性上不如機器,同時隨著內容體量的增加,審核人力將持續投入。舉個簡單的例子,“口交”是出現在淫穢刊物中的常用詞,常規的做法是把該詞自動屏蔽或進入待審,但對于機器檢測會存在“斷章取義”的情況,導致當這類詞匯出現在正常語境時就會產生匹配錯誤,例如“接口交接”、“24口交換機”。
有問題,自然就有解決方案,這是反垃圾運營必須掌握的技能。而風險和成本是運營的工作核心。應對風險方面,在于對風險的深刻剖析與理解,做到舉一反三,事先布控。例如,對于違法信息,運營需要有超高的敏銳度與尺度的把握。需要對法律法規有基本的了解,能將法律法規細化到可執行的客觀標準。什么能發,什么不能發,能發到什么程度心中要有一桿尺。這里面度的把握關乎著風險與產品流量的平衡,這里就不再一一展開。同樣,在廣告問題上,運營遇到的挑戰是樣本的變種,以下截取冰山一角:
· 同音詞:即相同拼音的不同漢字。最典型的例子就是兼職與蒹職。
· 象形詞:字型相象的漢字組成。例如:兼(jian)職與慊(qian)職,字型相像,讀音不同,同音詞的解決方案也無法適用。
· 拆字:利用漢字偏旁與部首的關系,拆開繞過。例如:兼耳只
· 干擾詞:繞過一般的模糊匹配,在關鍵詞中間添加干擾字符。例如:兼*——職
反垃圾做的好與壞就在于做的有多深有多廣。最直接的體現就是變種樣本需要嘗試多少次才能繞過,而背后支撐的是對新型樣本的最大化防控。
面對這種廣告,網易云安全(易盾)基于網易20年技術積累及安全大數據、提供文本檢測、圖片檢測等多項內容安全云服務。
相關文章:
【推薦】?Android中Textview顯示Html,圖文混排,支持圖片點擊放大
【推薦】?制作Docker鏡像的兩種方式