文本對抗性攻擊分為白盒攻擊和黑盒攻擊,其中黑盒攻擊更貼近現實,又可分為軟標簽和硬標簽設置,。這些名詞分別是什么意思
在文本對抗性攻擊中,“白盒攻擊”“黑盒攻擊”以及黑盒攻擊下的“軟標簽”“硬標簽”設置,核心差異在于攻擊者對模型信息的掌握程度以及模型輸出的信息粒度。以下是具體解釋:
一、白盒攻擊(White-box Attack)
白盒攻擊是指攻擊者完全掌握模型的內部信息的攻擊方式。
- 核心特征:攻擊者知曉模型的全部細節,包括模型結構(如是否是BERT、LSTM等)、參數權重、訓練數據分布、損失函數、激活函數等。
- 攻擊邏輯:由于掌握完整信息,攻擊者可直接利用模型的內部機制(如梯度信息)設計攻擊策略。例如,通過計算模型對輸入文本的梯度,定位到對模型預測影響最大的詞語,再針對性地替換為同義詞或近義詞,生成對抗樣本。
- 文本領域示例:已知目標模型是基于LSTM的情感分類器,且知道其各層權重,攻擊者可通過梯度反向傳播,找到“最敏感”的詞語(如“精彩”),替換為語義相近但會改變模型預測的詞(如“還行”),使模型將“正面”誤判為“負面”。
二、黑盒攻擊(Black-box Attack)
黑盒攻擊是指攻擊者對模型內部信息完全未知的攻擊方式,僅能通過“輸入文本→觀察輸出結果”的交互來推測模型行為。
- 核心特征:攻擊者不知道模型的結構、參數、訓練數據等任何內部細節,僅能將模型視為一個“黑盒”,通過不斷輸入不同文本,觀察輸出結果來優化攻擊策略。
- 現實意義:更貼近實際場景(如調用第三方文本分類API、使用閉源模型),因為實際應用中模型通常是保密的,攻擊者無法獲取內部信息。
- 文本領域示例:調用一個未知的垃圾郵件檢測API,攻擊者只能通過發送不同郵件(如替換部分詞語、調整句式),觀察返回的“垃圾郵件”或“正常郵件”結果,逐步找到能繞過檢測的對抗樣本。
三、黑盒攻擊中的“軟標簽”與“硬標簽”設置
在黑盒攻擊中,模型輸出的信息粒度不同,可分為“軟標簽”和“硬標簽”兩種場景,直接影響攻擊難度和策略設計。
1. 軟標簽(Soft Labels)
軟標簽指模型輸出的是“概率分布”形式的結果,即對每個可能的類別都給出對應的概率值。
- 信息價值:能為攻擊者提供更豐富的參考——不僅知道模型的預測類別,還能知道模型對該類別的“置信度”,以及對其他類別的“傾向性”。
- 攻擊優勢:攻擊者可通過觀察概率變化,更精準地調整擾動策略。例如,若模型對“正面”的概率是60%,對“負面”是40%,攻擊者可針對性地修改文本,逐步降低“正面”概率、提高“負面”概率,直到模型誤判。
- 文本示例:輸入“這部電影劇情緊湊,演員演技出色”,模型輸出“正面:85%;負面:15%”。
2. 硬標簽(Hard Labels)
硬標簽指模型僅輸出最終的“預測類別”,不提供任何概率或置信度信息。
- 信息局限:攻擊者僅能知道“模型認為這是哪一類”,但無法判斷模型對該預測的“堅定程度”,也不知道其他類別的可能性。
- 攻擊挑戰:攻擊難度更高,因為缺乏中間反饋。攻擊者需通過大量嘗試(如隨機替換詞語),觀察預測類別是否變化,效率較低。
- 文本示例:輸入“這部電影劇情緊湊,演員演技出色”,模型僅輸出“正面”(無概率)。
總結
- 白盒攻擊 vs 黑盒攻擊:核心差異是“是否掌握模型內部信息”,黑盒更貼近現實。
- 軟標簽 vs 硬標簽(黑盒下):核心差異是“模型輸出的信息粒度”,軟標簽提供概率分布(信息更豐富),硬標簽僅提供預測類別(信息更有限)。
這些分類本質上反映了“攻擊者與模型的信息差”,而信息差直接決定了對抗性攻擊的策略設計與難度。
guide
首先通過隨機初始化生成初始對抗性樣本;然后盡可能替換回原始詞,以降低擾動率;最后利用剩余替換詞的同義詞集優化對抗性樣本,同時通過為每個替換詞搜索過渡同義詞,避免遍歷整個同義詞集,減少查詢次數
是的,你對HQA-Attack的核心流程概括得很準確,其步驟的邏輯鏈條可以總結為:
- 隨機初始化:從原始文本中選取名詞、動詞等可替換詞,隨機替換為其同義詞,生成初始對抗樣本(需滿足對抗條件,即模型預測錯誤)。
- 替換回原始詞:動態嘗試將替換詞換回原始詞,僅保留“換回后仍保持對抗性且提升語義相似度”的操作,以此減少擾動率🔶1-58🔶1-60🔶。
- 計算優化順序:基于替換詞與原始詞的語義差異(余弦距離)確定抽樣概率,優先優化那些與原始詞語義更接近的替換詞,保證優化效率🔶1-68🔶1-69🔶。
- 過渡詞篩選:針對待優化的替換詞,從其同義詞集中隨機選取少量候選詞,篩選出既能保持對抗性又提升語義相似度的過渡詞,避免全量遍歷同義詞集🔶1-72🔶1-74🔶。
- 估算優化方向u:圍繞過渡詞的同義詞集,通過語義相似度差異的加權計算,得到指向“提升語義相似度”的更新方向u🔶1-86🔶。
- 定向優化:沿方向u從原始詞的同義詞集中選取最優替換詞,確保新樣本既滿足對抗條件,又進一步提升語義相似度🔶1-88🔶。
整個流程通過“初始化-減擾-定向優化”的迭代,在有限查詢預算內生成高語義相似度、低擾動率的對抗樣本,各步驟緊密銜接,共同服務于“高質量攻擊”的目標。