HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text

在文本對抗性攻擊中，“白盒攻擊”“黑盒攻擊”以及黑盒攻擊下的“軟標簽”“硬標簽”設置，核心差異在于攻擊者對模型信息的掌握程度以及模型輸出的信息粒度。以下是具體解釋：

白盒攻擊是指攻擊者完全掌握模型的內部信息的攻擊方式。

核心特征：攻擊者知曉模型的全部細節，包括模型結構（如是否是BERT、LSTM等）、參數權重、訓練數據分布、損失函數、激活函數等。
攻擊邏輯：由于掌握完整信息，攻擊者可直接利用模型的內部機制（如梯度信息）設計攻擊策略。例如，通過計算模型對輸入文本的梯度，定位到對模型預測影響最大的詞語，再針對性地替換為同義詞或近義詞，生成對抗樣本。
文本領域示例：已知目標模型是基于LSTM的情感分類器，且知道其各層權重，攻擊者可通過梯度反向傳播，找到“最敏感”的詞語（如“精彩”），替換為語義相近但會改變模型預測的詞（如“還行”），使模型將“正面”誤判為“負面”。

黑盒攻擊是指攻擊者對模型內部信息完全未知的攻擊方式，僅能通過“輸入文本→觀察輸出結果”的交互來推測模型行為。

核心特征：攻擊者不知道模型的結構、參數、訓練數據等任何內部細節，僅能將模型視為一個“黑盒”，通過不斷輸入不同文本，觀察輸出結果來優化攻擊策略。
現實意義：更貼近實際場景（如調用第三方文本分類API、使用閉源模型），因為實際應用中模型通常是保密的，攻擊者無法獲取內部信息。
文本領域示例：調用一個未知的垃圾郵件檢測API，攻擊者只能通過發送不同郵件（如替換部分詞語、調整句式），觀察返回的“垃圾郵件”或“正常郵件”結果，逐步找到能繞過檢測的對抗樣本。

在黑盒攻擊中，模型輸出的信息粒度不同，可分為“軟標簽”和“硬標簽”兩種場景，直接影響攻擊難度和策略設計。

軟標簽指模型輸出的是“概率分布”形式的結果，即對每個可能的類別都給出對應的概率值。

信息價值：能為攻擊者提供更豐富的參考——不僅知道模型的預測類別，還能知道模型對該類別的“置信度”，以及對其他類別的“傾向性”。
攻擊優勢：攻擊者可通過觀察概率變化，更精準地調整擾動策略。例如，若模型對“正面”的概率是60%，對“負面”是40%，攻擊者可針對性地修改文本，逐步降低“正面”概率、提高“負面”概率，直到模型誤判。
文本示例：輸入“這部電影劇情緊湊，演員演技出色”，模型輸出“正面：85%；負面：15%”。

硬標簽指模型僅輸出最終的“預測類別”，不提供任何概率或置信度信息。

這些分類本質上反映了“攻擊者與模型的信息差”，而信息差直接決定了對抗性攻擊的策略設計與難度。

首先通過隨機初始化生成初始對抗性樣本；然后盡可能替換回原始詞，以降低擾動率；最后利用剩余替換詞的同義詞集優化對抗性樣本，同時通過為每個替換詞搜索過渡同義詞，避免遍歷整個同義詞集，減少查詢次數

是的，你對HQA-Attack的核心流程概括得很準確，其步驟的邏輯鏈條可以總結為：

隨機初始化：從原始文本中選取名詞、動詞等可替換詞，隨機替換為其同義詞，生成初始對抗樣本（需滿足對抗條件，即模型預測錯誤）。
替換回原始詞：動態嘗試將替換詞換回原始詞，僅保留“換回后仍保持對抗性且提升語義相似度”的操作，以此減少擾動率🔶1-58🔶1-60🔶。
計算優化順序：基于替換詞與原始詞的語義差異（余弦距離）確定抽樣概率，優先優化那些與原始詞語義更接近的替換詞，保證優化效率🔶1-68🔶1-69🔶。
過渡詞篩選：針對待優化的替換詞，從其同義詞集中隨機選取少量候選詞，篩選出既能保持對抗性又提升語義相似度的過渡詞，避免全量遍歷同義詞集🔶1-72🔶1-74🔶。
估算優化方向u：圍繞過渡詞的同義詞集，通過語義相似度差異的加權計算，得到指向“提升語義相似度”的更新方向u🔶1-86🔶。
定向優化：沿方向u從原始詞的同義詞集中選取最優替換詞，確保新樣本既滿足對抗條件，又進一步提升語義相似度🔶1-88🔶。

整個流程通過“初始化-減擾-定向優化”的迭代，在有限查詢預算內生成高語義相似度、低擾動率的對抗樣本，各步驟緊密銜接，共同服務于“高質量攻擊”的目標。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/918839.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/918839.shtml
英文地址，請注明出處：http://en.pswp.cn/news/918839.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！