研究人員發現：基于文本的AI模型容易受到改述攻擊

由于自然語言處理（NLP）的進步，越來越多的公司和組織開始利用AI算法來執行與文本相關的任務，例如：過濾垃圾郵件、分析社交媒體帖子和評論、評估簡歷以及檢測假新聞。

但是，真的可以相信這些算法能夠可靠地執行任務嗎？IBM，亞馬遜和德克薩斯大學的新研究證明：使用一些工具，可以攻擊文本分類算法并以潛在的惡意方式對模型進行操縱。

在斯坦福大學舉行的SysML AI大會上，研究人員展示了這項有關“改述”攻擊的研究。其具體做法是修改輸入文本，以便在不改變其實際意義的情況下通過AI算法對其進行不同的分類。

可以這樣簡單解釋“改述攻擊”是如何工作的：以使用AI算法來評估電子郵件的文本并將其歸類為“垃圾郵件”或“非垃圾郵件”為例，改述攻擊會修改垃圾郵件的內容，使得AI將其分類為“非垃圾郵件”。

針對文本模型的對抗性攻擊的挑戰

在過去幾年中，一些研究小組已經探討了對抗性攻擊的各種方法。修改輸入將會導致AI算法對圖像和音頻樣本進行錯誤分類，如通過對標題或描述的修改，讓一些少兒不宜的內容被分類到少兒頻道中，對未成年人造成危害。但是，攻擊文本模型比篡改計算機視覺和音頻識別算法要困難得多。

“對于音頻和圖像，人類完全可以自行區分。” 人工智能研究員兼語言模型專家Stephen Merity說。例如，在圖像分類算法中，人類可以逐步改變像素的顏色，并觀察這些修改如何影響模型的輸出。這可以幫助研究人員發現模型中的漏洞。

“可是文本攻擊更加困難，因為它是離散的。在一個句子中，你不能說我想要多加10%的‘dog’這個詞。大部分情況是：一句話中有‘dog’這個詞，模型可以把有這個詞的句子進行某一種歸類。而且我們還不能有效地搜索模型中的漏洞。”Merity說：“我們的想法是，能不能智能地找出機器的弱點，然后把它推到特定的位置?”

“對于圖像和音頻，做對抗性干擾是有意義的。但對于文本來說，即使你對文字做了一些小改動，比如只改動一兩句話，都可能導致這段話無法順利讀出來。”IBM的研究員兼研究論文的共同作者Pin-Yu Chen說。

過去關于對文本模型的對抗性攻擊的工作只涉及改變句子中的單個單詞。雖然這種方法成功地改變了AI算法的輸出，但它經常導致修改后的句子聽起來是人為的。Chen和他的同事們不僅關注詞語的改變，而且還關注改寫句子和以有意義的方式改變更長的序列。

“我們正在嘗試解釋單詞和句子，通過創建在語義上與目標句子類似的序列來為攻擊提供更大的空間。然后我們要看看模型是否將它們歸類為原始句子。”Chen說。

研究人員開發了一種算法，可以在句子中找到可以操縱NLP模型行為的最佳變化。“主要的困難是：要確保文本的修改版本在語義上與原始版本相似。我們開發了一種算法，可以在非常大的空間中搜索單詞和句子，這些修改將對AI模型的輸出產生最大的影響。在該空間中找到最佳對抗性示例非常耗時。該算法計算效率高，并且提供了理論上的保證，它是人們可以找到的最佳搜索。”IBM研究院科學家，該論文的另一位合著者Lingfei Wu說。

在他們的論文中，研究人員提供了改變情感分析算法、假新聞檢測器和垃圾郵件過濾器行為的修改示例。例如，在產品評論中，將“The pricing is also cheaper than some of the big name conglomerates out there（這定價比現在的一些知名企業定的也還要低些）”改為“The price is cheaper than some of the big names below（這價格比下面的一些巨頭便宜）”，句子所表達的情緒就會從100％正面變為100％負面。

人類無法感知的改述攻擊

改述攻擊成功的關鍵在于它們是人類難以察覺的，因為它們保留了原始文本的語境和意義。

“我們將原始段落和修改后的段落給了人類評估員，他們很難看到意義上的差異。但對于機器而言，它完全不同。“Wu說。

Merity指出：改述攻擊不需要與人類完全一致，特別是當他們沒有預料到機器人會篡改文本時。他進一步解釋道：“我們每天都會遇到錯誤的輸入，對我們來說，這些只是來自真人回復的不連貫的句子而已，以至于當人們看到拼寫錯誤時，并不會認為這是一個安全問題。但在不久的將來，它可能是我們必須應對的問題。”

Merity還指出，改述和對抗性攻擊將引發安全風險的新趨勢：“許多科技公司依靠自動化決策對內容進行分類，實際上并沒有涉及人與人之間的互動。這使得該過程容易受到此類攻擊。”Merity說：“改述攻擊或許會與數據泄露同時發生，除非我們將發現邏輯漏洞。”

例如，一個人可能會欺騙仇恨言語分類器來批準他們的非法言論，或利用簡歷處理模型中的釋義漏洞將他們的工作申請推送到列表的頂部。

Merity警告說：“這些類型的問題將成為這個時代新的威脅，我擔心這類攻擊恐怕不會引起企業重視，因為他們大都專注于自動化和可擴展性。”

改述攻擊并非都是壞事

研究人員還發現，通過逆轉改述攻擊可以構建更健壯、更準確的模型。

在生成模型錯誤分類的改述句子之后，開發人員可以使用修改后的句子及其正確的標簽來重新訓練他們的模型，這將使模型更具彈性，從而可以抵御改述攻擊。

Wu表示：“這是我們在這個項目中的驚人發現之一。最初，我們僅僅是從從穩健的角度出發。但后來，我們發現這種方法不僅可以提高穩健性，還可以提高泛化能力。如果不用來攻擊的話，改述其實是一種非常好的泛化工具，可以提高模型的能力。”

論文鏈接：

https://arxiv.org/abs/1812.00151

參考鏈接：

https://venturebeat.com/2019/04/01/text-based-ai-models-are-vulnerable-to-paraphrasing-attacks-researchers-find/

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/449014.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/449014.shtml
英文地址，請注明出處：http://en.pswp.cn/news/449014.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！