ACL 2024 大模型方向優秀論文：洞察NLP前沿?關鍵突破

關注gongzhonghao【計算機sci論文精選】

近年來，以Transformer架構為核心的大語言模型重塑了自然語言處理領域的技術范式。當前ACL相關研究呈現多維度深化態勢，從開源社區推動輕量化架構與低成本訓練技術革新，到學術界探索檢索增強等機制突破長尾知識覆蓋局限，再到醫療、海洋等垂直領域專用模型開發成為新熱點。

今天小圖給大家精選3篇ACL有關大模型方向的論文，請注意查收！

How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

方法：

文章首先構建了一個包含40種說服技巧的分類體系，涵蓋信息、情感、權威等多個維度，為生成PAP提供了理論基礎。接著，通過微調預訓練語言模型，構建了一個能夠將普通有害查詢轉化為PAP的“說服性釋義器”，并利用這一工具在14個風險類別上進行了廣泛的掃描實驗。最后，文章通過迭代優化PAP生成過程，進一步提高了攻擊成功率，并對現有防御機制進行了深入分析，提出了新的防御策略。

創新點：

提出了一個基于社會科學研究的說服技巧分類體系，首次系統地將人類說服技巧應用于AI安全研究，為后續研究提供了新的工具。
自動生成了具有高攻擊成功率的說服性對抗性提示，在多種大型語言模型上驗證了其有效性，證明了日常語言交互中的說服行為對AI安全構成的威脅。
發現現有防御機制在應對PAP時存在顯著缺陷，并提出了針對PAP的適應性防御策略，為AI安全防御提供了新的方向。

論文鏈接：

https://arxiv.org/abs/2401.06373

圖靈學術論文輔導

論文二：Having Beer after Prayer? Measuring Cultural Bias in Large Language Models

方法：

文章首先從Wikidata和CommonCrawl中提取具有文化差異的實體，并從Twitter/X中獲取自然語言提示，構建了CAMeL資源庫。接著，利用CAMeL對多種語言模型在故事生成、命名實體識別、情感分析和文本填充等任務上進行跨文化性能測試。最后，分析了阿拉伯語預訓練語料庫的文化相關性，發現西方內容的高比例可能是導致語言模型文化偏見的關鍵因素。

創新點：

構建了CAMeL資源庫，為評估語言模型的文化偏見提供了基礎。
通過CAMeL，首次系統地評估了16種不同語言模型在阿拉伯語環境下的跨文化表現，揭示了令人擔憂的文化刻板印象和不公平現象。
分析了6個阿拉伯語預訓練語料庫，為改進語言模型的文化適應性提供了數據支持。

論文鏈接：

https://aclanthology.org/2024.acl-long.862/

圖靈學術論文輔導

論文三：Aya Model: An Instruction Finetuned?Open-Access Multilingual Language Model

方法：

文章首先基于mT5預訓練模型，通過整合xP3x、Aya集合、Aya數據集、數據溯源集合以及翻譯合成數據等多源數據，構建了包含203M數據點的訓練語料庫。接著，通過調整不同數據源的權重，進行了多種采樣策略的實驗，以優化模型在不同任務和語言上的表現。最后，通過多語言評估體系和安全上下文蒸餾技術，對模型的性能和安全性進行了全面測試和優化。

創新點：

Aya模型將語言覆蓋范圍擴展到101種語言，其中超過半數為資源較少的語言，顯著擴大了多語言指令微調模型的適用范圍。
引入了廣泛的多語言評估體系，涵蓋99種語言和多種任務類型，包括區分性任務、生成性任務以及人類和LLM評估，全面衡量模型性能。
實施了多語言安全上下文蒸餾技術，有效降低了模型在對抗性提示下的有害輸出比例，提升了多語言環境下的安全性。

論文鏈接：

https://aclanthology.org/2024.acl-long.845/

本文選自gongzhonghao【計算機sci論文精選】

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/91668.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/91668.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/91668.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！