關注gongzhonghao【計算機sci論文精選】
近年來,以Transformer架構為核心的大語言模型重塑了自然語言處理領域的技術范式。當前ACL相關研究呈現多維度深化態勢,從開源社區推動輕量化架構與低成本訓練技術革新,到學術界探索檢索增強等機制突破長尾知識覆蓋局限,再到醫療、海洋等垂直領域專用模型開發成為新熱點。
今天小圖給大家精選3篇ACL有關大模型方向的論文,請注意查收!
How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs
方法:
文章首先構建了一個包含40種說服技巧的分類體系,涵蓋信息、情感、權威等多個維度,為生成PAP提供了理論基礎。接著,通過微調預訓練語言模型,構建了一個能夠將普通有害查詢轉化為PAP的“說服性釋義器”,并利用這一工具在14個風險類別上進行了廣泛的掃描實驗。最后,文章通過迭代優化PAP生成過程,進一步提高了攻擊成功率,并對現有防御機制進行了深入分析,提出了新的防御策略。
創新點:
提出了一個基于社會科學研究的說服技巧分類體系,首次系統地將人類說服技巧應用于AI安全研究,為后續研究提供了新的工具。
自動生成了具有高攻擊成功率的說服性對抗性提示,在多種大型語言模型上驗證了其有效性,證明了日常語言交互中的說服行為對AI安全構成的威脅。
發現現有防御機制在應對PAP時存在顯著缺陷,并提出了針對PAP的適應性防御策略,為AI安全防御提供了新的方向。
論文鏈接:
https://arxiv.org/abs/2401.06373
圖靈學術論文輔導
論文二:Having Beer after Prayer? Measuring Cultural Bias in Large Language Models
方法:
文章首先從Wikidata和CommonCrawl中提取具有文化差異的實體,并從Twitter/X中獲取自然語言提示,構建了CAMeL資源庫。接著,利用CAMeL對多種語言模型在故事生成、命名實體識別、情感分析和文本填充等任務上進行跨文化性能測試。最后,分析了阿拉伯語預訓練語料庫的文化相關性,發現西方內容的高比例可能是導致語言模型文化偏見的關鍵因素。
創新點:
構建了CAMeL資源庫,為評估語言模型的文化偏見提供了基礎。
通過CAMeL,首次系統地評估了16種不同語言模型在阿拉伯語環境下的跨文化表現,揭示了令人擔憂的文化刻板印象和不公平現象。
分析了6個阿拉伯語預訓練語料庫,為改進語言模型的文化適應性提供了數據支持。
論文鏈接:
https://aclanthology.org/2024.acl-long.862/
圖靈學術論文輔導
論文三:Aya Model: An Instruction Finetuned?Open-Access Multilingual Language Model
方法:
文章首先基于mT5預訓練模型,通過整合xP3x、Aya集合、Aya數據集、數據溯源集合以及翻譯合成數據等多源數據,構建了包含203M數據點的訓練語料庫。接著,通過調整不同數據源的權重,進行了多種采樣策略的實驗,以優化模型在不同任務和語言上的表現。最后,通過多語言評估體系和安全上下文蒸餾技術,對模型的性能和安全性進行了全面測試和優化。
創新點:
Aya模型將語言覆蓋范圍擴展到101種語言,其中超過半數為資源較少的語言,顯著擴大了多語言指令微調模型的適用范圍。
引入了廣泛的多語言評估體系,涵蓋99種語言和多種任務類型,包括區分性任務、生成性任務以及人類和LLM評估,全面衡量模型性能。
實施了多語言安全上下文蒸餾技術,有效降低了模型在對抗性提示下的有害輸出比例,提升了多語言環境下的安全性。
論文鏈接:
https://aclanthology.org/2024.acl-long.845/
本文選自gongzhonghao【計算機sci論文精選】