有待挖掘的金礦:大模型的幻覺之境

? ? ? 人工智能正在迅速變得無處不在,在科學和學術研究中,自回歸的大型語言模型(LLM)走在了前列。自從LLM的概念被整合到自然語言處理(NLP)的討論中以來,LLM中的幻覺現象一直被廣泛視為一個顯著的社會危害和一個關鍵的瓶頸,阻礙了LLM在現實世界中的應用。無論是在流行且全面的學術調查中,還是在面向公眾的技術報告中,都將幻覺問題定位為LLM的主要倫理和安全陷阱之一,應該與其他問題(如偏見和毒性)一起得到嚴重緩解。因此,將幻覺減少到可以忽略不計的水平的承諾,不僅被視為一個技術挑戰,也是更廣泛使命的關鍵組成部分,以減輕與LLM的廣泛部署和廣泛采用相關的社會污名和系統風險。

? ? ?然而,一小部分工作提出了一種觀點,即幻覺并非本質上有害。這種探索性的觀點強調了幻覺的潛在價值和合理必要性。最近的研究表明,幻覺是統計上的必然,并且由于創造性、生成性和信息準確性之間的權衡,從LLM中消除幻覺是不可能的。此外,在許多特定領域的應用中,實現創造性和事實性之間的優化平衡,比僅僅試圖消除幻覺更能有效地最大化LLM的效用。幻覺可能特別有價值的LLM用例包括發現新型蛋白質、為創意寫作提供靈感以及制定創新的法律類比。

? ? 在本文中,我們試圖擴大幻覺的概念,并認為幻覺更接近于“虛構”這一概念,這一術語已經在關于AI的公共話語中獲得了流行,但尚未在學術文獻中廣泛傳播。

1 “虛構”(confabulation)VS“幻覺”(hallucination)

"Confabulation" 和 "hallucination" 都是從精神病學借用過來的人化類比,但"confabulation"因避免了暗示LLMs具有感官體驗或意識的棘手含義,且更中性,因此在AI公共話語中被視為"hallucination"的首選替代詞

1.1 現有定義的局限性

現有的定義主要關注偽造與事實不符的特征,忽略了其在人類交流中的社會和認知效益。

這些定義沒有充分考慮人類在填補知識空白時,傾向于使用敘事作為認知資源的傾向。

1.2 新的定義

偽造是一種敘事沖動,即生成更具實質性、更連貫的輸出的傾向。這種沖動體現了人類利用敘事進行理解和交流的傾向。

偽造可以產生虛構但可信的信息,幫助人們填補知識空白,并構建連貫的語義意義。

2 數據、方法和結果

2.1 基準數據集

FaithDial:一個無幻覺的對話基準,介于尋求信息的用戶和聊天機器人之間,改編自“維基百科巫師”。Mechanical Turk注釋器將WoW的人類生成響應標記為“幻覺”或真實響應。真實響應被細分為三個類別:“蘊含”(Entailment)、“不合作”(Uncooperative)和“通用”(Generic),并對21445個原始響應進行了忠實且基于知識的編輯。

BEGIN是對FaithDial進行的初步研究,旨在選擇一個現有的基準進行后續的大規模注釋和編輯。作為一個較小的專家策劃集,它包括信息尋求查詢以及人類編寫和模型生成(GPT-2、DoHA和CRTL)的響應,每種響應都使用與FaithDial略有不同的幻覺分類法進行標記(增加了“部分幻覺”作為標簽),由專家注釋器完成。我們采用BEGIN作為對我們在HaluEval上發現的敘事模式的模型和數據集的一致性和魯棒性的驗證,以確認不同數據集和模型之間敘事模式的一致性和魯棒性。

HaluEval是一個全面的數據集,展示了合理但幻覺的ChatGPT生成與其真相對應物。與FaithDial和BEGIN更細粒度的幻覺標簽不同,HaluEval只區分幻覺和真相響應。我們只使用HaluEval的對話部分,包含10000個樣本,以保持與其他基準的領域一致性。

對于FaithDial和BEGIN數據集,我們將所有不包含“幻覺”標簽的輸出視為“真相”,并將所有包含“幻覺”標簽以及一個額外真實標簽的輸出視為“部分”幻覺/真相。這種聚合允許跨數據集進行更直接的比較。如下所示:虛構文本表現出更高水平的敘事性,因此可以被視為一種敘事豐富的行為。

2.2 方法

  • 敘事性評估: 使用微調后的 ELECTRA-large 模型,對幻覺文本和真實文本進行敘事性評估,并比較兩組文本的敘事性得分。
  • 敘事性與幻覺標簽的相關性分析: 使用二元邏輯回歸模型,分析敘事性得分與幻覺標簽之間的預測關系,以確定敘事性是否可以預測幻覺標簽。
  • 敘事性與連貫性的相關性分析: 使用貝塔回歸模型,分析敘事性得分與對話連貫性得分之間的相關性,以確定敘事性是否與連貫性相關。

2.3 結果

  • 敘事性: 在所有三個基準數據集中,幻覺文本的敘事性得分都顯著高于部分幻覺文本和非幻覺文本,以及它們的真實回復
  • 敘事性與幻覺標簽: 敘事性得分可以顯著預測幻覺標簽,即敘事性越高的文本,更有可能被標注為幻覺。
  • 敘事性與連貫性: 敘事性得分與對話連貫性得分之間存在顯著正相關關系,即敘事性越高的文本,對話的連貫性也越高。

3 虛構價值有待挖掘

我們認為,虛構的敘事豐富特性不應被視為缺陷,而是LLM與人類使用敘事作為說服、身份構建和社會協商多功能工具的既定傾向相一致的標志。反過來,規范觀點對虛構的不加思索的否定將冒著從LLM的能力中消除對溝通和意義構建至關重要的行為和認知能力的風險。虛構價值有待進一步挖掘:

  • 敘事性增強: 偽造的輸出往往具有更高的敘事性,即內容更加連貫和有故事性。這與人類傾向于使用敘事來理解和溝通的方式相似,因此可能更易于理解和接受。
  • 啟發式工具: 偽造的輸出可以作為啟發式工具,幫助人們探索特定領域的場景,并利用偽造的特性進行創造性思維。
  • 對抗樣本: 偽造的輸出可以用于構建對抗樣本,幫助提高模型的魯棒性和可靠性。
  • 合成訓練數據: 偽造的輸出可以作為合成訓練數據,用于增強模型的泛化能力。

4 未來研究方向

我們提出對LLM虛構現象作為潛在資源的系統性辯護,而不是一個絕對的負面陷阱。我們認為,認為LLM產生幻覺是因為它們不可靠、不忠實,最終不像人類的觀點過于簡化。相反,它們虛構并表現出與人類講故事沖動非常相似的敘事豐富行為模式——也許幻覺使它們比我們愿意承認的更像我們

  • 因果關系未明確:盡管研究發現敘述性與連貫性之間存在關聯,但研究并未斷言敘述性直接驅動連貫性,這需要更全面的方法來闡明。
  • 跨學科視角的支持:當前結論得到了跨學科視角的支持,但需要更健壯的敘事建模方法和更全面的人類評估來進一步探討這一關聯。
  • 人類-AI交互的驗證:研究中觀察到的敘述性和連貫性特征在人類-人類交流中被認為是有益的,但這些特性在人類-AI交互中的適用性需要通過基于人類的評估來驗證。
  • 后續實驗計劃:計劃通過包含人類參與者的實驗來驗證敘事參與的益處,并探索虛構在不同領域的應用潛力。
  • 跨領域應用探索:如果敘事豐富的虛構得到有效驗證,將為未來研究開辟新途徑,包括在新聞、廣告等領域的應用,并可能激發更多跨學科的探索。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/24122.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/24122.shtml
英文地址,請注明出處:http://en.pswp.cn/web/24122.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Oracle EBS AP發票創建會計科目提示:APP-SQLAP-10710:無法聯機創建會計分錄

系統版本 RDBMS : 12.1.0.2.0 Oracle Applications : 12.2.6 問題癥狀: 提交“創建會計科目”請求提示錯誤信息如下: APP-SQLAP-10710:無法聯機創建會計分錄。 請提交應付款管理系統會計流程,而不要為此事務處理創建會計分錄解決方法 數據修復SQL腳本: UPDATE ap_invoi…

LabVIEW閥性能試驗臺測控系統

本項目開發的閥性能試驗臺測控系統是為滿足國家和企業相關標準而設計的,主要用于汽車氣壓制動系統控制裝置和調節裝置等產品的綜合性能測試。系統采用工控機控制,配置電器控制柜,實現運動控制、開關量控制及傳感器信號采集,具備數…

vue封裝一個查詢URL參數方法

vue封裝一個查詢URL參數方法 在 Vue 中,你可以封裝一個查詢 URL 參數的方法來獲取 URL 中的查詢參數。以下是一個示例代碼: export const getQueryParam (param) > {const urlParams new URLSearchParams(window.location.search);return urlPara…

算法-分治策略

概念 分治算法(Divide and Conquer)是一種解決問題的策略,它將一個問題分解成若干個規模較小的相同問題,然后遞歸地解決這些子問題,最后合并子問題的解得到原問題的解。分治算法的基本思想是將復雜問題分解成若干個較…

東方博宜1565 - 成績(score)

問題描述 牛牛最近學習了 C 入門課程,這門課程的總成績計算方法是: 總成績作業成績 20% 小測成績 30% 期末考試成績 50%。 牛牛想知道,這門課程自己最終能得到多少分。 輸入 三個非負整數 A、B、C ,分別表示牛牛的作業成績、…

計算機網絡 期末復習(謝希仁版本)第3章

對于點對點的鏈路,目前使用得最廣泛的數據鏈路層協議是點對點協議 PPP (Point-to-Point Protocol)。局域網的傳輸媒體,包括有線傳輸媒體和無線傳輸媒體兩個大類,那么有線傳輸媒體有同軸電纜、雙絞線和光纖;無線傳輸媒體有微波、紅…

計算引擎:Flink核心概念

Apache Flink 是一個流處理框架,擅長處理實時數據流和批處理任務。Flink 提供了強大的功能來處理和分析大量數據。以下是 Flink 的核心概念: 1. DataStream 和 DataSet API DataStream API: 用于處理無界數據流,即不斷生成和流動的數據。例如,傳感器數據、日志等。DataSet…

基于Texture2D 實現Unity 截屏功能

實現 截屏 Texture2D texture new Texture2D(Screen.width, Screen.height, TextureFormat.RGB24, false); texture.ReadPixels(new Rect(0, 0, Screen.width, Screen.height), 0, 0); texture.Apply(); 存儲 byte[] array ImageConversion.EncodeToPNG(texture); if (!…

分享萬能點擊器免費版,吾愛大佬出品,這個太贊了!

小伙伴們!阿星又來給大家推薦神奇的小軟件啦!這次的主角可是個神器——鼠標連點器!你聽過沒?這玩意兒簡直是個“自動小助手”,讓你的鼠標在屏幕上飛舞,點得飛快,解放你的雙手,讓你網…

【ARM 常見匯編指令學習 6.2 -- ARMv8 匯編指令 SDIV 詳細介紹】

文章目錄 SDIV指令格式使用示例注意事項總結 SDIV ARMv8 架構中的 SDIV 指令用于執行帶符號整數除法操作。這意味著它可以處理負數除法,與 UDIV(執行無符號整數除法)形成對比。SDIV 將兩個寄存器中的帶符號整數相除,將除法結果存…

react學習-組件傳值

1.props傳值 主要步驟: 在父組件中引用子組件時,在子組件上面寫入name1{name2}格式進行傳值,name1為子組件中對應的用于接收數據的字段名稱,name2為父組件中需要傳遞到子組件中的值(state中聲明的數據)&…

一篇文章帶你搞懂C++引用(建議收藏)

引用 6.1 引用概念 引用不是新定義一個變量,而是給已存在變量取了一個別名,編譯器不會為引用變量開辟內存空間,它和它引用的變量共用同一塊內存空間。 比如:李逵,在家稱為"鐵牛",江湖上人稱&quo…

Linux.軟件操作

1.yum 命令 要連網 2.systemctl 命令控制軟件的啟動和關閉 3.ln 創建軟連接 使用cat來找本體,看看鏈接生不生效 4.date 命令查看系統時間 格式化的時候可以用雙引號把他們引出來 -d 對時間進行修改 修改時區 自動校準 手動校準 5.ifconfig 查看本機的ip地址 6.h…

mysql undolog管理

在MySQL中,Undo Log(撤銷日志)用于支持事務的回滾和MVCC(多版本并發控制)。為了避免Undo Log不斷增長,影響系統性能,需要進行合理的清理。MySQL的Undo Log清理策略主要依賴于系統的配置參數和后…

Ansible——get_url模塊

目錄 主要用途 參數總結 基本語法示例 使用示例 示例1:下載文件 示例2:使用校驗和驗證文件 示例3:使用 HTTP 基本認證 示例4:通過代理服務器下載文件 示例5:設置文件權限、所有者和組 示例6:強制…

5.31.15 使用圖像到圖像轉換和 YOLO 技術對先前的乳房 X 光檢查結果中的異常進行早期檢測和分類

在本研究中,我們研究了基于 You-Only-Look-Once (YOLO) 架構的端到端融合模型的有效性,該模型可同時檢測和分類數字乳房 X 光檢查中的可疑乳腺病變。包括四類病例:腫塊、鈣化、結構扭曲和正常,這些病例來自包含 413 個病例的私人數…

ic基礎|復位篇02:芯片中的“人生重來槍”!crg之復位系統

大家好,我是數字小熊餅干,一個練習時長兩年半的ic打工人。我在兩年前通過自學跨行社招加入了IC行業。現在我打算將這兩年的工作經驗和當初面試時最常問的一些問題進行總結,并通過匯總成文章的形式進行輸出,相信無論你是在職的還是…

范閑獲取到慶帝與神廟的往來信件,用AES進行破解

關注微信公眾號 數據分析螺絲釘 免費領取價值萬元的python/java/商業分析/數據結構與算法學習資料 在《慶余年2》中,范閑與慶帝和神廟之間的權謀斗爭愈演愈烈。一次偶然的機會,范閑從慶帝的密室中獲取到幾封與神廟往來的密信。然而,這封信件…

eclipse連接后端mysql數據庫并且查詢

教學視頻:https://www.bilibili.com/video/BV1mK4y157kE/?spm_id_from333.337.search-card.all.click&vd_source26e80390f500a7ceea611e29c7bcea38本人eclipse和up主不同的地方如下,右鍵項目名稱->build path->configure build path->Libr…

【懸架筆記三】1/4被動懸架垂向動力學仿真+頻域特性分析

1/4被動懸架 代碼: %書第156頁、159頁 clc clear close all %% 一.懸架參數 ms320; mw50; Ks22000; Cs1500; Kw195000; f00.07; %% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %% 二.垂向振動動力學仿真 %% 二.1.狀態方程 A [0 1 0 -1;.…