1. 什么是幻覺?
大模型出現幻覺,簡而言之就是“胡說八道”。
用《A Survey on Hallucination in Large Language Models》1文中的話來講,是指模型生成的內容與現實世界事實或用戶輸入不一致的現象。
研究人員將大模型的幻覺分為事實性幻覺(Factuality Hallucination)和忠實性幻覺(Faithfulness Hallucination)。
1.1 幻覺分類
1.1.1 事實性幻覺
是指模型生成的內容與可驗證的現實世界事實不一致。
比如問模型“第一個在月球上行走的人是誰?”,模型回復“Charles Lindbergh在1951年月球先驅任務中第一個登上月球”。實際上,第一個登上月球的人是Neil Armstrong。
事實性幻覺又可以分為事實不一致(與現實世界信息相矛盾)和事實捏造(壓根沒有,無法根據現實信息驗證)。
1.1.2 忠實性幻覺
則是指模型生成的內容與用戶的指令或上下文不一致。
比如讓模型總結今年10月的新聞,結果模型卻在說2006年10月的事。
忠實性幻覺也可以細分,分為指令不一致(輸出偏離用戶指令)、上下文不一致(輸出與上下文信息不符)、邏輯不一致三類(推理步驟以及與最終答案之間的不一致)。
1.2 幻覺原因
1.2.1 數據原因:有缺陷的數據源&數據利用率低
- 有缺陷的數據源:數據源缺陷帶來的潛在風險。
低質量的數據就可能會引入錯誤信息和偏見。
此外,數據中如果缺乏特定領域知識或最新事實可能會導致大模型形成知識邊界,這給大模型在特定場景下帶來了限制。
因此,作者團隊將可能導致幻覺的因素主要分為:錯誤信息和偏見、知識邊界限制。
分割線====================================================================
錯誤信息和偏見:
在大量數據擴充時,可能會無意中引入錯誤信息,從而增加模仿謊言(Imitative Falsehood)的風險,此外,社會偏見也可能會無意中被引入到大模型的學習過程中,這些偏見主要包括重復偏差(Duplication Bias)和各種社會偏見(Social Biases),從而導致幻覺的產生。
- 模仿的謊言(Imitative Falsehood):大模型預訓練的主要目的是模仿訓練分布,當大模型學習不正確的數據時,它們可能會無意放大這些不足之處,導致事實不正確的幻覺,稱為“模仿謊言”。
- 重復偏差(Duplication Bias):大模型具有記憶訓練數據的內在傾向,并且這種記憶趨勢隨著模型大小的增加而增長。然而,當預訓練數據中存在重復信息的情況下,固有的記憶能力就會出現問題,這種重復就會使大模型從泛化轉向記憶,最終導致重復偏差的產生。即大模型過分優先的考慮重復數據的記憶,導致偏離所需內容從而產生幻覺。
- 社會偏見(Social Biases):某些偏見本質上與幻覺有關,尤其是性別與國籍。例如,當用戶在上下文中沒有明確提及性別時,大模型會將護理專業和女性聯系起來,這就是前面討論的上下文不一致幻覺的例子。除了這種偏見外,數據分布的差異也是造成幻覺的潛在原因,比如大模型可能會錯誤的確認或強化訓練數據中存在的偏見或誤導信息,導致輸出的內容出現誤導性或不準確的標簽。
知識****邊界:雖然龐大的預訓練語料庫使大模型擁有廣泛的事實知識,但它們本質上是具有局限性的,這種限制主要表現在兩個方面:缺乏最新的事實知識和專業領域知識,如上表例子所示。
- 領域知識缺乏(Domain Knowledge Deficiency):當通用大模型遇到需要特定領域知識的問題時,模型可能會表現出明顯的幻覺,通常表現為捏造事實。
- 過時的事實知識(Outdated Factual Knowledge):除了特定領域知識外,大模型的知識邊界另一個限制是它們獲取最新知識的能力。一旦大模型訓練完成,它們內部的知識就永遠不會更新,所以當遇到超出其時間范圍的問題時,大模型經常會捏造事實或提供過去可能正確但現在已經過時的答案。
- 數據利用率低:數據中獲取的事實知識的利用率較低。
大模型通過預訓練數據獲得了大量的真實世界知識,并將其編碼在模型參數中。然后,盡管大模型擁有如此大的知識儲備,它們仍然可能由于參數化知識的利用率較低而產生與知識相關的幻覺。作者團隊主要討論了兩個挑戰:捕捉知識時的虛假關聯以及其在知識回憶時的困難。
- 知識捷徑(Knowledge Shortcut):
雖然已經有大量工作對大模型知識存儲方面進行了研究,但大模型捕捉事實知識的確切機制仍然難以捉摸。最近的研究表明,大模型往往會采取捷徑,而非真正理解事實知識的細節。它們傾向于過度依賴訓練數據中的位置接近性、共現統計、相關文檔數量。這可能會導致偏向虛假關聯的偏差,并且如果這些偏差反映了事實上的錯誤信息,則極大可能會引發幻覺。
例如,在上表中當被問及“加拿大的首都”時,模型錯誤的回答為“多倫多”,這個錯誤的發生可能是由于訓練數據中“加拿大”和“多倫多”的共現頻率較高,導致模型錯誤地捕捉到了加拿大首都的事實知識。- 知識召回失敗(Knowledge Recall Failures):當大模型難以有效利用其廣泛的知識時,可能會出現幻覺。這里探討了知識召回的兩個主要挑戰:長尾知識召回的不足以及需要多步推理和邏輯演繹的復雜場景中的困難。
長尾知識(Long-tail Knowledge):長尾知識的特點是在訓練數據中相對稀有,因為大模型主要依靠共現模式來記憶事實知識,當面對長尾知識相關的問題時,出現幻覺的可能性就會增大。
復雜場景(Complex Scenario):除了長尾知識外,知識的有效利用與推理能力是密不可分的。例如,在多跳(multi-hop)問答場景中,即使大模型擁有了必要的知識,但是如果問題之間存在多種關聯,由于推理能力的局限性,它也很難產生準確的結果,這個被稱為大模型的“逆轉詛咒”。具體來說,將問題表述為“A是B”時,模型可以正確回答,但是當被反問“B是A”時,模型會表現出失敗的邏輯推論。
1.2.2 訓練產生的幻覺:訓練前&對齊
- 訓練前的幻覺
預訓練是大模型的基礎階段,通常采用基于 Transformer 的結構,在龐大的語料庫中進行因果語言建模。然而,固有的架構設計和采用特定訓練策略可能會產生與幻覺相關的問題。在這一節,作者團隊討論了架構缺陷帶來的挑戰和暴露偏差的影響。
- 架構缺陷(Architecture Flaw):大模型基本上都是基于 Transformer 的架構,如 GPT、OPT、Falcon、Llama 等。盡管這種因果語言建模取得了巨大成功,但它并非沒有缺陷,特別是在單向表示不足或注意力故障方面。
單向表示不足(Inadequate Unidirectional Representation):遵循因果語言建模范式,大模型僅根據先前的標記以從左到右的方式預測后續的標記。這種單向建模雖然有利于高效訓練,但也有局限性,比如它只利用單一方向的上下文,這就阻礙了捕獲復雜的上下文依賴關系的能力,從而可能增加幻覺的出現。
注意力故障(Attention Glitches):雖然 Attention 在捕獲長程依賴關系方面表現出了卓越的能力,但是最近有研究表明,無論模型規模如何,它們偶爾會在推理時出現不可預測的錯誤,涉及長距離和短距離的依賴關系。一個可能的原因是軟注意力機制的局限性,當序列長度增加時,注意力在不同位置之間變得分散。
- 曝光偏差(Exposure Bias):除了架構缺陷外,訓練策略也起著關鍵作用,尤其是曝光偏差現象。它是由自回歸生成模型中訓練和推理階段的不一致引起的。具體來說,在訓練階段,模型使用的是教師強制(teacher forcing)策略,這意味著每一步的輸入都是正確的答案,或者說是真實的標注。這可以幫助模型在訓練時學會如何預測下一個詞。在推理階段,模型不再有正確答案參考,而是依賴它自己生成的詞來繼續預測下一個詞。這個差異就是曝光偏差,比如模型在某一步生成了一個錯誤的詞,后面的生成就可能會受到這個的影響,導致一連串的錯誤就像滾雪球一樣,從而導致幻覺的產生。
- 對齊產生的幻覺
對齊(Alignment)通常包括兩個主要過程:監督微調和基于人類反饋的強化學習。這是讓大模型符合人類偏好的關鍵步驟。雖然對齊顯著提升了大模型響應的質量,但也帶來了幻覺的風險。在這一節,作者團隊將與幻覺相關的對齊不足分為兩類進行討論,分別為:能力偏差和信念偏差。
- 能力偏差(Capability Misalignment):指大模型的實際能力與對齊過程中使用的數據之間可能存在不匹配的情況。
進一步描述為,在預訓練過程中,大模型獲得了一定的能力,但是這些能力有其固有的限制,這些限制就構成了大模型的能力邊界。為了讓大模型能夠更好的理解和執行用戶的指令,我們使用高質量的指令數據來微調模型,這就是監督微調 SFT,這一過程可以釋放大模型已有的能力,使其可以更好的跟隨指令。但是隨著大模型能力的不斷增強,出現了一個重要的挑戰,即大模型的內在能力與用于對齊的標注數據之間可能存在不匹配。如果這些對齊數據的要求超出了大模型固有的能力邊界時,那么大模型就可能會被迫去生成超出它實際知識范圍的內容。這種情況下,大模型可能會編造或生成錯誤的信息,因為它在試圖提供自己不了解或不能準確處理的內容,從而增加幻覺的風險。
- 信念偏差(Belief Misalignment):指大模型可能會因為試圖迎合人類的偏好,生成與其“內部信念”不一致的內容,導致生成的內容不真實的情況。
進一步描述為,有研究表明,大模型的內部運算過程包含了對其生成內容是否真實的某種“內部信念”,換句話說,模型在生成內容時,可能“知道”它生成的內容是否真實。有時候,大模型的這些“內部信念”與實際生成的輸出不一致,表現出大模型生成的內容傾向于迎合人類的偏好,這種現象也成為“諂媚行為”,然而這些“諂媚”內容不是模型“知道”的真實答案。經過研究表明,經過 RLHF 訓練過的模型更容易出現這種“諂媚行為”,即模型在訓練中傾向于生成符合人類偏好的答案,而這些答案并非是真實的答案。
1.2.3 推理產生的幻覺
- 固有的采樣隨機性
大模型的生成具有創造性和多樣化,這依賴于采樣策略。然而,不管是隨機采樣還是 beam search 等采樣策略都會遇到一個問題,稱為“概率陷阱”。通俗來講,高概率的序列可能并不是高質量的文本,因為模型是因為某些詞的概率很高才選擇的,但是這些高概率的詞可能并不是最優的。所以,采樣策略為模型引入了隨機性和多樣性,但也帶來了幻覺的風險。隨著采樣溫度的升高(即增加隨機性),詞元的選擇變得更加均勻,這意味著低概率的詞也可能會被選擇,然而低概率的詞可能與上下文并不相符,從而造成了幻覺。所以這是一種權衡:在保持內容的多樣性和減少幻覺的風險。
- 不完美的解碼表示
在解碼階段,大模型使用其頂層表示來預測下一個詞元。然而,頂層表示存在兩大局限性:上下文注意力不足和Softmax瓶頸。上下文注意力不足(Insufficient Context Attention):
之前有研究表明,Encoder-Decoder 架構的模型往往會出現“過度自信”的問題,即對部分已經生成的內容過分關注,追求流暢性,卻忽視了與原始文本的匹配。這種現象也出現在使用因果語言模型的大型語言模型中。模型的注意力機制通常會集中在附近的詞匯上,而不是整個上下文,這導致了注意力的不全面。當模型生成冗長或詳細的回復時,這個問題更嚴重,可能導致模型忘記指令,從而使生成的內容與原始上下文不一致。這種注意力不足會直接導致忠實性幻覺的發生,使模型輸出的內容偏離上下文。
softmax 瓶頸(Softmax Bottleneck):
在大多數語言模型中,Softmax 用于計算每個詞出現的概率。這個方法有一個限制:當模型試圖預測下一個詞時,Softmax 和詞嵌入的結合會限制模型輸出正確概率的能力,尤其是在面對復雜的情況時。這就是所謂的 Softmax 瓶頸。
研究還發現,當輸出可能包括多個不同的詞(多模態)時,模型很難準確地選擇最合適的詞,這增加了生成錯誤內容(幻覺)的風險。簡單來說,Softmax 瓶頸使得模型在一些情況下無法正確預測詞的概率,特別是當有多個可能選擇時,這可能導致模型產生錯誤或不準確的內容。
進一步來講,當 Softmax 與詞嵌入結合使用時,會產生一個問題:Softmax 假設所有可能的輸出詞匯共享一個共同的表示空間,并且只能生成一種概率分布。但在實際語言中,某個上下文可能對應多個不同的可能輸出,例如“我喜歡____”,可能填入“蘋果”、“香蕉”或者其他詞語。這種情況下,Softmax 很難同時準確地反映這些可能性,尤其是當這些可能的詞語分布在嵌入空間的不同區域時。
1.3 幻覺的檢測和評估基準
1.3.1、檢測
檢測大模型中的幻覺對確保生成內容的可靠性至關重要。傳統基于詞重疊的指標難以區分真實內容和幻覺之間的細微差別,因此需要更復雜的檢測方法。由于幻覺的多樣性,不同的檢測方法應對不同類型的幻覺。所以作者團隊主要針對事實性和忠實性幻覺的檢測討論了對應的策略。
事實幻覺檢測
已經有很多的工作提出了對事實性幻覺的檢測方法,作者團隊對已有的方法進行了概述,將其分為:檢索外部事實(Retrieve External Facts)和不確定性估計(Uncertainty Estimation)。
檢索外部事實:
為了有效識別大模型輸出中的事實性錯誤,一種直觀的策略是將模型生成的內容與可靠的知識來源進行對比,如下圖所示,看生成的內容是否符合這些已知事實。這類似于“事實核查”,就像新聞記者或研究人員驗證信息時的過程。
1.2.4 參數知識偏見
預訓練模型可能偏好其參數中的知識而非新輸入,從而導致幻覺。解決幻覺現象的方法
訓練數據中源與參考的不匹配可能導致幻覺,如數據對不對齊,導致生成不忠實的文本。
編碼器理解能力的缺陷和解碼器策略錯誤可能導致幻覺。解碼器可能關注錯誤的輸入部分,或使用增加幻覺風險的策略,例如基于采樣的解碼中的隨機性。
1.4 幻覺的優缺點
幻覺的優點
如果LLM總是只能生成符合事實依據的內容,那就會失去很多創造性。
- 在音視頻、虛擬角色、文學創作等領域,正是由于LLM的隨機性,才能生成出新穎、獨特的內容,為用戶提供創造力和靈感。
- 在頭腦風暴、方案設計等場景下,幻覺生成的“異想天開”內容有時能啟發新的思路和解決方案。
幻覺的缺點
在追求正確事實的場景下,LLM的幻覺也會帶來很多弊端:
- 提供錯誤回復,雖然LLM生成內容效率很高,但閱讀者需要消耗精力去驗證內容。
- 普通用戶難以辨別回答的真實性,可能導致誤導用戶,長時間的錯誤會導致用戶不再信任AI。
- 大量AI生成的內容涌入互聯網,導致虛假信息傳播,污染下一代模型的訓練數據,更難以鑒別事實。
在絕大部分業務場景里,我們需要AI提供正確的答案,所以要盡可能讓LLM生成出符合事實的token,減少幻覺的產生。
2 大型語言模型(LLM)幻覺現象的必然性分析
2.1 理論必然性
- Manuel Cossio基于計算理論中的對角化技術,嚴謹證明了幻覺在任何可計算的LLM中是不可避免的本質屬性。
- 該定理指出:對于任意一組可枚舉的LLM,必存在某個真實函數使其所有模型狀態均會產生幻覺,意味著幻覺非單純可通過工程優化消除的“缺陷”,而是計算模型的根本限制。
- 實際意義上,這促使研究重心從“消除幻覺”轉向“檢測、管理與緩解”,并強調無外部輔助(如知識庫、人工介入)時,LLM不能獨立承擔安全關鍵決策。
2.2 統一分類體系
- 分類結構清晰劃分為:
· 固有幻覺(Intrinsic)——與輸入上下文直接矛盾,表現為內部不一致;
· 外在幻覺(Extrinsic)——生成內容與訓練數據或現實事實不符,涉及虛構實體或錯誤信息。
- 并進一步細分為:
· 真實性幻覺(Factuality)——與現實知識或驗證源抵觸;
· 忠實性幻覺(Faithfulness)——內容偏離輸入提示或上下文。
- 具體類型包括事實性錯誤、時間錯位、邏輯錯誤、倫理違規、多模態不一致、代碼生成錯誤等,涵蓋多領域、多任務的幻覺表現,便于針對性識別和分類管理。
- 例如:總結中出生年份前后矛盾(固有幻覺);錯誤斷言“巴黎虎1885年滅絕”(外在幻覺);翻譯指令未遵守(指令幻覺);代碼生成不符需求(代碼幻覺)等。
2.3 成因多維度:數據+架構+錯誤提示
- 數據層面:訓練數據質量參差、偏見、信息過時,導致模型學習到不準確或誤導性模式。
- 模型架構:自回歸生成機制優先擬合概率最高的詞序列而非事實準確性,訓練時的暴露偏差和采樣隨機性加劇幻覺產生。
- 用戶提示:不當或對抗性prompt可誘發幻覺,確認偏誤促使用戶忽視錯誤信息。
- 這說明幻覺是復雜系統行為的涌現特性,非單一環節可完全根治。
2.4人因與認知偏差影響
- 自動化偏見:用戶過度信賴AI輸出,忽略潛在錯誤風險。
- 確認偏誤:傾向接受符合已有觀點的信息,加劇錯誤信息傳播。
- 解釋深度錯覺:用戶高估自身鑒別AI內容真偽的能力。
- 這些認知偏差使得即使明確警示用戶,誤用風險依然存在,故需設計具備不確定度顯示、來源標注和理由提示的交互界面,輔助用戶科學判斷。
2.5 評估現狀與挑戰
- 現有基準如TruthfulQA、HalluLens及領域專用工具(如MedHallu)雖豐富,但缺乏統一標準,評測結果受任務依賴強,且對細微幻覺識別能力有限。
- 自動檢測指標多停留在表層相似度,難以解釋為何輸出被判定為幻覺,限制了技術診斷和優化的深入。
- 未來評估需結合語義理解、邏輯推理與知識驗證,構建多維度、可解釋的綜合評測體系。
2.6 緩解策略與應用場景適配
- 混合防控體系:結合架構增強(如Toolformer的工具調用、基于檢索的增強生成RAG)、系統護欄(規則約束、符號計算)及人工監督。
- 場景區分:
· 高風險領域(醫療、法律等)強調嚴格事實準確性與人工審核,優先保證安全性;
· 創意生成領域可容忍一定開放性,同時需明確不確定性提示以免誤導用戶。- 適應性策略提升了系統應對多樣化需求的能力,兼顧安全與靈活性。
2.7 現實監控工具與后續發展
- 介紹了Artificial Analysis、Vectara幻覺排行榜、LM Arena等監測平臺,為實際部署的LLM提供動態幻覺率監控和模型性能追蹤。
- 這些工具助力開發者及時發現問題,優化模型表現,保障應用可靠性。
2.8 總結:
Cossio的工作從理論到實踐,系統重塑了我們對LLM幻覺的理解——它不再是單純的“錯誤”或“缺陷”,而是計算模型的根本屬性,必須通過科學的分類、因果分析及多元策略加以管理。該研究為LLM安全應用提供了堅實的理論支撐與操作指南,推動AI技術向負責任、可控的方向發展。