從GPT-5發布來分析LLM大模型幻覺收斂（一）

????????GPT-5 號稱在任何領域都有博士級別能力。在醫療健康領域，能夠對專業的癌癥診斷報告做通俗易懂的解讀。對復雜的放射治療方案決策，也能提供詳細的分析報告，幫助病人權衡利弊。一位癌癥患者的家屬在發布會上表示，“ 真正鼓舞人心的是看著她通過使用 GPT-5 重新獲得自主權，病人很容易感到無助，因為知識差距太大了。?? ??

但是也有人使用后反饋，GPT-5?“ 變蠢了 ”、“ 沒創造力了 ”、“ 不靈動了 ”、“ 回答很干癟 ”。

實際上，這并不是一個讓人意外的結果。

為什么會變成這樣？這是不是說明GPT-5能力并沒有說的那么強，其實不是，因為 GPT-5 的其中一個特性是幻覺率顯著降低，而降低模型幻覺率的一個主要代價就是模型的輸出會顯得更嚴謹，更缺少讓你意外的回答。

如果我們理解LLM大語言模型的運行原理就能知道GPT-5為什么要這么處理了，大模型生成的內容是概率產物，模型本質意義上是一個條件概率分布的近似器，它的創造力來自于更寬松的概率分布，而當你想讓它答案更精準、低幻覺時，它的概率分布必然收緊，這樣的收緊減少了有更多創造力的可能。

????????我們一直在吐槽各家大模型的幻覺率太高并且愈演愈烈，認為這是一種 “ 病 ”，廠商們也使出渾身解數來治這個 “ 病 ”，微調、RAG、MCP 等新 “ 藥方 ” 一個接一個。

現在，高幻覺率的問題被一定程度解決，大家又吐槽模型回答的不夠好，不夠圓潤，這就陷入了一種無法打破的死循環

????????大語言模型理論上不可能完全消除幻覺。還有研究表明，越抑制幻覺，大語言模型的泛化性越差，也就是能夠適用的場景越受限，這與業界希望全方位推廣 AI 的愿景顯然是相悖的。

這其實也反映出，幻覺帶來的影響并非永遠都是負面的，需要辯證看待。

????????幻覺是不是幻覺、幻覺的影響是不是負面、幻覺的負面影響有多大，都是相對的，和使用者的能力和需求、場景的特性和需求、使用前后效率對比、現實世界的變化等因素都有關。

一、大模型實際應用中常見的幻覺類型

大模型的 “ 幻覺 ” 指的是 AI 系統生成或推斷出與人類經驗不符的內容或結論。

這里 “ 人類經驗 ” 必須是 “ 正確 ” 的，限于個人認知的差異，所以必須認識到 “ 幻覺 ” 也是相對的。

在大模型應用中，幻覺無法完全避免。

可以將幻覺分為 5 個類別：

語言生成中的幻覺

推理與邏輯錯誤

過度簡化與常識錯誤

數據錯誤或無依據推理

時效性錯誤

語言生成中的幻覺是大模型最常見的一種幻覺，尤其是在內容生成類的應用中。例如在生成代碼時，AI 可能會編造 Library 或 API 來完成代碼的生成。

????????大模型還可能在進行邏輯推理時產生錯誤。例如在使用 Roo Code 插件進行代碼生成時，經常遇到指定上下文后，大模型仍然會根據項目中其它上下文做出錯誤的推理。

????????關于過度簡化與常識錯誤，AI 雖然能夠處理大量信息，但它在應對一些需要深度常識、實際經驗的場景時，容易出現過度簡化的情況。例如 AI 可能會說 “ 為了快速減肥，可以不吃任何食物 ”，這顯然是不科學的。

????????關于數據錯誤或無依據推理，在某些場景下，AI 模型可能會基于不完全或者錯誤的數據生成答案（尤其當訓練樣本中摻雜大模型生成的幻覺內容時更甚）。例如，在醫療應用中，AI 根據患者的癥狀生成診斷建議，但如果這些癥狀與訓練數據不匹配，或者訓練數據本身存在偏差（如某些相同指標數據指向不同病癥，從而需要醫生以個人理解進行具體判斷的情況），模型就可能給出錯誤的診斷結果。

最后，幻覺很多時候來源于模型訓練時知識和概念在時間上的局限性。

二、大模型的幻覺會在企業應用中帶來哪些負面影響與成本損耗

????????關于幻覺可能產生的 “ 成本損耗 ”，需要代入到具體應用場景分析。

????????用戶差異會帶來巨大的成本評估差異。假設生產效率的影響小于大模型應用前的歷史效率，總體上并不會產生 “ 成本損耗 ”。

????????比如。一個行政人員使用 Cursor 生產一個表格信息收集工具，即便生產效率低下錯誤頻出，生產效率仍然可能大于：找產品提需求、找研發開發、找測試評估、找運維部署。因此，Cursor 雖然經常犯錯誤，仍然有大量用戶，因為用戶認為 Cursor 的效率是大于自身的。

????????但若這個場景的用戶是研發人員，錯誤頻出帶來的效率降低，顯著大于：安裝依賴、查找文檔、編寫代碼，那么 Cursor 在這個場景大概率會被研發人員拋棄。

????????所以，成本損耗和效率的影響都是相對的。

????????進一步看，幻覺的負面影響還可以分為兩類：

預測錯誤，如果“錯誤”易于識別，則影響的是生產效率；
如果 “ 錯誤 ” 難以識別（例如預測錯誤發生在使用者不熟悉的領域），則影響的是應用效果。

三、如何根據幻覺率高低進行產品落地可行性決策

????????如果大模型的幻覺率過高，特別是在關鍵決策領域（如醫療、金融、法律等），則這些產品的應用將面臨嚴重的挑戰。對于這類應用，企業的目標是盡量減少錯誤和幻覺，因為一個錯誤的決策可能導致巨大的財務損失或法律責任。

????????對于一些風險容忍度較高的應用場景（如內容推薦、廣告投放等），企業會接受一定程度的幻覺，畢竟這些應用的目的是提升用戶體驗和增加商業效益，而不完全是做出精準決策。

????????通常，企業會設置一個 “ 安全邊界 ” 來限定幻覺率，確保在可接受范圍內。過高的幻覺率會增加企業的風險和成本，過低的幻覺率則可能意味著模型的復雜度和計算成本過高，導致收益無法覆蓋成本。

四、解決LLM大模型幻覺有哪些方法，具體效果怎么樣

????????常用的方案有三種：合適的模型、In-Context-Learning、微調。

????????首先，海量參數的大模型因為 “ Scaling Law ” 會緩解幻覺出現的概率；其次，借助各種提示詞工程和 RAG 等技術，“ In Context Learning ”（在不進行參數更新的情況下，通過在輸入中提供示例來學習和完成新任務）被實踐證明能夠大幅降低幻覺出現的概率；最后，使用 “ 繼續訓練 ” 的微調技術，在一些場景中可以一定程度降低幻覺。

????????為緩解語言生成幻覺和過度簡化幻覺，一般采用擴大訓練樣本和模型參數來解決，即采用更合適的模型。

????????為緩解邏輯推理錯誤，在 MCP 生態出來后，最火的就是：Sequential Thinking MCP Server，幫助大模型把復雜問題降級為諸多微任務，以期待降低大模型出現幻覺的概率。這屬于 In-Context Learning 方法。

????????緩解數據錯誤或無依據推理幻覺一般也是采用 In-Context Learning 方法。

????????為緩解時效性局限帶來的幻覺，比如編程領域，現在行業里有很多人在用 Context Server，也就是 MCP 的 Server，當調用 API 時，它能幫我檢查這個 API 的最新版本文檔和接口參數說明，避免使用了老版本的 API，保證生成代碼的準確性，這屬于 In-Context Learning 方法。

????????醫療、金融、法務等行業對精度要求非常高，使用 RAG 最多的就是這些行業。但是，由于 RAG 需要向量存儲、檢索服務，且會大幅度增加計算成本，某些行業的特定領域使用大模型微調技術，降低 RAG 帶來的成本，也能找到成本與效果的平衡點。

????????對于內容推薦、廣告投放等可以容忍一定程度錯誤的應用場景，AI 的幻覺率可以稍高一些，同時開發成本也會降低。最典型的例子就是 “ mini-gpt ” 開源項目，僅用幾個小時訓練一個幾百兆大小的小模型，就可以很好的生成兒童繪本級別的小故事。

????????中低精度要求和更低成本的情況下，小尺寸模型也是能接受的，比如 Qwen3-0.6B，In-Context-Learning 可以不使用或簡單使用，可以使用少量（數百、千條數據即可）行業優秀的案例數據進行微調，因為基礎模型參數量小，微調的成本也不會太高。

????????但總體而言，微調的效果和風險還是普遍存在。模型通過微調從通用模型過渡到領域特定模型時，是有可能丟失原有的通用知識的。

????????而對于所謂垂直領域大模型，在我個人實踐中發現，由于大部分場景都需要跨領域知識，反而使垂直領域大模型的應用效果受到限制，實際效果和微調技術基本持平。

????????最近行業里有一些論文在研究怎么讓大語言模型實現 Self Learning，也就是說它能在服務過程中對自己的參數進行微調，隨著使用不斷學習和提升，克服時效性的局限。比如，麻省理工（ MIT ）最近提出的 Self Adapting Language Models（ SEAL ）是一種模型能夠 “ 自行學習 ” 的技術：模型通過生成自己的合成訓練數據并用于自我更新，迎向 “ 終生學習 ” 之路。但該方法仍存在 “ 災難性遺忘 ”、計算資源高、學習調度復雜等挑戰。

????????當下，由于大模型的基礎框架局限于 Transformer 和 Diffusion，并且在基礎框架層面并沒有顯著的技術突破，上述方案應該在大模型基礎框架技術變革前是有效的。

五、垂直領域大模型效果受限，還是垂域模型比通用模型能力更強

????????垂直領域大模型雖然掌握了行業知識，在特定任務上表現更好，比如在醫療這種病種類目極多、具備極強專業深度的領域。但在復雜推理或跨領域理解上仍顯不足，尤其在任務更復雜、數據稀缺時更明顯。

????????如果數據多樣性有限而規則復雜，比如材料科學，訓練出的模型往往傾向于 “ 記憶 ” 而不是建立泛化機制。只有當數據多樣性足夠高，才可能促進泛化。

????????最后，成本與收益不匹配。相比訓練一個垂直大模型，微調已有模型 + 機制（如 RAG ）往往更低成本，效果也更穩健。

?????????總體而言，只要是涉及到標準化流程或比較依賴規則、先驗的工作，RAG 都會用得比較多。

其實 RAG 有不少局限性，不同行業使用 RAG 的場景需求也不同。

????????在法律行業，有時候應用中不只涉及法律法規，還包括案例、法律解釋、政策等。這就比一般的 RAG 難度高一些，主要是時效性要求高，因為法律是在不斷建設中的，各地對法律法規也可能有不同的解釋。

????????在醫療行業，現在大語言模型在時序理解上的局限性，會限制 RAG 應用的效果。當前的 RAG 更多是對概念背后所代表的含義進行理解和解釋。但是在醫療行業里，通常要解釋的是臨床數據和病例。

????????比如一個病人有一系列的檢查、體檢數據，包含各項指標在一定時間段比如一年內的變化情況。這些變化的含義不是簡單通過 RAG 就能查詢出來的。因為它有很大的個體性差異，比如性別、地域、年齡等各種因素的影響，也可能要結合上次檢查和這次檢查的對比，以及和其他類似患者的的對比。

????????不像其它領域，比如醫療領域可以直接生成病例、診斷書等，或者法律領域可以生成訴狀、裁決書等，金融行業在應用 AI 時，最終產生的結果更多是偏向建議或者輔助性的。因為使用 AI 會產生的一些問題和風險，目前用 RAG 加大語言模型的方式是難以規避的。因此金融行業傾向于更嚴謹的方式，比如在里面穿插一些傳統的機器學習算法，用來對決策背后可能產生的問題和風險進行估計。

六、幻覺緩解的技術路徑探索過，關于微調和效果和風險深入了解

????????對模型做微調，或訓練自己的 LoRA。比如輕辦公領域，針對用戶場景識別和服務推薦場景做微調或 LoRA。但我們發現，等花了半年甚至一年的時間訓練并上線后，大語言模型自身更新帶來的收益，往往已經超過了我們做這些工作的收益。

????????通過微調技術調整模型參數的時候，最大的問題在于參數調整可能帶來一些無法預期的后果。比如模型本身是無法處理 “ 沖突 ” 的，如果新數據與模型原有知識發生了沖突，經常會發生 “ 正確 ” 的數據遮蔽了 “ 正確 ” 的知識，甚至會導致 “ 災難性遺忘 ” 的情況發生。“ 災難性遺忘 ”（ Catastrophic Forgetting，也稱 catastrophic interference）是指模型在學習新任務或新知識時，嚴重遺忘先前所學能力的現象，尤其在順序訓練或持續微調中表現突出。即便是 AI 產品在服務過程中不斷更新權重，即 Continual Learning，也只是一種微調，傳統微調具備的缺點它都有。

????????在大型語言模型中，這種現象尤為關鍵：模型的知識分布式存儲于權重中，當在新領域訓練時，部分權重被重寫，導致模型原有的廣泛語言能力或事實知識退化。

????????在研究中，1B 到 7B 大小的 LLM 在持續微調后普遍出現災難性遺忘，甚至隨著模型規模增大（但仍在這一范圍內），遺忘現象反而更嚴重。

????????舉個例子：一個針對醫療診斷微調的模型，可能會 “ 忘記 ” 基礎的數學能力或一般寫作能力。這個問題和大語言模型本身的技術特點相關，除非整個大語言模型技術發生本質性的革新，否則短期內這個問題比較難解決。

????????現在的大語言模型權重參數非常多，而且缺乏可解釋性。更新某些權重時，會對哪些權重或者什么情況下的推理產生負面影響，目前很難評估。所以，災難性遺忘或者權重沖突的具體原因，目前只能通過最終結果的評估來檢驗。

????????在實際測試對比下，In-Context Learning、RAG 往往比微調模型具有更好的泛化能力和穩定性。

????????總體來說，模型微調或者 LoRA 的效果，通常小于 RAG 的效果，因為 RAG 可以去修改數據，靈活性更強。而通過很多論文和行業數據都能看到，RAG 的效果一般又小于 In-Context Learning，因為后者是實時地把必要的知識或輔助信息當做 context 注入模型。

????????所以，后來我們更傾向于做 RAG、 In-Context Learning 這類優化。而實際上相比之下，目前我們 In-Context Learning 的應用還比較少。

????????原因在于 In-Context Learning 需要更豐富、結構化且準確的 context，而這些 context 比較難獲取。比如現在要幫產品經理寫一個新項目的產品文檔，來做產品策劃。產品的用戶定位、功能定義、用戶流程、UI 交互等，涉及多個領域。這些領域的知識和內容，要決定哪些需要提煉放入 context，去做 In-Context Learning，實際上有很大挑戰。從目前實踐效果來看，用工程或編程手段去解決，效果不如用 RAG 好。

????????但很多服務中，比如用戶完成一件事后還會接著做下一件事，也就是當用戶有連續性任務時，In-Context Learning 的應用門檻會相對低一些，因為可以知道用戶當前場景變化和上一件事情的結果。