????????GPT-5 號稱在任何領域都有博士級別能力。在醫療健康領域,能夠對專業的癌癥診斷報告做通俗易懂的解讀。對復雜的放射治療方案決策,也能提供詳細的分析報告,幫助病人權衡利弊。一位癌癥患者的家屬在發布會上表示,“ 真正鼓舞人心的是看著她通過使用 GPT-5 重新獲得自主權,病人很容易感到無助,因為知識差距太大了。?? ??
但是也有人使用后反饋,GPT-5?“ 變蠢了 ”、“ 沒創造力了 ”、“ 不靈動了 ”、“ 回答很干癟 ”。
實際上,這并不是一個讓人意外的結果。
為什么會變成這樣?這是不是說明GPT-5能力并沒有說的那么強,其實不是,因為 GPT-5 的其中一個特性是幻覺率顯著降低,而降低模型幻覺率的一個主要代價就是模型的輸出會顯得更嚴謹,更缺少讓你意外的回答。
如果我們理解LLM大語言模型的運行原理就能知道GPT-5為什么要這么處理了,大模型生成的內容是概率產物,模型本質意義上是一個條件概率分布的近似器,它的創造力來自于更寬松的概率分布,而當你想讓它答案更精準、低幻覺時,它的概率分布必然收緊,這樣的收緊減少了有更多創造力的可能。
????????我們一直在吐槽各家大模型的幻覺率太高并且愈演愈烈,認為這是一種 “ 病 ”,廠商們也使出渾身解數來治這個 “ 病 ”,微調、RAG、MCP 等新 “ 藥方 ” 一個接一個。
現在,高幻覺率的問題被一定程度解決,大家又吐槽模型回答的不夠好,不夠圓潤,這就陷入了一種無法打破的死循環
????????大語言模型理論上不可能完全消除幻覺。還有研究表明,越抑制幻覺,大語言模型的泛化性越差,也就是能夠適用的場景越受限,這與業界希望全方位推廣 AI 的愿景顯然是相悖的。
這其實也反映出,幻覺帶來的影響并非永遠都是負面的,需要辯證看待。
????????幻覺是不是幻覺、幻覺的影響是不是負面、幻覺的負面影響有多大,都是相對的,和使用者的能力和需求、場景的特性和需求、使用前后效率對比、現實世界的變化等因素都有關。
一、大模型實際應用中常見的幻覺類型
大模型的 “ 幻覺 ” 指的是 AI 系統生成或推斷出與人類經驗不符的內容或結論。
這里 “ 人類經驗 ” 必須是 “ 正確 ” 的,限于個人認知的差異,所以必須認識到 “ 幻覺 ” 也是相對的。
在大模型應用中,幻覺無法完全避免。
可以將幻覺分為 5 個類別:
語言生成中的幻覺
推理與邏輯錯誤
過度簡化與常識錯誤
數據錯誤或無依據推理
時效性錯誤
語言生成中的幻覺是大模型最常見的一種幻覺,尤其是在內容生成類的應用中。例如在生成代碼時,AI 可能會編造 Library 或 API 來完成代碼的生成。
????????大模型還可能在進行邏輯推理時產生錯誤。例如在使用 Roo Code 插件進行代碼生成時,經常遇到指定上下文后,大模型仍然會根據項目中其它上下文做出錯誤的推理。
????????關于過度簡化與常識錯誤,AI 雖然能夠處理大量信息,但它在應對一些需要深度常識、實際經驗的場景時,容易出現過度簡化的情況。例如 AI 可能會說 “ 為了快速減肥,可以不吃任何食物 ”,這顯然是不科學的。
????????關于數據錯誤或無依據推理,在某些場景下,AI 模型可能會基于不完全或者錯誤的數據生成答案( 尤其當訓練樣本中摻雜大模型生成的幻覺內容時更甚 )。例如,在醫療應用中,AI 根據患者的癥狀生成診斷建議,但如果這些癥狀與訓練數據不匹配,或者訓練數據本身存在偏差( 如某些相同指標數據指向不同病癥,從而需要醫生以個人理解進行具體判斷的情況 ),模型就可能給出錯誤的診斷結果。
最后,幻覺很多時候來源于模型訓練時知識和概念在時間上的局限性。
二、大模型的幻覺會在企業應用中帶來哪些負面影響與成本損耗
????????關于幻覺可能產生的 “ 成本損耗 ”,需要代入到具體應用場景分析。
????????用戶差異會帶來巨大的成本評估差異。假設生產效率的影響小于大模型應用前的歷史效率,總體上并不會產生 “ 成本損耗 ”。
????????比如。一個行政人員使用 Cursor 生產一個表格信息收集工具,即便生產效率低下錯誤頻出,生產效率仍然可能大于:找產品提需求、找研發開發、找測試評估、找運維部署。因此,Cursor 雖然經常犯錯誤,仍然有大量用戶,因為用戶認為 Cursor 的效率是大于自身的。
????????但若這個場景的用戶是研發人員,錯誤頻出帶來的效率降低,顯著大于:安裝依賴、查找文檔、編寫代碼,那么 Cursor 在這個場景大概率會被研發人員拋棄。
????????所以,成本損耗和效率的影響都是相對的。
????????進一步看,幻覺的負面影響還可以分為兩類:
預測錯誤,如果“錯誤”易于識別,則影響的是生產效率;
如果 “ 錯誤 ” 難以識別(例如預測錯誤發生在使用者不熟悉的領域),則影響的是應用效果。
三、如何根據幻覺率高低進行產品落地可行性決策
????????如果大模型的幻覺率過高,特別是在關鍵決策領域( 如醫療、金融、法律等 ),則這些產品的應用將面臨嚴重的挑戰。對于這類應用,企業的目標是盡量減少錯誤和幻覺,因為一個錯誤的決策可能導致巨大的財務損失或法律責任。
????????對于一些風險容忍度較高的應用場景( 如內容推薦、廣告投放等 ),企業會接受一定程度的幻覺,畢竟這些應用的目的是提升用戶體驗和增加商業效益,而不完全是做出精準決策。
????????通常,企業會設置一個 “ 安全邊界 ” 來限定幻覺率,確保在可接受范圍內。過高的幻覺率會增加企業的風險和成本,過低的幻覺率則可能意味著模型的復雜度和計算成本過高,導致收益無法覆蓋成本。
四、解決LLM大模型幻覺有哪些方法,具體效果怎么樣
????????常用的方案有三種:合適的模型、In-Context-Learning、微調。
????????首先,海量參數的大模型因為 “ Scaling Law ” 會緩解幻覺出現的概率;其次,借助各種提示詞工程和 RAG 等技術,“ In Context Learning ”( 在不進行參數更新的情況下,通過在輸入中提供示例來學習和完成新任務 )被實踐證明能夠大幅降低幻覺出現的概率;最后,使用 “ 繼續訓練 ” 的微調技術,在一些場景中可以一定程度降低幻覺。
????????為緩解語言生成幻覺和過度簡化幻覺,一般采用擴大訓練樣本和模型參數來解決,即采用更合適的模型。
????????為緩解邏輯推理錯誤,在 MCP 生態出來后,最火的就是:Sequential Thinking MCP Server,幫助大模型把復雜問題降級為諸多微任務,以期待降低大模型出現幻覺的概率。這屬于 In-Context Learning 方法。
????????緩解數據錯誤或無依據推理幻覺一般也是采用 In-Context Learning 方法。
????????為緩解時效性局限帶來的幻覺,比如編程領域,現在行業里有很多人在用 Context Server,也就是 MCP 的 Server,當調用 API 時,它能幫我檢查這個 API 的最新版本文檔和接口參數說明,避免使用了老版本的 API,保證生成代碼的準確性,這屬于 In-Context Learning 方法。
????????醫療、金融、法務等行業對精度要求非常高,使用 RAG 最多的就是這些行業。但是,由于 RAG 需要向量存儲、檢索服務,且會大幅度增加計算成本,某些行業的特定領域使用大模型微調技術,降低 RAG 帶來的成本,也能找到成本與效果的平衡點。
????????對于內容推薦、廣告投放等可以容忍一定程度錯誤的應用場景,AI 的幻覺率可以稍高一些,同時開發成本也會降低。最典型的例子就是 “ mini-gpt ” 開源項目,僅用幾個小時訓練一個幾百兆大小的小模型,就可以很好的生成兒童繪本級別的小故事。
????????中低精度要求和更低成本的情況下,小尺寸模型也是能接受的,比如 Qwen3-0.6B,In-Context-Learning 可以不使用或簡單使用,可以使用少量( 數百、千條數據即可 )行業優秀的案例數據進行微調,因為基礎模型參數量小,微調的成本也不會太高。
????????但總體而言,微調的效果和風險還是普遍存在。模型通過微調從通用模型過渡到領域特定模型時,是有可能丟失原有的通用知識的。
????????而對于所謂垂直領域大模型,在我個人實踐中發現,由于大部分場景都需要跨領域知識,反而使垂直領域大模型的應用效果受到限制,實際效果和微調技術基本持平。
????????最近行業里有一些論文在研究怎么讓大語言模型實現 Self Learning,也就是說它能在服務過程中對自己的參數進行微調,隨著使用不斷學習和提升,克服時效性的局限。比如,麻省理工( MIT )最近提出的 Self Adapting Language Models( SEAL )是一種模型能夠 “ 自行學習 ” 的技術:模型通過生成自己的合成訓練數據并用于自我更新,迎向 “ 終生學習 ” 之路。但該方法仍存在 “ 災難性遺忘 ”、計算資源高、學習調度復雜等挑戰 。
????????當下,由于大模型的基礎框架局限于 Transformer 和 Diffusion,并且在基礎框架層面并沒有顯著的技術突破,上述方案應該在大模型基礎框架技術變革前是有效的。
五、垂直領域大模型效果受限,還是垂域模型比通用模型能力更強
????????垂直領域大模型雖然掌握了行業知識,在特定任務上表現更好,比如在醫療這種病種類目極多、具備極強專業深度的領域。但在復雜推理或跨領域理解上仍顯不足,尤其在任務更復雜、數據稀缺時更明顯。
????????如果數據多樣性有限而規則復雜,比如材料科學,訓練出的模型往往傾向于 “ 記憶 ” 而不是建立泛化機制。只有當數據多樣性足夠高,才可能促進泛化。
????????最后,成本與收益不匹配。相比訓練一個垂直大模型,微調已有模型 + 機制( 如 RAG )往往更低成本,效果也更穩健。
?????????總體而言,只要是涉及到標準化流程或比較依賴規則、先驗的工作,RAG 都會用得比較多。
其實 RAG 有不少局限性,不同行業使用 RAG 的場景需求也不同。
????????在法律行業,有時候應用中不只涉及法律法規,還包括案例、法律解釋、政策等。這就比一般的 RAG 難度高一些,主要是時效性要求高,因為法律是在不斷建設中的,各地對法律法規也可能有不同的解釋。
????????在醫療行業,現在大語言模型在時序理解上的局限性,會限制 RAG 應用的效果。當前的 RAG 更多是對概念背后所代表的含義進行理解和解釋。但是在醫療行業里,通常要解釋的是臨床數據和病例。
????????比如一個病人有一系列的檢查、體檢數據,包含各項指標在一定時間段比如一年內的變化情況。這些變化的含義不是簡單通過 RAG 就能查詢出來的。因為它有很大的個體性差異,比如性別、地域、年齡等各種因素的影響,也可能要結合上次檢查和這次檢查的對比,以及和其他類似患者的的對比。
????????不像其它領域,比如醫療領域可以直接生成病例、診斷書等,或者法律領域可以生成訴狀、裁決書等,金融行業在應用 AI 時,最終產生的結果更多是偏向建議或者輔助性的。因為使用 AI 會產生的一些問題和風險,目前用 RAG 加大語言模型的方式是難以規避的。因此金融行業傾向于更嚴謹的方式,比如在里面穿插一些傳統的機器學習算法,用來對決策背后可能產生的問題和風險進行估計。
六、幻覺緩解的技術路徑探索過,關于微調和效果和風險深入了解
????????對模型做微調,或訓練自己的 LoRA。比如輕辦公領域,針對用戶場景識別和服務推薦場景做微調或 LoRA。但我們發現,等花了半年甚至一年的時間訓練并上線后,大語言模型自身更新帶來的收益,往往已經超過了我們做這些工作的收益。
????????通過微調技術調整模型參數的時候,最大的問題在于參數調整可能帶來一些無法預期的后果。比如模型本身是無法處理 “ 沖突 ” 的,如果新數據與模型原有知識發生了沖突,經常會發生 “ 正確 ” 的數據遮蔽了 “ 正確 ” 的知識,甚至會導致 “ 災難性遺忘 ” 的情況發生。“ 災難性遺忘 ”( Catastrophic Forgetting,也稱 catastrophic interference)是指模型在學習新任務或新知識時,嚴重遺忘先前所學能力的現象,尤其在順序訓練或持續微調中表現突出。即便是 AI 產品在服務過程中不斷更新權重,即 Continual Learning,也只是一種微調,傳統微調具備的缺點它都有。
????????在大型語言模型中,這種現象尤為關鍵:模型的知識分布式存儲于權重中,當在新領域訓練時,部分權重被重寫,導致模型原有的廣泛語言能力或事實知識退化。
????????在研究中,1B 到 7B 大小的 LLM 在持續微調后普遍出現災難性遺忘,甚至隨著模型規模增大( 但仍在這一范圍內 ),遺忘現象反而更嚴重。
????????舉個例子:一個針對醫療診斷微調的模型,可能會 “ 忘記 ” 基礎的數學能力或一般寫作能力。這個問題和大語言模型本身的技術特點相關,除非整個大語言模型技術發生本質性的革新,否則短期內這個問題比較難解決。
????????現在的大語言模型權重參數非常多,而且缺乏可解釋性。更新某些權重時,會對哪些權重或者什么情況下的推理產生負面影響,目前很難評估。所以,災難性遺忘或者權重沖突的具體原因,目前只能通過最終結果的評估來檢驗。
????????在實際測試對比下,In-Context Learning、RAG 往往比微調模型具有更好的泛化能力和穩定性。
????????總體來說,模型微調或者 LoRA 的效果,通常小于 RAG 的效果,因為 RAG 可以去修改數據,靈活性更強。而通過很多論文和行業數據都能看到,RAG 的效果一般又小于 In-Context Learning,因為后者是實時地把必要的知識或輔助信息當做 context 注入模型。
????????所以,后來我們更傾向于做 RAG、 In-Context Learning 這類優化。而實際上相比之下,目前我們 In-Context Learning 的應用還比較少。
????????原因在于 In-Context Learning 需要更豐富、結構化且準確的 context,而這些 context 比較難獲取。比如現在要幫產品經理寫一個新項目的產品文檔,來做產品策劃。產品的用戶定位、功能定義、用戶流程、UI 交互等,涉及多個領域。這些領域的知識和內容,要決定哪些需要提煉放入 context,去做 In-Context Learning,實際上有很大挑戰。從目前實踐效果來看,用工程或編程手段去解決,效果不如用 RAG 好。
????????但很多服務中,比如用戶完成一件事后還會接著做下一件事,也就是當用戶有連續性任務時,In-Context Learning 的應用門檻會相對低一些,因為可以知道用戶當前場景變化和上一件事情的結果。
七、相比RAG、In-Context Learning,為什么微調的工程周期長很多
????????模型微調的工程周期很長,影響因素很多。
????????首先,構建微調模型需要高質量、標注良好的領域數據,耗費的精力往往占真實訓練的絕大部分。有人直接指出微調 90% 的精力花在 “ 提升數據質量 ” 上 。
????????其次,微調 LLM 不像一般模型那么輕松。需要性能強勁的基礎設施和優化、維護能力。訓練本身往往耗時數周,甚至更久。
????????再次,微調往往不是一次搞定的。需要反復調參、驗證、修復 bug、對比多個模型版本。
????????最后也是最關鍵的是,LLM 這個基礎模型可能每隔幾個月就會迎來新版本,原來的微調成果很快就可能被 “ 超越 ”。社區反饋也提到,每次基礎模型更新后,幾乎都得從頭再來一次微調 。
????????相比之下,RAG 通常只需數天甚至數小時即可部署,尤其用 Hugging Face 的 RAG-Token 示例幾行代碼搞定。
????????并且,RAG 整體工程流程簡單,門檻低于深度培訓。知識庫變更最快,只需重新 embed 文檔,完全無需重訓模型。因此,可以實時響應信息變化。
????????社區普遍反饋道,相比代價高耗時的微調,RAG 簡便且性價比更高。
????????對于 In-Context Learning?( ICL ),本質上只需構造好 prompt,可能還需要加入若干示例( few-shot ),基本不需要訓練過程。工程實現幾乎是幾分鐘到幾小時搞定 prompt 設計、示例選取、效果驗證。
????????對比微調,ICL 可謂 “ 立刻見效 ”。
未完待續........