從GPT-5發布來分析LLM大模型幻覺收斂(一)

????????GPT-5 號稱在任何領域都有博士級別能力。在醫療健康領域,能夠對專業的癌癥診斷報告做通俗易懂的解讀。對復雜的放射治療方案決策,也能提供詳細的分析報告,幫助病人權衡利弊。一位癌癥患者的家屬在發布會上表示,“ 真正鼓舞人心的是看著她通過使用 GPT-5 重新獲得自主權,病人很容易感到無助,因為知識差距太大了。?? ??

但是也有人使用后反饋,GPT-5?“ 變蠢了 ”、“ 沒創造力了 ”、“ 不靈動了 ”、“ 回答很干癟 ”。

實際上,這并不是一個讓人意外的結果。

為什么會變成這樣?這是不是說明GPT-5能力并沒有說的那么強,其實不是,因為 GPT-5 的其中一個特性是幻覺率顯著降低,而降低模型幻覺率的一個主要代價就是模型的輸出會顯得更嚴謹,更缺少讓你意外的回答。

如果我們理解LLM大語言模型的運行原理就能知道GPT-5為什么要這么處理了,大模型生成的內容是概率產物,模型本質意義上是一個條件概率分布的近似器,它的創造力來自于更寬松的概率分布,而當你想讓它答案更精準、低幻覺時,它的概率分布必然收緊,這樣的收緊減少了有更多創造力的可能。

????????我們一直在吐槽各家大模型的幻覺率太高并且愈演愈烈,認為這是一種 “ 病 ”,廠商們也使出渾身解數來治這個 “ 病 ”,微調、RAG、MCP 等新 “ 藥方 ” 一個接一個。

現在,高幻覺率的問題被一定程度解決,大家又吐槽模型回答的不夠好,不夠圓潤,這就陷入了一種無法打破的死循環

????????大語言模型理論上不可能完全消除幻覺。還有研究表明,越抑制幻覺,大語言模型的泛化性越差,也就是能夠適用的場景越受限,這與業界希望全方位推廣 AI 的愿景顯然是相悖的。

這其實也反映出,幻覺帶來的影響并非永遠都是負面的,需要辯證看待。

????????幻覺是不是幻覺、幻覺的影響是不是負面、幻覺的負面影響有多大,都是相對的,和使用者的能力和需求、場景的特性和需求、使用前后效率對比、現實世界的變化等因素都有關。

一、大模型實際應用中常見的幻覺類型

大模型的 “ 幻覺 ” 指的是 AI 系統生成或推斷出與人類經驗不符的內容或結論。

這里 “ 人類經驗 ” 必須是 “ 正確 ” 的,限于個人認知的差異,所以必須認識到 “ 幻覺 ” 也是相對的。

在大模型應用中,幻覺無法完全避免。

可以將幻覺分為 5 個類別:

語言生成中的幻覺

推理與邏輯錯誤

過度簡化與常識錯誤

數據錯誤或無依據推理

時效性錯誤

語言生成中的幻覺是大模型最常見的一種幻覺,尤其是在內容生成類的應用中。例如在生成代碼時,AI 可能會編造 Library 或 API 來完成代碼的生成。

????????大模型還可能在進行邏輯推理時產生錯誤。例如在使用 Roo Code 插件進行代碼生成時,經常遇到指定上下文后,大模型仍然會根據項目中其它上下文做出錯誤的推理。

????????關于過度簡化與常識錯誤,AI 雖然能夠處理大量信息,但它在應對一些需要深度常識、實際經驗的場景時,容易出現過度簡化的情況。例如 AI 可能會說 “ 為了快速減肥,可以不吃任何食物 ”,這顯然是不科學的。

????????關于數據錯誤或無依據推理,在某些場景下,AI 模型可能會基于不完全或者錯誤的數據生成答案( 尤其當訓練樣本中摻雜大模型生成的幻覺內容時更甚 )。例如,在醫療應用中,AI 根據患者的癥狀生成診斷建議,但如果這些癥狀與訓練數據不匹配,或者訓練數據本身存在偏差( 如某些相同指標數據指向不同病癥,從而需要醫生以個人理解進行具體判斷的情況 ),模型就可能給出錯誤的診斷結果。

最后,幻覺很多時候來源于模型訓練時知識和概念在時間上的局限性。

二、大模型的幻覺會在企業應用中帶來哪些負面影響與成本損耗

????????關于幻覺可能產生的 “ 成本損耗 ”,需要代入到具體應用場景分析。

????????用戶差異會帶來巨大的成本評估差異。假設生產效率的影響小于大模型應用前的歷史效率,總體上并不會產生 “ 成本損耗 ”。

????????比如。一個行政人員使用 Cursor 生產一個表格信息收集工具,即便生產效率低下錯誤頻出,生產效率仍然可能大于:找產品提需求、找研發開發、找測試評估、找運維部署。因此,Cursor 雖然經常犯錯誤,仍然有大量用戶,因為用戶認為 Cursor 的效率是大于自身的。

????????但若這個場景的用戶是研發人員,錯誤頻出帶來的效率降低,顯著大于:安裝依賴、查找文檔、編寫代碼,那么 Cursor 在這個場景大概率會被研發人員拋棄。

????????所以,成本損耗和效率的影響都是相對的。

????????進一步看,幻覺的負面影響還可以分為兩類:

  • 預測錯誤,如果“錯誤”易于識別,則影響的是生產效率

  • 如果 “ 錯誤 ” 難以識別(例如預測錯誤發生在使用者不熟悉的領域),則影響的是應用效果。

三、如何根據幻覺率高低進行產品落地可行性決策

????????如果大模型的幻覺率過高,特別是在關鍵決策領域( 如醫療、金融、法律等 ),則這些產品的應用將面臨嚴重的挑戰。對于這類應用,企業的目標是盡量減少錯誤和幻覺,因為一個錯誤的決策可能導致巨大的財務損失或法律責任。

????????對于一些風險容忍度較高的應用場景( 如內容推薦、廣告投放等 ),企業會接受一定程度的幻覺,畢竟這些應用的目的是提升用戶體驗和增加商業效益,而不完全是做出精準決策。

????????通常,企業會設置一個 “ 安全邊界 ” 來限定幻覺率,確保在可接受范圍內。過高的幻覺率會增加企業的風險和成本,過低的幻覺率則可能意味著模型的復雜度和計算成本過高,導致收益無法覆蓋成本。

四、解決LLM大模型幻覺有哪些方法,具體效果怎么樣

????????常用的方案有三種:合適的模型、In-Context-Learning、微調。

????????首先,海量參數的大模型因為 “ Scaling Law ” 會緩解幻覺出現的概率;其次,借助各種提示詞工程和 RAG 等技術,“ In Context Learning ”( 在不進行參數更新的情況下,通過在輸入中提供示例來學習和完成新任務 )被實踐證明能夠大幅降低幻覺出現的概率;最后,使用 “ 繼續訓練 ” 的微調技術,在一些場景中可以一定程度降低幻覺。

????????為緩解語言生成幻覺和過度簡化幻覺,一般采用擴大訓練樣本和模型參數來解決,即采用更合適的模型。

????????為緩解邏輯推理錯誤,在 MCP 生態出來后,最火的就是:Sequential Thinking MCP Server,幫助大模型把復雜問題降級為諸多微任務,以期待降低大模型出現幻覺的概率。這屬于 In-Context Learning 方法。

????????緩解數據錯誤或無依據推理幻覺一般也是采用 In-Context Learning 方法。

????????為緩解時效性局限帶來的幻覺,比如編程領域,現在行業里有很多人在用 Context Server,也就是 MCP 的 Server,當調用 API 時,它能幫我檢查這個 API 的最新版本文檔和接口參數說明,避免使用了老版本的 API,保證生成代碼的準確性,這屬于 In-Context Learning 方法。

????????醫療、金融、法務等行業對精度要求非常高,使用 RAG 最多的就是這些行業。但是,由于 RAG 需要向量存儲、檢索服務,且會大幅度增加計算成本,某些行業的特定領域使用大模型微調技術,降低 RAG 帶來的成本,也能找到成本與效果的平衡點。

????????對于內容推薦、廣告投放等可以容忍一定程度錯誤的應用場景,AI 的幻覺率可以稍高一些,同時開發成本也會降低。最典型的例子就是 “ mini-gpt ” 開源項目,僅用幾個小時訓練一個幾百兆大小的小模型,就可以很好的生成兒童繪本級別的小故事。

????????中低精度要求和更低成本的情況下,小尺寸模型也是能接受的,比如 Qwen3-0.6B,In-Context-Learning 可以不使用或簡單使用,可以使用少量( 數百、千條數據即可 )行業優秀的案例數據進行微調,因為基礎模型參數量小,微調的成本也不會太高。

????????但總體而言,微調的效果和風險還是普遍存在。模型通過微調從通用模型過渡到領域特定模型時,是有可能丟失原有的通用知識的。

????????而對于所謂垂直領域大模型,在我個人實踐中發現,由于大部分場景都需要跨領域知識,反而使垂直領域大模型的應用效果受到限制,實際效果和微調技術基本持平。

????????最近行業里有一些論文在研究怎么讓大語言模型實現 Self Learning,也就是說它能在服務過程中對自己的參數進行微調,隨著使用不斷學習和提升,克服時效性的局限。比如,麻省理工( MIT )最近提出的 Self Adapting Language Models( SEAL )是一種模型能夠 “ 自行學習 ” 的技術:模型通過生成自己的合成訓練數據并用于自我更新,迎向 “ 終生學習 ” 之路。但該方法仍存在 “ 災難性遺忘 ”、計算資源高、學習調度復雜等挑戰 。

????????當下,由于大模型的基礎框架局限于 Transformer 和 Diffusion,并且在基礎框架層面并沒有顯著的技術突破,上述方案應該在大模型基礎框架技術變革前是有效的。

五、垂直領域大模型效果受限,還是垂域模型比通用模型能力更強

????????垂直領域大模型雖然掌握了行業知識,在特定任務上表現更好,比如在醫療這種病種類目極多、具備極強專業深度的領域。但在復雜推理或跨領域理解上仍顯不足,尤其在任務更復雜、數據稀缺時更明顯。

????????如果數據多樣性有限而規則復雜,比如材料科學,訓練出的模型往往傾向于 “ 記憶 ” 而不是建立泛化機制。只有當數據多樣性足夠高,才可能促進泛化。

????????最后,成本與收益不匹配。相比訓練一個垂直大模型,微調已有模型 + 機制( 如 RAG )往往更低成本,效果也更穩健。

?????????總體而言,只要是涉及到標準化流程或比較依賴規則、先驗的工作,RAG 都會用得比較多。

其實 RAG 有不少局限性,不同行業使用 RAG 的場景需求也不同。

????????在法律行業,有時候應用中不只涉及法律法規,還包括案例、法律解釋、政策等。這就比一般的 RAG 難度高一些,主要是時效性要求高,因為法律是在不斷建設中的,各地對法律法規也可能有不同的解釋。

????????在醫療行業,現在大語言模型在時序理解上的局限性,會限制 RAG 應用的效果。當前的 RAG 更多是對概念背后所代表的含義進行理解和解釋。但是在醫療行業里,通常要解釋的是臨床數據和病例。

????????比如一個病人有一系列的檢查、體檢數據,包含各項指標在一定時間段比如一年內的變化情況。這些變化的含義不是簡單通過 RAG 就能查詢出來的。因為它有很大的個體性差異,比如性別、地域、年齡等各種因素的影響,也可能要結合上次檢查和這次檢查的對比,以及和其他類似患者的的對比。

????????不像其它領域,比如醫療領域可以直接生成病例、診斷書等,或者法律領域可以生成訴狀、裁決書等,金融行業在應用 AI 時,最終產生的結果更多是偏向建議或者輔助性的。因為使用 AI 會產生的一些問題和風險,目前用 RAG 加大語言模型的方式是難以規避的。因此金融行業傾向于更嚴謹的方式,比如在里面穿插一些傳統的機器學習算法,用來對決策背后可能產生的問題和風險進行估計。

六、幻覺緩解的技術路徑探索過,關于微調和效果和風險深入了解

????????對模型做微調,或訓練自己的 LoRA。比如輕辦公領域,針對用戶場景識別和服務推薦場景做微調或 LoRA。但我們發現,等花了半年甚至一年的時間訓練并上線后,大語言模型自身更新帶來的收益,往往已經超過了我們做這些工作的收益。

????????通過微調技術調整模型參數的時候,最大的問題在于參數調整可能帶來一些無法預期的后果。比如模型本身是無法處理 “ 沖突 ” 的,如果新數據與模型原有知識發生了沖突,經常會發生 “ 正確 ” 的數據遮蔽了 “ 正確 ” 的知識,甚至會導致 “ 災難性遺忘 ” 的情況發生。“ 災難性遺忘 ”( Catastrophic Forgetting,也稱 catastrophic interference)是指模型在學習新任務或新知識時,嚴重遺忘先前所學能力的現象,尤其在順序訓練或持續微調中表現突出。即便是 AI 產品在服務過程中不斷更新權重,即 Continual Learning,也只是一種微調,傳統微調具備的缺點它都有。

????????在大型語言模型中,這種現象尤為關鍵:模型的知識分布式存儲于權重中,當在新領域訓練時,部分權重被重寫,導致模型原有的廣泛語言能力或事實知識退化。

????????在研究中,1B 到 7B 大小的 LLM 在持續微調后普遍出現災難性遺忘,甚至隨著模型規模增大( 但仍在這一范圍內 ),遺忘現象反而更嚴重。

????????舉個例子:一個針對醫療診斷微調的模型,可能會 “ 忘記 ” 基礎的數學能力或一般寫作能力。這個問題和大語言模型本身的技術特點相關,除非整個大語言模型技術發生本質性的革新,否則短期內這個問題比較難解決。

????????現在的大語言模型權重參數非常多,而且缺乏可解釋性。更新某些權重時,會對哪些權重或者什么情況下的推理產生負面影響,目前很難評估。所以,災難性遺忘或者權重沖突的具體原因,目前只能通過最終結果的評估來檢驗。

????????在實際測試對比下,In-Context Learning、RAG 往往比微調模型具有更好的泛化能力和穩定性。

????????總體來說,模型微調或者 LoRA 的效果,通常小于 RAG 的效果,因為 RAG 可以去修改數據,靈活性更強。而通過很多論文和行業數據都能看到,RAG 的效果一般又小于 In-Context Learning,因為后者是實時地把必要的知識或輔助信息當做 context 注入模型。

????????所以,后來我們更傾向于做 RAG、 In-Context Learning 這類優化。而實際上相比之下,目前我們 In-Context Learning 的應用還比較少。

????????原因在于 In-Context Learning 需要更豐富、結構化且準確的 context,而這些 context 比較難獲取。比如現在要幫產品經理寫一個新項目的產品文檔,來做產品策劃。產品的用戶定位、功能定義、用戶流程、UI 交互等,涉及多個領域。這些領域的知識和內容,要決定哪些需要提煉放入 context,去做 In-Context Learning,實際上有很大挑戰。從目前實踐效果來看,用工程或編程手段去解決,效果不如用 RAG 好。

????????但很多服務中,比如用戶完成一件事后還會接著做下一件事,也就是當用戶有連續性任務時,In-Context Learning 的應用門檻會相對低一些,因為可以知道用戶當前場景變化和上一件事情的結果。

七、相比RAG、In-Context Learning,為什么微調的工程周期長很多

????????模型微調的工程周期很長,影響因素很多。

????????首先,構建微調模型需要高質量、標注良好的領域數據,耗費的精力往往占真實訓練的絕大部分。有人直接指出微調 90% 的精力花在 “ 提升數據質量 ” 上 。

????????其次,微調 LLM 不像一般模型那么輕松。需要性能強勁的基礎設施和優化、維護能力。訓練本身往往耗時數周,甚至更久。

????????再次,微調往往不是一次搞定的。需要反復調參、驗證、修復 bug、對比多個模型版本。

????????最后也是最關鍵的是,LLM 這個基礎模型可能每隔幾個月就會迎來新版本,原來的微調成果很快就可能被 “ 超越 ”。社區反饋也提到,每次基礎模型更新后,幾乎都得從頭再來一次微調 。

????????相比之下,RAG 通常只需數天甚至數小時即可部署,尤其用 Hugging Face 的 RAG-Token 示例幾行代碼搞定。

????????并且,RAG 整體工程流程簡單,門檻低于深度培訓。知識庫變更最快,只需重新 embed 文檔,完全無需重訓模型。因此,可以實時響應信息變化。

????????社區普遍反饋道,相比代價高耗時的微調,RAG 簡便且性價比更高。

????????對于 In-Context Learning?( ICL ),本質上只需構造好 prompt,可能還需要加入若干示例( few-shot ),基本不需要訓練過程。工程實現幾乎是幾分鐘到幾小時搞定 prompt 設計、示例選取、效果驗證。

????????對比微調,ICL 可謂 “ 立刻見效 ”。

未完待續........

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/94728.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/94728.shtml
英文地址,請注明出處:http://en.pswp.cn/web/94728.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

大模型安全概述、LlamaFirewall

資料搜集整理自網絡。 概述 大模型爆火之后,衍生出大模型安全這一個比較新的領域。和之前的文章一樣,本文有不少新穎的名詞、概念、理論。 信通院、清華大學等多個單位聯合發布的《大模型安全實踐(2024)》,提出LLM安…

【目標檢測】論文閱讀3

Lightweight tomato ripeness detection algorithm based on the improved RT-DETR 論文地址 摘要 番茄具有很高的營養價值,需要對成熟果實進行準確的成熟度鑒定和選擇性采收,以顯著提高番茄收獲管理的效率和經濟效益。以往對番茄智能收獲的研究往往只以…

Python音頻分析與線性回歸:探索聲音中的數學之美

摘要:通過Python實現WAV音頻信號處理與線性回歸建模,揭示雙聲道音頻的數學關聯性,為聲音特征分析提供新視角。1. 音頻數據處理流程 1.1 WAV文件讀取與預處理 使用scipy.io.wavfile讀取音頻文件,獲取采樣率與時域信號數據&#xff…

Linux shell腳本數值計算與條件執行

變量的數值計算實踐 1 算術運算符 如果要執行算術運算,就會離不開各種運算符號,和其他編程語言類似,Shell 也有很多算術運算符。 下面就給大家介紹一下常見的 Shell 算術運算符: 、-,一元正號和負號。、-,加…

C#實戰:基于iTextSharp實現PDF加密小工具

目錄 1、技術框架 2、代碼實戰 2.1 創建窗體 2.2 后臺代碼邏輯 2.3 PDF加密用戶類型 2.4 PDF加密權限列表 3、運行效果 4、總結 大家日常辦公中有時候為了文檔資料的安全需要對文檔進行加密,尤其是針對PDF文檔這個場景還是非常廣泛的。今天給大家分享使用C#來實現PDF…

基于Labview的旋轉機械AI智能診斷系統

1.摘要本文基于 CWRU 公開軸承數據集提出了一套“AI 輕量級模型 LabVIEW 智能診斷系統”。首先,LabVIEW 端構建了可視化、可交互的智能診斷平臺。系統能夠加載本地振動信號數據,調用訓練好的深度學習模型進行故障識別與狀態判斷。界面集成信號時域監測、…

Qt從qmake遷移到cmake的記錄

文章目錄1.UI程序[開啟/關閉]控制臺2.增加宏定義3.在主項目中引入子項目4.使用C語言文件1.UI程序[開啟/關閉]控制臺 qmake: CONFIG console DEFINES QT_MESSAGELOGCONTEXTcmake: set(CMAKE_WIN32_EXECUTABLE OFF) # ON為關閉控制臺 OFF為開啟控制臺2…

LangChain4J-(3)-模型參數配置

LangChain4j 提供了靈活的模型參數配置方式,允許你根據不同的 AI 模型(如 OpenAI、GPT-4、Anthropic 等)設置各種參數來控制生成結果。后面手擼代碼繼續在之前章節的代碼上拓展一、日志配置(Logging)在 LangChain4j 中…

LangGraph - API多種訪問方式

本文介紹了Langgraph服務的四種調用方式:1. 通過LangGraph Studio UI界面手動測試;2. 使用Python SDK進行同步/異步調用;3. 通過REST API測試;4. 使用JavaScript SDK接入。Langgraph 服務端代碼 graph.pyfrom langchain_openai im…

HEI-612 HART/EtherNet/IPModbus TCP 網關:打通工業通信壁壘

在工業自動化領域,HART 協議設備的廣泛應用與以太網網絡的高效管理常面臨 “協議孤島” 難題 —— 老舊 HART 傳感器、變送器難以接入 EtherNet/IP 或 Modbus TCP 系統,數據雙向交互卡頓、調試復雜、兼容性差等問題,嚴重制約生產效率提升。上…

OSPF 的工作過程、Router ID 機制、報文結構

視頻版講解>>>>>>>>>>>>>>路由協議深度解析:從靜態路由到 OSPF 實戰 一、回顧靜態路由:拓撲與核心邏輯 我們先回到上周講解的拓撲圖,這張圖是理解靜態路由的核心載體 —— 路由器作為網段分割的…

Qt 6 與 Qt 5 存在的兼容性差異

之前有提到。我的是Qt5,我朋友的是Qt 6,由于版本不兼容問題,在遷移時會有問題。所以這一我們說說這兩個的區別。( 正文開始嘍! 總結來說:Qt5遷移至 Qt 6 需:1. 破壞性變更(必須修改…

本地windows電腦部署html網頁到互聯網:html+node.js+ngrok/natapp

目錄 核心概念:為什么不能直接分享HTML文件? 1,html文件修改 2,安裝設置node.js 3,路由器虛擬服務器 4,采用ngrok工具進行內網穿透(國外工具) 5,采用natapp工具進行…

electron離線開發核心環境變量npm_config_cache

npm_config_cache 這個環境變量。它在離線環境配置中扮演著核心角色。什么是 npm_config_cache?npm_config_cache 是一個環境變量,用于直接設置 npm 的緩存目錄的絕對路徑。npm 在安裝包時,會遵循一個特定的工作流程:檢查緩存&…

CTFshow系列——命令執行web57-60

本篇文章介紹命令執行的另一種情況,CTFshow的Web57-60關的講解解析;要想了解其它關卡可查看我以往的文章,感謝關注。 文章目錄Web57(新方法)Web58(POST型)不可用函數可用函數Web59第二種方法&am…

域名、ip、DSN、URL

目錄 1、ip 2、域名 3、DSN 4、URL 1、ip 每個連接到Internet上的主機都會分配一個IP地址,此ip是該計算機在互聯網上的邏輯地址的唯一標識,計算機之間的訪問就是通過IP地址來進行的。寫法:十進制的形式,用“.”分開&#xff0…

【JAVA實現websocket】

JAVA實現websocket背景依賴問題代碼實現測試背景 近期項目中需要用到websocket&#xff0c;實現即時通信。 依賴 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId></depen…

2.6 提示詞調優編碼實戰(一)

目錄 寫在前面 一,需求定義 二,簡單提示詞 2.1 代碼示例 2.2 輸出結果 三,提示詞模版 3.1 提示詞 3.1.1 任務描述 3.1.2 用戶輸入 3.1.3 模型輸出格式 3.1.4 Prompt模版 3.2 輸出結果 寫在前面 前面我們總結了提示詞對于模型的意義,接下來我們來通過向模型輸入…

使用Stone 3D快速制作第一人稱視角在線小游戲

首先得有個怪物模型&#xff0c;怪物帶有idle, attack動作 然后有個場景模型&#xff0c;把怪物&#xff08;如果模型較大&#xff0c;建議使用remote-mesh來加載&#xff09;擺放到想放的位置。 給相機加上fps-controls和character組件 給所有怪物加上character組件 可以在…

嵌入式第三十七課!!!TCP機制與HTTP協議

TCP的其他機制TCP頭部標志位SYN&#xff1a;請求建立連接標志位 ACK&#xff1a;響應報文標志位 PSH&#xff1a;攜帶數據標志位&#xff0c;通知接收方該從緩沖區讀數據 FIN&#xff1a; 請求斷開連接標志位 RST&#xff1a;復位標志位 URG: 緊急數據標志…