深度解析 | AI 幻覺的形成和應對路徑

寫這一篇的緣由一是因為我也在摸索如何降低?AI?幻覺提升?AI?工具使用效率,二是因為前兩周在MIT學習時老師講的一節課,剛好也解釋了這個問題,所以一并做個總結,分享給大家。

近幾年,大型語言模型(LLM)如?ChatGPT、Claude、Gemini?等快速走進公眾視野。它們能生成結構完整、邏輯清晰的長文本,甚至可以進行代碼編寫、法律文書撰寫、醫學咨詢等高難度任務。然而,我們也越來越頻繁地聽到一個術語:AI幻覺。簡單說,它指的是模型“說得像真的,但其實是錯的”。

本文將嘗試解釋三個問題:

  1. 什么是?AI?幻覺?為什么語言模型會產生幻覺?

  2. GPT-4?等新一代模型是否真的減少了幻覺?

  3. 如何盡可能減少幻覺帶來的誤導?


一、語言模型不是在“理解”,而是在“預測”

GPT?的全稱是?Generative?Pre-trained?Transformer,其核心任務是:給定一段輸入,預測下一個最可能出現的詞(token)。這種機制的本質是統計語言模式,而不是基于事實的知識回憶或理解。

舉個例子,輸入“喬布斯和馬斯克在球場上”,模型會續寫出“展開了一場激烈的籃球比賽”,盡管這從未真實發生。這不是模型有意捏造,而是它識別出“人名?+?球場”常出現在比賽語境中,于是生成符合語言習慣的句子。

這類“幻覺”即來自其構建方式:模型的目標不是還原事實,而是生成“在訓練語料中最常見或最自然”的文本。也就是說,它輸出的是“語言上的合理”,而非“世界中的真實”。

這也是幻覺的來源:在不知道答案時,模型仍然會“給出一個聽起來合理的回答”

二、幻覺的技術根源:訓練機制、知識覆蓋與任務設定

  1. 訓練機制決定幻覺傾向:GPT?采用的是無監督學習方法,即在大規模互聯網文本上訓練模型,其唯一目標是最大化下一個詞出現的概率,而不是核查事實。這種機制天然就傾向于生成“似是而非”的內容。

  2. 語料中的事實不等于知識庫:模型并不保存某種結構化知識圖譜或數據庫,它記住的是“什么詞經常和什么詞一起出現”,而不是“誰獲得了?2022?年冬奧會金牌”這種事實信息。

    在?MIT?的課上,教授舉了一個例子:

    “問?GPT?3.5:‘誰贏得了?2022?年冬奧會冰壺金牌?’——模型回答錯誤,稱韓國女隊獲勝,而實際上是英國隊。”

    原因在于:GPT?3.5?的訓練數據截止于?2021?年,不包含?2022?年的事實。因此只能“模仿出一個合理答案”,而不是“查找真實答案”。

  3. Prompt?的誘導效應:用戶的提問方式對模型結果有很強導向性。例如:“請寫一篇關于愛因斯坦和馬斯克辯論環保問題的稿件”,這個語句默認了事件的真實性,模型不會去驗證事實,只會按“劇本”生成。

  4. 缺乏世界建模能力:GPT?不理解時間、空間或因果關系。即便在邏輯上存在沖突,模型也不會主動識別,而是依賴文本連貫性生成語言。

三、GPT-4?相較?GPT-3.5?幻覺減少了嗎?為什么?

整體來看,GPT-4?的幻覺率相較?GPT-3.5?有所下降,背后有以下幾點改進:

(來源:OpenAI.?:GPT-4?Technical?Report.?2023)

1.?更大的訓練數據集:覆蓋更多領域與長尾知識,減少“知識空白”導致的猜測;

2.?更強的上下文理解能力:GPT-4?的?context?window?擴大至?32k?token,使其能記住更多上下文,減少斷章取義和語義漂移;

3.?引入人類反饋強化學習(RLHF):在模型微調階段,使用人類標注反饋強化“承認不知道”優于“胡編亂造”的行為;(之前介紹的?Scale?AI?做的就是這個生意)

每天一個?FUN?AI|Scale?AI:AI?產業鏈的“隱形軍火商”

4.?微調策略優化:特別針對幻覺問題,引入了對輸出置信度的判斷機制,使模型在低置信度時更傾向于給出模糊或保守的回答。

不過,即使如此,幻覺依然存在,尤其在以下場景更容易觸發:

  • 冷門專業領域(如罕見病、邊緣法律問題);

  • 問題提示模糊或含有虛構前提;

  • 用戶詢問的是未來或最新事件;

四、如何最大限度減少?AI?幻覺?用戶與系統端的協同策略

1.?用戶端優化:

  • 使用明確提示語,例如:

    “如果你不知道,就說不知道”

    “基于我上傳的文檔回答”

  • 使用結構化?Prompt?限制模型的自由發揮范圍,如“請分三點說明”“用表格列出”;

  • 避免誘導性或假設前提問題,尤其是在高風險領域;

2.?系統端優化:

  • 檢索增強生成(RAG):給模型增加一個“查資料”模塊,讓它回答前先查外部數據庫或網頁;

  • 插件與聯網設計:如?Wolfram?Alpha(做計算)和?Bing?Search?插件(查新聞)已集成至?GPT?產品中,提升事實查驗能力;

  • 多階段生成機制:將“任務理解、信息檢索、生成內容”分階段執行,避免一次性完成的單步誤導;

  • 專業模型精調:在醫學、金融、法律等專業領域,訓練專門子模型來提供更安全、準確的答案。

最后:語言的流暢,不等于事實的可靠

幻覺是當前大型語言模型的結構性副產物,它既不是“錯誤”,也不是“欺騙”,而是模型生成機制與真實世界之間的落差,是語言模型當前能力邊界的自然結果。

理解這一點,是我們理性使用?GPT?和類?AI?工具的基礎,也提醒我們:生成式語言的“像真度”,并不等于它的真實性

未來,隨著外部工具接入、Agent?機制完善、責任機制明確,幻覺問題會被進一步緩解。但在那之前,任何看起來“說得頭頭是道”的?AI?回答,我們都應保留驗證的習慣。

周一,祝大家今天開心。

封面和摘要

深度解析?|?AI?幻覺的形成和應對路徑

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/91588.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/91588.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/91588.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java把word轉HTML格式

Java把word轉HTML格式&#xff0c;兩種方式方式一&#xff1a;maven引入依賴,pom.xml<dependency><groupId>e-iceblue</groupId><artifactId>spire.office.free</artifactId><version>5.3.1</version> </dependency>然后代碼讀…

#C語言——學習攻略:探索字符函數和字符串函數(一)--字符分類函數,字符轉換函數,strlen,strcpy,strcat函數的使用和模擬實現

&#x1f31f;菜鳥主頁&#xff1a;晨非辰的主頁 &#x1f440;學習專欄&#xff1a;《C語言學習》 &#x1f4aa;學習階段&#xff1a;C語言方向初學者 ?名言欣賞&#xff1a;"編程的本質是理解問題&#xff0c;然后把它分解成可執行的步驟。" 目錄 1. 字符分類函…

(吃飯)質數時間

題目描述如果把一年之中的某個時間寫作 a 月 b 日 c 時 d 分 e 秒的形式&#xff0c;當這五個數都為質數時&#xff0c;我們把這樣的時間叫做質數時間&#xff0c;現已知起始時刻是 2022 年的 a 月 b 日 c 時 d 分 e 秒&#xff0c;終止時刻是 2022 年的 u 月 v 日 w 時 x 分 y…

【RK3568 RTC 驅動開發詳解】

RK3568 RTC 驅動開發詳解一、Linux RTC 子系統架構?二、設備樹配置?三、驅動四、時間相關命令實時時鐘&#xff08;RTC&#xff09;是嵌入式系統中不可或缺的硬件模塊&#xff0c;負責在系統斷電后繼續計時&#xff0c;為設備提供穩定的時間基準。本文將以瑞芯微 RK3568 平臺…

文本編碼檢測庫`chardet` 和 `uchardet`對比使用示例及注意事項

在處理未知編碼的二進制數據時&#xff0c;chardet 和 uchardet 是兩個非常實用的字符編碼自動檢測庫&#xff0c;尤其適用于從衛星通信、文件、網絡流等來源獲取的未標明編碼的文本數據。一、chardet&#xff08;Python版&#xff09; ? 簡介 chardet 是一個用 Python 編寫的…

[Windows]Postman-app官方歷史版本下載方法

Postman-app官方歷史版本下載方法最新版&歷史版本官網地址最新版本下載歷史版本下載禁止自動更新方法Postman最新版安裝后必須要登錄才能使用某些特定功能&#xff0c;多有不便&#xff0c;因此花了點時間整理了一下歷史版本如何下載的方法&#xff0c;鏈接均為官網鏈接&am…

【Spring Boot 快速入門】三、分層解耦

目錄分層解耦案例&#xff1a;將 emp.xml 中的數據解析并響應三層架構分層解耦IOC & DI 入門IOC 詳解DI 詳解分層解耦 案例&#xff1a;將 emp.xml 中的數據解析并響應 emp.xml 內容如下&#xff1a; <emps><emp><name>Tom</name><age>18…

井云科技2D交互數字人:讓智能服務觸手可及的實用方案

在如今的數字化時代&#xff0c;智能交互已成為各行業提升服務質量的重要方向。而井云 2D 交互數字人系統憑借其獨特的技術優勢&#xff0c;正逐漸成為眾多企業實現智能服務升級的優選。它無需復雜的操作和高昂的成本&#xff0c;就能讓數字人在各類線下場景中發揮重要作用&…

本地部署VMware ESXi,并實現無公網IP遠程訪問管理服務器

ESXi&#xff08;VMware ESXi&#xff09;是VMware公司推出的一款企業級虛擬化平臺&#xff0c;基于裸機&#xff08;bare-metal&#xff09;安裝的虛擬化操作系統。它可以在一臺物理服務器上運行多個虛擬機&#xff0c;廣泛應用于數據中心和云計算環境中。很多公司為了方便管理…

讓科技之光,溫暖銀齡歲月——智紳科技“智慧養老進社區”星城國際站溫情紀實

七月的風&#xff0c;帶著夏日的熱情&#xff0c;輕輕拂過邯鄲星城國際社區蔥郁的綠意。2025年7月30日&#xff0c;一個以“幸福晚景&#xff0c;樂享銀齡—智慧養老進社區”為主題的活動&#xff0c;如一股暖流&#xff0c;浸潤了社區的長者們。智紳科技懷揣著“科技賦能養老&…

Java單元測試和設計模式

單元測試 . 測試分類 什么是測試? 測試的目的是盡可能多的發現軟件中存在的BUG,而不是為了隱藏BUG。事實上測試有很多種類,比如:邊界測試,壓力測試,性能測試等 黑盒測試 黑盒測試也叫功能測試,主要關注軟件每個功能是否實現,并不關注軟件代碼是否有錯誤;測試人員…

UOS統信桌面系統解決編譯錯誤:C compiler cc is not found指南

一、系統環境 1.操作系統版本2.編譯環境 PC:~$ gcc --version gcc (Uos 8.3.0.13-deepin1) 8.3.0 Copyright (C) 2018 Free Software Foundation, Inc. This is free software; see the source for copying conditions. There is NO warranty; not even for MERCHANTABILITY o…

深入理解 Docker 容器網絡:為什么用 host 網絡模式能解決連通性問題?

Docker 已經成為現代應用部署的標配&#xff0c;大家都知道它的網絡隔離做得很好&#xff0c;既安全又靈活。不過&#xff0c;在實際用 Docker 部署服務的過程中&#xff0c;相信很多人都遇到過這樣的情況&#xff1a;主機上能連通的外部服務&#xff0c;一到容器里卻死活連不上…

Spring Boot 異常處理:從全局捕獲到優化用戶體驗!

全文目錄&#xff1a;開篇語**前言****1. Spring Boot 異常處理的基本概念****2. 使用 ExceptionHandler 局部處理異常****示例&#xff1a;局部異常處理****優化建議&#xff1a;****3. 使用 ControllerAdvice 和 RestControllerAdvice 進行全局異常處理****示例&#xff1a;全…

vue3.0 + TypeScript 中使用 axios 同時進行二次封裝

項目背景是vite搭建的vue3.0 TypeScript 的項目&#xff0c;需要統一處理和統一維護就對axios進行了二次封裝 axios的安裝 npm install axios定義http文件夾然后內部定義index.ts文件&#xff0c;內部開始封裝 import axios, {type AxiosInstance} from "axios";…

ESP32- 項目應用1 音樂播放器之sd的驅動配置 #1

音樂播放器 ESP32- 項目應用1 音樂播放器之sd的驅動配置 #1 文章目錄 音樂播放器 1 sd卡介紹 1.1 SDCARD介紹 1.2 物理結構 1.3 協議說明 1.4 sd 卡模式 1.5 數據模式 1.6 sdio 初始化流程 1.7 SPI 模式下的 SD 卡初始化 2 原理圖 2.1 sd原理圖 2.2 esp32的接口 3 代碼配置 3.…

Vue.js 指令系統完全指南:深入理解 v- 指令

Vue.js 的指令系統是其最強大的特性之一&#xff0c;通過以 v- 開頭的特殊屬性&#xff0c;我們可以在模板中聲明式地綁定底層Vue實例的數據。本文將深入講解Vue中最重要的指令&#xff0c;幫助掌握Vue的核心功能。 文章目錄1. v-model&#xff1a;雙向數據綁定的核心基本用法修…

計算機分類匯總大全

前端部分有 Node.js、ActionScript、Swift、TypeScript、Webpack、JavaScript。需要分別詳細說明它們的定義、特點、應用場景、優缺點等。比如 Node.js&#xff0c;要提到它的運行環境、事件驅動、非阻塞 I/O&#xff0c;適合的應用如 API 服務、實時應用&#xff0c;以及常用框…

模擬鏈路濾波器設計一些細節

目錄 原設計思路剖析 300M帶寬仿真與計算 原設計思路剖析 濾波器設計的一些細節,以下為ADS54J60模擬鏈路的一些問題設計原理圖 實際電路設計如上所示,但是實際bom并未按此設計,根據實際的BOM明細以及ADC使用說明書,可以間接理解原設計者的設計初衷,是將ADC的一部分特性…

CatBoost 完整解析:類別特征友好的梯度提升框架

1?? 什么是 CatBoost&#xff1f;CatBoost&#xff08;Categorial Boosting&#xff09;是由 Yandex&#xff08;俄羅斯搜索引擎公司&#xff09;開源的梯度提升框架&#xff0c;專為類別特征處理優化。核心特點&#xff1a;無需手動 one-hot / LabelEncoding&#xff0c;原生…