張關于大語言模型（LLM）置信度研究的經典與前沿論文：溫度縮放；語義熵；自一致性；事實與反思；檢索增強；黑盒引導；

張關于大語言模型（LLM）置信度研究的經典與前沿論文：溫度縮放；語義熵；自一致性；事實與反思；檢索增強；黑盒引導；

news/2025/7/21 5:06:59/文章來源:https://blog.csdn.net/qq_38998213/article/details/149472676

關于大語言模型（LLM）置信度研究的經典與前沿論文：溫度縮放；語義熵；自一致性;事實與反思;檢索增強;黑盒引導;

目錄

- 關于大語言模型（LLM）置信度研究的經典與前沿論文：溫度縮放；語義熵；自一致性;事實與反思;檢索增強;黑盒引導;
- - 一、校準方法：讓模型概率更貼近真實正確性
  - - 1. **溫度縮放（Temperature Scaling）**
    - 2. **多校準（Multicalibration）**
  - 二、不確定性估計：量化模型“不知道”的能力
  - - 1. **語義熵（Semantic Entropy）**
    - 2. **圖不確定性（Graph Uncertainty）**
  - 三、推理優化：通過過程增強置信度
  - - 1. **自一致性（Self-Consistency）**
    - 2. **事實與反思（Fact-and-Reflection, FaR）**
  - 四、檢索增強：引入外部知識校準
  - - 1. **檢索增強生成（RAG）與置信度對齊**
  - 五、黑盒引導：無需模型內部信息的置信度估計
  - - 1. **引導置信度（SteerConf）**
  - 六、后驗校準：基于反饋修正置信度
  - - 1. **證據深度學習（EDL）與信息瓶頸**
  - 總結：置信度研究的三大趨勢

一、校準方法：讓模型概率更貼近真實正確性

1. 溫度縮放（Temperature Scaling）

論文：《On Calibration of Modern Neural Networks》（Guo et al., 2017）
原理：LLM輸出的概率分布常因模型過參數化而“過于尖銳”（高概率答案實際正確率低）。溫度縮放通過調整Softmax函數的溫度參數 $T$ )，軟化概率分布，使概率值更符合實際正確性。公式為：

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/915306.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/915306.shtml
英文地址，請注明出處：http://en.pswp.cn/news/915306.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

ICT測試原理之--什么是假短

ICT測試原理之--什么是假短

ICT測試原理之–什么是假短文章目錄ICT測試原理之--什么是假短一、假短的由來防止假短二、無法檢測的短路示例解決無法檢測的短路調試短路文件調試意外斷路調試意外短路三、調試假短報告短路和斷路報告假短報告短路設備/引腳功能性短路測試功能性短路測試的語法一、假短的由來…

閱讀更多...

三種深度學習模型（LSTM、CNN-LSTM、貝葉斯優化的CNN-LSTM/BO-CNN-LSTM）對北半球光伏數據進行時間序列預測

三種深度學習模型（LSTM、CNN-LSTM、貝葉斯優化的CNN-LSTM/BO-CNN-LSTM）對北半球光伏數據進行時間序列預測

代碼功能該代碼實現了一個光伏發電量預測系統，采用三種深度學習模型（LSTM、CNN-LSTM、貝葉斯優化的CNN-LSTM）對北半球光伏數據進行時間序列預測，并通過多維度評估指標和可視化對比模型性能。算法步驟 1. 數據預處理數據導入&am…

閱讀更多...

Typecho+阿里云CDN完整配置：防止DDoS攻擊與IP暴露

Typecho+阿里云CDN完整配置：防止DDoS攻擊與IP暴露

文章目錄 Typecho使用阿里云CDN保護網站真實IP地址的完整指南背景與問題分析技術選型與方案設計詳細實施步驟第一步：阿里云CDN基礎配置第二步：DNS解析設置第三步：源站服務器防護配置 Nginx服務器配置防火墻配置（以Ubuntu為例）第四步：Typecho配置調整高級防護措施…

閱讀更多...

[硬件]運算放大器對相位噪聲的影響與設計提示

[硬件]運算放大器對相位噪聲的影響與設計提示

運算放大器對相位噪聲的影響與設計提示文章目錄運算放大器對相位噪聲的影響與設計提示運放影響位噪聲的主要因素如何最小化運放對相位噪聲的影響總結運算放大器是常用的模擬電路元器件，通常用于放大信號，增強驅動。但是當使用運放放大一個信號時&#x…

閱讀更多...

github jekyll+chirpy主題搭建博客

github jekyll+chirpy主題搭建博客

github jekyllchirpy主題搭建博客標簽：后端、blog、jekyll 全文鏈接本文簡要介紹了如何基于 GitHub Pages、Jekyll 及 Chirpy 主題搭建個人博客的流程和注意事項。主要內容 GitHub Pages 站點簡介可免費搭建個人博客，支持自定義域名，適…

閱讀更多...

Flutter狀態管理篇之ValueNotifier（三）

Flutter狀態管理篇之ValueNotifier（三）

目錄前言一、ValueNotifier 概述二、ValueNotifier 的實現原理 1.類定義 1.類定義 2.關鍵字段 3.關鍵方法 1.構造函數 2.getter:value 3.setter:value: 4.toString 2.繼承自ChangeNotifier的機制 3.ValueListenable 接口三、ValueNotifier 的用法 1.基本用法…

閱讀更多...

Ubuntu togo 系統安裝指南

Ubuntu togo 系統安裝指南

制作一個 “Ubuntu To Go” 系統（也就是一個可以隨身攜帶、在不同電腦上啟動并擁有持久化存儲的U盤系統）是解決你問題的完美方案。這樣一來，你就可以： 不改動你現有的電腦系統 (保留你的Ubuntu 20.04 或 Windows)。擁有一個完整…

閱讀更多...

Python爬蟲實戰：研究pefile庫相關技術

Python爬蟲實戰：研究pefile庫相關技術

一、引言可執行文件（Portable Executable，PE）是 Windows 操作系統中最常見的文件格式，包括.exe、.dll、.sys 等多種類型。對 PE 文件的分析在軟件逆向工程、惡意軟件檢測、系統安全研究等領域具有重要意義。傳統的 PE 文件分析主要依賴手動操作和專業工具，效率較低且對分…

閱讀更多...

盟接之橋說制造：差異化定位與效率競爭的雙輪驅動

盟接之橋說制造：差異化定位與效率競爭的雙輪驅動

在當今競爭日益激烈的商業環境中，企業如何在市場中脫穎而出，既避免陷入同質化的價格戰，又能夠通過效率提升實現可持續發展，是每一個經營者必須思考的問題。本文將圍繞“差異化”與“效率競爭”兩大核心戰略展開分析，探…

閱讀更多...

Vue基礎（前端教程①-路由）

Vue基礎（前端教程①-路由）

項目結構src/├── router/│ └── index.js # 路由配置├── components/│ ├── Home.vue # 首頁組件│ ├── About.vue # 關于頁組件│ └── Contact.vue # 聯系頁組件├── App.vue # 根組件（含導航欄&…

閱讀更多...

駕馭 Spring Boot 事件機制：8 個內置事件 + 自定義擴展實戰

駕馭 Spring Boot 事件機制：8 個內置事件 + 自定義擴展實戰

駕馭 Spring Boot 事件機制：8 個內置事件自定義擴展實戰在 Spring Boot 應用的完整生命周期中，框架為我們預埋了 8 個關鍵事件（Application-level & Context-level）。理解并善用這些事件，可以在“不侵入框架、…

閱讀更多...

【kafka4源碼學習系列】kafka4總體架構介紹

【kafka4源碼學習系列】kafka4總體架構介紹

二 kafka架構介紹學習一個系統之前很重要的一點就是先了解這個系統整體的架構，這能夠使我們對整個系統有個總體的認識，清楚地知道這個系統有什么能力。這不僅幫助我們學習時快速定位到我們想要的內容，還能避免我們學習過程中在龐大的系統中迷…

閱讀更多...

java內存圖

java內存圖

java內存圖java文件運行流程程序的內存空間認識虛擬機棧程序的執行流程認識堆java的類與對象的關系java文件運行流程有這樣的一份 java 文件在該目錄下的終端運行 javac Hello.java 命令，會生成 Hello.class 文件，內容如下： Hello.java 打…

閱讀更多...

vscode編輯Markdown文件

vscode編輯Markdown文件

一.安裝Markdown的插件 vscode的擴展，搜索Markdown Preview Enhanced的插件，并安裝。其他的常用插件，還包括： Markdown All in One ：提供了許多有用的功能，如快捷鍵支持、自動預覽、TOC（目錄&…

閱讀更多...

【PTA數據結構 | C語言版】查找樹中帶有指定數據的結點

【PTA數據結構 | C語言版】查找樹中帶有指定數據的結點

本專欄持續輸出數據結構題目集，歡迎訂閱。文章目錄題目代碼題目請編寫程序，創建有 4 個結點的樹，然后查找給定的 x。輸入格式： 輸入首先在第一行給出 4 個正整數，依次對應樹的根結點、根的第 1、2、3 個孩子結點的…

閱讀更多...

PostgreSQL常用命令與工具指南

PostgreSQL常用命令與工具指南

文章目錄PostgreSQL常用命令與工具指南簡介1. 連接與基本操作連接數據庫環境變量設置（避免密碼輸入）常用元命令2. 數據庫與表管理數據庫操作創建數據庫刪除數據庫修改數據庫屬性表操作創建表修改表結構刪除表索引管理創建索引刪除索引3. 數據操作(CRUD)插…

閱讀更多...

SpringBoot項目部署至云服務器

SpringBoot項目部署至云服務器

目錄一、后端項目部署 1、修改配置文件 2、清理打包緩存，打jar包（兩種方式二選一） 自動打包手動打包打包成功狀態 3、將jar包導入宿主機上 jar包位置 jar包上傳 jar包運行瀏覽器測試二、前端代碼 docker搭建nginx的基本步驟打…

閱讀更多...

Agent-S：重新定義下一代 AI 智能體開發框架

Agent-S：重新定義下一代 AI 智能體開發框架

Agent-S：重新定義下一代 AI 智能體開發框架 —— 探索 simular-ai 的開源革命引言 2025 年，AI 智能體（Agent）技術正從概念走向產業核心。從自動化工作流到復雜決策系統，開發者亟需更高效的工具鏈。在這一背景下&am…

閱讀更多...

保持視頻二維碼不變，如何更新視頻內容，節省物料印刷成本

保持視頻二維碼不變，如何更新視頻內容，節省物料印刷成本

保持視頻二維碼不變，如何更新視頻內容，節省物料印刷成本？ 視頻替換功能，是指在保持視頻二維碼不變、視頻觀看地址不變、視頻調用代碼不變的情況下替換視頻內容，從而節省用戶印刷物料的成本，滿足用戶更新視…

閱讀更多...

flutter項目調試問題小結

flutter項目調試問題小結

背景目標是用android studio flutter 跑hello world 下載 android studio 我下載的是2024.3.2.15版本最新版下載首頁就能下：下載 Android Studio 和應用工具 - Android 開發者 | Android Developers 歷史版本可在歸檔列表下載：Android Studio…

閱讀更多...

最新文章