中科院計算所:什么情況下,大模型才需要檢索增強?

ChatGPT等大型語言模型在自然語言處理領域表現出色。但有時候會表現得過于自信,對于無法回答的事實問題,也能編出一個像樣的答案來。

這類胡說亂說的答案對于醫療等安全關鍵的領域來說,是致命的。

為了彌補這一缺陷,研究者們提出了檢索增強技術,通過引入外部知識源來減少模型的錯誤信息。然而,頻繁的檢索不僅增加開銷,還可能引入不準確或誤導性的信息。

因此,檢索的時機就變得很重要了。如果僅在LLMs對問題感到不確定時進行檢索檢索,將大大提高效率。

但是新問題又來了,如何讓過度自信的LLMs誠實的表達出“我不知道”呢?

中科院計算所的研究團隊對此進行了深入研究,定量評估了大型語言模型對知識邊界的感知能力,并發現它們確實存在過度自信的問題。團隊進一步探討了模型對問題確定性與外部檢索信息依賴之間的關系,并提出了幾種創新方法來增強模型對知識邊界的感知,從而減少過度自信。

這些方法不僅有助于提升模型的性能,還能在減少檢索調用次數的同時,實現與傳統檢索增強相當甚至更好的效果。

論文標題:
When Do LLMs Need Retrieval Augmentation? Mitigating LLMs’ Overconfidence Helps Retrieval Augmentation

公眾號「夕小瑤科技說」后臺回復“When”獲取論文PDF!

1. 衡量模型的自信程度

任務定義

開放領域問答

對于給定問題 和一個包含大量文檔的集合,本文要求LLMs根據語料庫提供問題的答案,而且通過提示 輸出關于答案的確定性 ,這可以描述如下:

當時, 表示模型認為答案是正確的, 而則意味著相反。

檢索文檔增強LLMs

從語料庫中為給定問題檢索一組相關文檔,利用這些文檔來增強LLMs的知識,表示為:

利用LLMs的置信度來指導何時進行檢索。其格式為:

實驗設置

數據集

在兩個挑戰性的開放領域問答基準數據集——自然問題(NQ)和HotpotQA上進行了實驗。NQ數據集基于谷歌搜索查詢構建,包含帶注釋的簡短和長篇答案;HotpotQA則需要多跳推理,數據由亞馬遜 Mechanical Turk 收集。由于HotpotQA難度較高,其檢索增強需求可能與NQ不同。實驗聚焦于NQ測試集和HotpotQA開發集,僅采用帶簡短答案的問題,并將這些答案作為標簽。

評估了五個代表性模型:兩個開源模型(Vicuna-v1.5-7B和LLaMA2-Chat7B)及三個黑盒模型(GPT-Instruct、ChatGPT和GPT-4)。

對黑盒模型,限制最大輸出長度為256個標記,其他參數設為默認值。對開源模型,為求穩定結果,將溫度參數設為0。

指標

本文使用準確性來評估問答性能,若回答與基準答案相符,則視為正確。同時,通過不確定響應的比例(簡稱Unc-rate)來衡量模型的信心水平,比例較低表示模型信心較高。準確性和信心的匹配情況分為四種,相關數據展示在表1中。

▲回答正確與模型置信度之間各種匹配情況下 的樣本計數

為了精準評估模型對知識邊界的感知能力,提出了三個指標。

  1. 計算Alignment = (Ncc + Niu) / N,可以評估模型的綜合感知水平。

  2. 使用Overconfidence = Nic / N來衡量模型的過度自信。

  3. 利用Conservativeness = Ncu / N 來衡量模型的保守性程度。

在計算后兩個指標時,不采用Ncc + Nic和Ncu + Niu作為分母,因為模型的不確定性比例同樣會影響其是否過度自信或保守。

2. LLMs的知識邊界感知

下表展示了LLM在自然問題(NQ)數據集HotpotQA數據集上的問答性能和事實知識邊界知。"Conserv."和"Overconf."分別代表保守性和過度自信。

  1. 問答性能與LLMs的自信度之間的一致性并不高,即便是最強大的模型GPT-4也顯示出過度自信的特點。以NQ為例,GPT-4正確回答的問題占比不到49%,然而卻有高達18.94%的情況錯誤地確認其答案正確。

  2. 過度自信的問題比保守性更為嚴重,這表明模型對知識邊界的不清晰感知主要源于其過度自信

  3. 模型的準確性與知識邊界感知之間并沒有明顯的相關性。換句話說,準確性更高的模型可能具有較低的一致性。這意味著對對話數據的進一步訓練可能會提升模型對知識邊界的感知,但同時也可能會降低其問答性能。

3. 模型對外部信息依賴的程度

在檢索增強下,我們需要了解LLMs何時對問題表現出不確定性,以及它們是否會利用提供的外部信息。

實驗設置

通過兩種不同的提示模板如下圖所示,引導模型在正確回答問題同時輸出對答案的把握程度,并根據這兩個響應,將置信度分為四個級別。

▲一般模板

如果模型兩次都表達出不確定,這表明缺乏自信,而兩次都表達出確定則表明模型高度自信。這四個置信度級別如下界定:級別0:c = 0, c? = 0;級別1:c = 0;級別2:c = 1;級別3:c =1, c? = 1。置信水平從級別0遞增到級別4。

增強文檔類型

本文著重關注兩種類型的支持文檔之間的關系:

  • 黃金文檔:使用DPR檢索增強得到的真實文檔,其中包含問題的真實答案,有1691個帶有黃金文件的問題。

  • 腐敗文檔:只是將文件中正確答案替為“Tom”,其他部分與黃金文檔相同。

提示模板

要求模型自行決定是依靠其內部知識還是依賴于檢索文檔來回答問題。提示模板如下圖所示:

評估指標

測試模型包括LLaMA2、GPT-Instruct和ChatGPT,并通過兩個指標評估結果:

  • 利用率Utilization Ratio:對于給定的問題和文檔,以及無增強的響應和帶增強的響應。如果,則推斷模型依賴于文檔。其中γ為閾值,文本設為0,Overlap代表文檔之間的重疊程度。

  • 錯誤率Corruption Rate:無增強的響應正確而帶增強的響應錯誤的問題百分比。

利用率用于黃金文件,錯誤率用于腐敗文檔。雖然依賴黃金文檔并不等同于答案的準確性,因為模型可能參考了文檔的其他部分,但答案與文檔之間的重疊增加仍然是一個重要指標。相比之下,當模型依賴腐敗文件時,生成錯誤答案的概率顯著提高。

因此,如果模型在本來應該回答正確的問題上給出了錯誤的答案,則認為它是過度依賴了文檔

實驗結果

  • 隨著置信度的提高,所有模型在文檔依賴性方面都表現出下降。這表明當語言模型表達不確定性時,它們傾向于更多地依賴外部文檔

  • 總體上,無論文檔是否包含正確答案,LLMs對文檔的依賴性都相當高。這意味著LLMs傾向于信任輸入內容,因此在利用檢索增強時特別需要謹慎,尤其是當檢索器表現不佳時

4. 提升知識邊界感知的方法

上文得出LLM對知識邊界的認知不足主要是由于它們過于自信所致。因此,通過減輕過度自信可以增強對知識邊界的認知。分別從敦促LLM謹慎行事,以及提高模型提供正確答案的能力兩大方面入手。

1. 敦促LLM謹慎行事

為了減少大型語言模型(LLMs)的過度自信,研究提出了三種策略:

  1. 懲罰Punish:通過在提示中加入“如果回答不正確但你確定的話,你將會受到懲罰”,鼓勵模型在給出確定答案前更加謹慎。

  2. 挑戰Challenge:對生成的答案的正確性提出疑問,迫使模型表達更多的不確定性。

  3. Think Step by Step:明確要求模型逐步思考,先回答問題,然后在下一步輸出自信度。希望當要求逐步思考時,模型能認識到自己的過度自信。

2. 提高正確答案能力:Generate和Explain

為了提高LLMs給出正確答案的能力,研究提出了Generate和Explain兩種方法。

  1. 生成Generate:讓模型自己生成一份有助于回答問題的短文檔,從而提高回答的準確性。

  2. 解釋Explain:在提供答案之前要求模型解釋其答案的原因,這樣不僅可以獲得輔助信息,還可能通過要求模型解釋答案來減少沒有合理解釋的錯誤回答的風險。

3.兩者結合

為了結合謹慎和增強問答性能的概念,本文還將懲罰和解釋方法合并為一種方法,稱為懲罰+解釋

實驗結果

  • 挑戰方法顯著提高了不確定響應比例并降低了過度自信,表明LLMs易過度相信輸入并削弱自身判斷。

  • 懲罰方法減少了過度自信,避免過度保守,通常能改善答案對齊度。

  • 逐步思考方法在NQ上有效,但在HotpotQA上加劇了過度自信,效果有限。

  • 生成方法產生最高過度自信分數,因為LLMs依賴生成的文檔,導致過度自信。

  • 解釋方法通常減少過度自信,保持較低保守水平,增強LLMs對知識邊界的認識。ChatGPT在HQ數據集上過度自信最低,難以進一步提高準確性。

  • 結合謹慎性和QA性能概念,本文結合Punish+Explain方法,提高了對齊性而不影響準確性。

  1. 所有促使模型謹慎的方法都導致預期的不確定響應比例增加。

  2. 提高QA性能的方法旨在增加答案準確性。

  3. 對于LLaMA2,因其嚴重過度自信和較弱生成能力,懲罰方法非常有效。而GPT-4因較低過度自信和強大生成能力,解釋方法非常有效。

5. 自適應檢索增強(Adaptive Retrieval Augmentation)

本文主要是確定何時進行檢索,而不是一直觸發檢索,同時增強LLMs利用未知質量文檔的能力。因此結合懲罰+解釋的方法,開展自適應檢索增強研究。

實驗設置

本文在兩種設置下進行檢索增強:

  • 靜態檢索增強:對所有問題啟用檢索增強。

  • 自適應檢索增強:當模型認為基于其內部知識無法回答問題時,自適應地啟用檢索增強。

實驗中使用了三種類型的支持文檔:稀疏檢索文檔、密集檢索文檔和包含正確答案的黃金文檔。這些文檔分別代表了實際情況的下限和上限。

采用了兩個開放域QA基準數據集:Natural Questions (NQ) 和 HotpotQA,以及五個不同的模型,包括兩個開源模型和三個黑盒模型。

實驗使用的提示(prompts)包括Vanilla、Punish、Explain和Punish+Explain四種。

實驗結果

  • 對于自適應檢索增強,Punish+Explain 方法在大多數情況下取得了最佳結果。

  • 自適應檢索增強僅利用最小數量的檢索嘗試就取得了與靜態增強的性能相當甚至更好的效果索嘗試。

  • 當利用稀疏檢索器檢索的文檔時,靜態增強在NQ上性能出現下降。這是因為檢索提供低質量的文檔誤導了模型。相比之下,自適應檢索增強可以減少性能損失。

  • Explain策略在大多數場景下獲得了最高準確性,該方法本質上增強了性能并且具有相對較小的不確定率。

  1. 在使用黃金文檔進行增強時,靜態增強在幾乎所有情況下均實現了最高準確性。這表明包含答案的文檔通常有助于回答問題

  2. 自適應檢索增強使LLMs對不相關的文檔更加穩健

  3. 在實際搜索場景中,Explain和Punish+Explain策略比靜態增強更高效,當文檔有助于提高準確率時,這些策略通常能夠實現與靜態增強相當或更好的性能,同時需要更少的檢索嘗試

6. 結論

在本研究中 提出了一系列方法來減輕大型語言模型的過度自信問題,并通過這些方法增強了模型對知識邊界的感知,從而提高了檢索增強的效果。

局限與未來探索方向:

本文將模型對其回答的置信度劃分為兩個組成部分,沒有進一步細化。未來的研究可以探索更細粒度的置信度劃分,以更精確地理解和指導模型的行為。

另外本文通過提示來減輕LLMs的過度自信,這可能對于那些過度自信程度特別高的模型(例如Vicuna-v1.5-7B)的調整有限。對于開源模型,可能存在更有效的訓練方法。此外,我們的研究主要集中在LLMs對其事實知識邊界的感知水平上,而對于不同類型知識的知識邊界感知仍有待研究。

公眾號「夕小瑤科技說」后臺回復“When”獲取論文PDF!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/696336.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/696336.shtml
英文地址,請注明出處:http://en.pswp.cn/news/696336.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ios抓包Tunnel to......443

fiddler官網下載“CertMaker for iOS and Android”插件,官網插件:https://www.telerik.com/fiddler/add-ons 雙擊運行插件后,重啟fiddler,ios重新安裝證書即可

貓頭虎分享已解決Bug || 系統更新失敗(System Update Failure):UpdateError, UpgradeFailure

博主貓頭虎的技術世界 🌟 歡迎來到貓頭虎的博客 — 探索技術的無限可能! 專欄鏈接: 🔗 精選專欄: 《面試題大全》 — 面試準備的寶典!《IDEA開發秘籍》 — 提升你的IDEA技能!《100天精通鴻蒙》 …

Java并發編程面試題53道-JUC

Java中的JUC是"Java Concurrency Utilities"的縮寫,它是指Java平臺從Java 5版本開始引入的一系列用于處理多線程并發編程的工具類和框架。這個包(java.util.concurrent)極大地增強了Java在并發編程領域的支持,提供了一系列高級抽象如線程池&am…

Sora:視頻生成模型作為世界模擬器

我們探索了視頻數據上生成模型的大規模訓練。具體來說,我們在可變持續時間、分辨率和長寬比的視頻和圖像上聯合訓練文本條件擴散模型。我們利用了一個在視頻和圖像潛在碼的時空塊上操作的變壓器架構。我們規模最大的模型 Sora 能夠生成一分鐘的高保真視頻。我們的結…

一周學會Django5 Python Web開發-Django5路由重定向

鋒哥原創的Python Web開發 Django5視頻教程: 2024版 Django5 Python web開發 視頻教程(無廢話版) 玩命更新中~_嗶哩嗶哩_bilibili2024版 Django5 Python web開發 視頻教程(無廢話版) 玩命更新中~共計25條視頻,包括:2024版 Django5 Python we…

代碼隨想錄算法訓練營第21天—回溯算法01 | ● 理論基礎 ● *77. 組合

理論基礎 回溯是一種純暴力搜索的方法,它和遞歸相輔相成,通常是執行完遞歸之后緊接著執行回溯相較于以往使用的for循環暴力搜索,回溯能解決更為復雜的問題,如以下的應用場景應用場景 組合問題 如一個集合{1,2,3,4},找…

alibabacloud學習筆記06(小滴課堂)

講Sentinel流量控制詳細操作 基于并發線程進行限流配置實操 在瀏覽器打開快速刷新會報錯 基于并發線程進行限流配置實操 講解 微服務高可用利器Sentinel熔斷降級規則 講解服務調用常見的熔斷狀態和恢復 講解服務調用熔斷例子 我們寫一個帶異常的接口:

6-7年經驗的前端,回望這些年的風雨,都扛過來了~

前言 回望這6-7年的時光,不覺而已,有種閱盡千帆而過的感覺,可能人總在回頭看一些事情時都會有這種感覺吧。 傻人大學開始接觸計算機行業 大概10年前的我,填好志愿,拿到錄取通知書的那天,命運的齒輪就開始…

基于Spring Boot的學生評獎評優管理系統,計算機畢業設計(帶源碼+論文)

源碼獲取地址: 碼呢-一個專注于技術分享的博客平臺一個專注于技術分享的博客平臺,大家以共同學習,樂于分享,擁抱開源的價值觀進行學習交流http://www.xmbiao.cn/resource-details/1760641819451928577

python子域名收集工具

在網絡安全領域中,發現和管理攻擊面絕對是一項必須的任務,而對域名的尋找和分析是發現攻擊面的重要步驟。今天我們將與您分享關于域名發現的四種方法,并附帶Python示例代碼來幫助您更好的理解和掌握這些方法。 1. 主域名鏈式證書提取域名信息…

MySQL的安裝和備份

一、openEuler 二進制方式安裝MySQL 8.0.x 1、獲取軟件包 [rootLocalhost ~]# wget -c https://mirrors.aliyun.com/mysql/MySQL-8.0/mysql-8.0.28-linux-glibc2.12-x86_64.tar.xz 2、創建用戶和組 [rootLocalhost ~]# groupadd -g 27 -r mysql [rootLocalhost ~]# useradd…

RisingWave的動態過濾器和時間過濾器的用法

動態過濾器 動態過濾器能夠實時過濾數據流,并允許定義傳入數據必須滿足的條件才能進行處理。 動態過濾器demo CREATE TABLE sales(id int ,profit_margin double ,PRIMARY KEY (id) );CREATE TABLE products(product_name string ,product_profit double);--返回…

如何切換到Ubuntu系統上來

上篇講到,使用Ubuntu系統能讓人帶來積極的影響,那么如何使用上這個系統呢?其實很多時候,不是不會安裝的技術問題,而是意愿或者心理障礙的問題。 以下是我使用ubuntu系統一年半的經驗,相信經過這三部分的介紹,可以幫助你了解linux系統的最新進展,克服使用困難,使用上U…

C# 讀取JSON文件

命名空間: using System.Text.Json.Nodes; 讀取JSON: // 讀取設置文件參數 JsonNode json JsonNode.Parse(File.ReadAllText(Environment.CurrentDirectory.Replace("\\bin\\Debug", "") "\\settings.json"))["a…

前端項目git提交規范配置

項目規范管理 目的 為了使團隊多人協作更加的規范,所以需要每次在 git 提交的時候,做一次硬性規范提交,規范 git 的提交信息 使用commitizen規范git提交(交互式提交 自定義提示文案 Commit規范) 安裝依賴 pnpm install -D commitizen c…

visual studio2022使用tensorRT配置

只記錄tensorRT在vs中使用時的配置,下載和安裝的 文章主頁自己尋找。 下載好TensorRT和對應的cuda之后,把tensorRT的鍛煉了和lib文件復制粘貼到cuda對應的文件夾中,以方便調用。 完成之后打開vs新建一個tensorRT的項目,然后開始配…

306_C++_QT_創建多個tag頁面,使用QMdiArea容器控件,每個頁面都是一個新的表格[或者其他]頁面

程序目的是可以打開多個styles文件(int后綴文件),且是tag樣式的(就是可以切多個頁面出來,并且能夠單獨關閉);其中讀取ini文件,將其插入到表格中的操作,也是比較復雜的,因為需要保持RGB字符串和前面的說明字符串對齊 ini文件舉例: [MainMenu] Foreground\Selected=&…

ElasticStack安裝(windows)

官網 : Elasticsearch 平臺 — 大規模查找實時答案 | Elastic Elasticsearch Elastic Stack(一套技術棧) 包含了數據的整合 >提取 >存儲 >使用,一整套! 各組件介紹: beats 套件:從各種不同類型的文件/應用中采集數據。比如:a,b,cd,e,aa,bb,ccLogstash:…

三年功能測試,測試工作吐槽

概述 大家好,我是洋子。有很多粉絲朋友目前還是在做功能測試,日常會遇到很多繁瑣,棘手的問題,今天分享一篇在testerhome社區的帖子《三年功能測試,測試工作吐槽》 原文鏈接https://testerhome.com/topics/38546 這篇文…

vue.js el-tooltip根據文字長度控制是否提示toolTip

一、需求&#xff1a;如何判斷當前文本文字是否超出文本長度&#xff0c;是否需要出現提示toolTip。效果圖如下&#xff1a; 二、實現&#xff1a; 1、表格字段鼠標放置el-popover出現 “引用主題” 的具體內容&#xff1b; <!-- 表格字段&#xff1a;引用主題 --> <…