探索大型語言模型自動評估 LLM 輸出長句準確性的方法

LLM現在能夠自動評估較長文本中的事實真實性

源碼地址:https://github.com/google-deepmind/long-form-factuality
論文地址:https://arxiv.org/pdf/2403.18802.pdf

這篇論文是關于谷歌DeepMind的,提出了新的數據集、評估方法和衡量標準,用于對 LLM 長式事實性(長式事實性)和信息準確性進行基準測試。

研究要點包括:

  • 挑戰:沒有數據集、評估方法或指標來評估LLM長式產出的真實性
  • 解決方法:數據集 “LongFact”、自動評估方法 "SAFE "和評估指標 “F1@K”。
  • 第 1 點:上述方法可以量化 “法律碩士長式成果的事實性”。
  • 第 2 點:模型越大,越長的陳述越符合事實。

換句話說,這項研究可用于自動評估 LLM 輸出的長式信息的準確性,并為 LLM 的未來發展提供參考。

LLM業績評估的現狀

近年來,法律碩士的成績有了顯著提高,但同時他們也存在"導致幻覺 "和 "說謊"的問題。特別是,"輸出長句時準確度的顯著降低 "是一個關鍵問題。其中一個原因是沒有數據集可以評估法律碩士長篇回答問題的真實性。這是因為現有的大多數數據集主要是要求人們回答簡短問題的問答,因此很難評估長式答案的真實性。此外,還沒有確定量化長刑期事實的方法或指標,因此無法對其進行成功評估。

本研究提出的方法。

如前所述,該研究提出了以下三種對長篇法律碩士論文事實性的自動評估方法。

  • LongFact
  • SAFE(搜索增強事實評估器)。
  • F1@K

讓我們依次來詳細了解一下。

數據集: LongFact

LongFact 是本文提出的新問答數據集。

主要功能包括

  • 包括 38 個主題的 2,280 個事實調查問題
  • 主題分為四類:STEM(科學、技術、工程和數學)、社會科學、人文科學和其他。
  • 包括需要長時間回答的問題
  • 使用 GPT-4生成問題。
  • 從生成的問題中刪除重復問題,并為每個主題隨機抽取 30 個問題

下圖左側顯示的是 “包含在 LongFact 中的問題主題百分比”,右側顯示的是 “現有數據集與 LongFact 的比較”。

與現有的數據集相比,LongFact 是可用于評估長句事實性的數據集中主題數量最多的數據集。順便提一下,LongFact 在 GitHub 上公開發布,任何人都可以使用。因此,它有望成為未來 LLM 研究的基礎。

評估方法:SAFE(Search-Augmented Factuality Evaluator)

SAFE(Search-Augmented Factuality Evaluator)是本文提出的一種用于自動評估長格式事實性(LLM)的方法。

下圖是 SAFE 的概覽。

SAFE 的評估按以下順序進行

  1. 向 LLM 輸入 “提示”,并讓它輸出 “響應”。
  2. 使用 LLM 將回復文本分解為若干 “要素”。
  3. 使用 LLM 確定 “分解的各個元素是否與輸入的提示相關”。
  4. 使用已確定相關的 "單個元素 "的 LLM 生成 Google 搜索查詢。
  5. 使用生成的查詢進行谷歌搜索
  6. 確定谷歌搜索結果中的 "個別元素 "是否為正確信息(以及是否有充分依據)。

實質上,如下圖所示,輸出文本被分解為其元素、查詢生成和谷歌搜索,從搜索結果中尋找支持事實的信息。

當然,"正確信息元素數量 "越多,LLM 輸出的響應就越可靠

當作者為 SAFE 與人類意見不一致的 100 個事實分配正確標簽時,他們發現 SAFE 的正確率為 76%,而人類的正確率僅為 19%。此外,SAFE 的表現優于人類,而成本卻不到人類評分者的二十分之一。

這意味著,SAFE 將被證明成本相對較低,準確性較高。

順便提一下,SAFE 的實施代碼也在GitHub 上以開源方式提供,任何人都可以使用。

評價指標:F1@K

F1@K 是一個同時考慮擬合率(精確度)和重復率(召回率)的指標。其具體定義如下

  • 一致率 Prec(y):輸出 y 中 "正確信息要素 "的百分比
  • 復制率 RK(y):輸出 y 中 "正確信息元素 "數量的最小值 S(y) 除以用戶預期偏好的輸出句子長度(正確信息元素數量)的數量 K min(S(y)/K,1)

而 F1@K 則將擬合度和可重復性與下式相結合。

如果 S(y)>0:.

F1@K(y)=2?Prec(y)?RK(y)Prec(y)+RK(y)

如果 S(y)=0:.

F1@K(y)=0。

換句話說,F1@K 的值介于 0 和 1 之間,越接近 1 表示長文本的事實性越強�

K 是一個超參數,代表用戶偏好的輸出文本長度(正確信息元素的數量)。假設用戶認為最多 K 個 "信息正確元素 "越多越好,但對超過 K 個的 "信息正確元素 "則漠不關心。

例如,如果 K=64,用戶認為 64 以內的 "正確信息要素 "越多越好,但對第 65 條及以后的信息則漠不關心。

K 值需要根據用戶的偏好來設置。

這樣不僅可以評估信息是否符合事實,還可以評估信息是否包含足夠的信息量。

事實上,本文使用 F1@K 對 13 個 LLM 進行了基準測試,并比較了這些模型在長句中的實際表現。

使用該數據集和評估指標及方法對 LLM 性能進行比較。

實驗細節

LongFact 對 13 個 LLM(Gemini、GPT、Claude 和 PaLM-2 系列)進行了基準測試,以研究LLM 中"模型大小 "與 "長文本事實性 "之間的關系。

具體來說,每個模型都會針對從 LongFact 中隨機抽取的 250 個問題生成輸出結果,并使用 SAFE 進行評估。

然后,他們對 F1@K(K=64 和 K=178)的性能進行了量化和比較。

結果

實驗結果表明,模型越大,越長的陳述越符合事實。

例如,GPT-4-Turbo 的事實性高于 GPT-4,GPT-4 的事實性高于 GPT-3.5-Turbo。我們還可以看到,Gemini-Ultra 的事實性高于 Gemini-Pro,PaLM-2-L-IT-RLHF 的事實性高于 PaLM-2-L-IT。

此外,無論 K 值如何,三個最符合事實的模型是 GPT-4-Turbo、Gemini-Ultra 和 PaLM-2-L-IT-RLHF。

期望這項研究將成為未來法律碩士發展的基礎

本文介紹了谷歌 DeepMind 關于 "正確評估長篇法律碩士論文中信息的事實性和準確性的方法 "的研究。本研究提出了 LongFact、自動評估方法 SAFE 和 F1@K 指標,用于評估長句中 LLM 的事實性。這些將有助于澄清長篇文本中大規模語言模型的事實性現狀,并為今后的研究提供基礎。

本研究的局限性如下:

  • LongFact 和 SAFE 依賴于 LLM,因此直接受到所用 LLM 功能的影響
  • SAFE 依靠谷歌搜索,可能無法正確評估某些事實
  • 至于 SAFE 的性能是否與 "人類專家級評估員 "相當或更好,尚未進行測試。

因此,他們計劃今后開展有關學習、微調和使用外部工具的研究,以提高較長法律碩士課程的事實性。他還表示,SAFE "依賴語言模型 "的改進以及根據 LLM 內部知識評估較長文本中事實準確性的方法的開發也在計劃階段。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/41159.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/41159.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/41159.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

vue2+element-ui新增編輯表格+刪除行

實現效果&#xff1a; 代碼實現 &#xff1a; <el-table :data"dataForm.updateData"border:header-cell-style"{text-align:center}":cell-style"{text-align:center}"><el-table-column label"選項字段"align"center&…

Linux 內核 GPIO 用戶空間接口

文章目錄 Linux 內核 GPIO 接口舊版本方式&#xff1a;sysfs 接口新版本方式&#xff1a;chardev 接口 gpiod 庫及其命令行gpiod 庫的命令行gpiod 庫函數的應用 GPIO&#xff08;General Purpose Input/Output&#xff0c;通用輸入/輸出接口&#xff09;&#xff0c;是微控制器…

MAX()和ROW_NUMBER()函數的對比

SQL 查詢中,使用 MAX() 函數和使用窗口函數 ROW_NUMBER() 都可以實現獲取每個分組中某個列的最大值,但它們的實現方式和性能表現有所不同。以下是兩者的區別和性能對比: 使用 MAX() 函數 SELECTMAX(d.times) FROMv_y d WHEREd.id = a.idAND d.name = a.nameAND d.age = a.…

交換機需要多大 buffer(續:更一般的原理)

前面用 aimd 系統分析了交換機 buffer 需求量隨流數量增加而減少&#xff0c;今天從更一般的角度繼續分析這事。 將交換機建模為一個 m/m/1 排隊系統&#xff0c;多流場景下它就會變成一個 m/g/1 排隊系統&#xff0c;而這事比前面的 aimd 系統分析更容易推導。 m/m/1 系統中…

哪里還可以申請免費一年期的SSL證書?

目前&#xff0c;要申請免費一年期的SSL證書&#xff0c;選項較為有限&#xff0c;因為多數供應商已轉向提供短期的免費證書&#xff0c;通常有效期為90天。不過&#xff0c;有一個例外是JoySSL&#xff0c;它仍然提供一年期的免費SSL證書&#xff0c;但是只針對教育版和政務版…

halcon學習

halcon列程詳細介紹-V1.3 從文件夾中遍歷圖片(用到的算子及實例) 1)list_files(::Directory,Options:Files) 功能:列出目錄中的所有文件 參數列表: 第1個參數Directory為輸入變量,需要列出的目錄名字,即輸入目錄地址; 第2個參數Options為輸入變量,默認值為files,建…

html三級菜單

示例 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>Menu Example</title> <link re…

mybatispuls 分頁插件的基本原理是什么?

MyBatis-Plus 是一個基于 MyBatis 的增強框架,它提供了許多額外的功能,其中分頁插件是一個常用的功能。分頁插件的基本原理是攔截 SQL 語句,在執行查詢之前對 SQL 進行修改,以實現分頁的功能。以下是 MyBatis-Plus 分頁插件的基本原理及其工作機制: 1. 基本原理 分頁插件…

LED顯示屏跟COB顯示屏有哪些不同?

COB顯示屏跟LED顯示屏的主要區別在于產品的顯示效果、封裝技術、耐用性、防護力、維護以及制造成本方面的不同&#xff0c;這里所說的LED顯示屏主要指的是使用SMD封裝的LED顯示屏&#xff0c;今天跟隨COB顯示屏廠家中品瑞科技一起來詳細看看具體分析&#xff1a; 一、封裝技術 …

品牌推廣的深層邏輯:自我提升與市場認同的和諧共生

品牌推廣的深層邏輯&#xff1a;自我提升與市場認同的和諧共生 著名飛行員查爾斯林德伯格(Charles Lindbergh) 曾寫道:“改善生活方式比傳播生活方式更重要。如果我們自己的生活方式使別人感到滿意&#xff0c;那么它將自動蔓延。如果不是這樣&#xff0c;那么任何武力都不可能…

如何在 Odoo 16 中繼承和更新現有郵件模板

在本文中,讓我們看看如何在 Odoo 16 中繼承和編輯現有郵件模板。我們必須這樣做才能對現有模板的內容進行任何調整或更新。讓我們考慮一個在會計模塊中更新郵件模板的示例。 單擊“account.move”模型中的“發送并打印”按鈕后,將打開上述向導。在這里,我們將進行更改。從…

8人團隊歷時半年打造開源版GPT-4o,零延遲演示引爆全網!人人可免費使用!

目錄 01 Moshi 02 背后技術揭秘 GPT-4o可能要等到今年秋季才會公開。 然而&#xff0c;由法國8人團隊開發的原生多模態Moshi&#xff0c;已經達到了接近GPT-4o的水平&#xff0c;現場演示幾乎沒有延遲&#xff0c;吸引了大量AI專家的關注。 令人驚訝的是&#xff0c;開源版的…

Python酷庫之旅-第三方庫Pandas(003)

目錄 一、用法精講 4、pandas.read_csv函數 4-1、語法 4-2、參數 4-3、功能 4-4、返回值 4-5、說明 4-6、用法 4-6-1、創建csv文件 4-6-2、代碼示例 4-6-3、結果輸出 二、推薦閱讀 1、Python筑基之旅 2、Python函數之旅 3、Python算法之旅 4、Python魔法之旅 …

T100-XG查詢報表的開發

制作XG報表 1、注冊程序 azzi900 首先現將程序注冊一下,在內部構建基礎代碼檔。 2、注冊作業 azzi910 也是直接新增一個,作業跟程序綁定一下。 3、T100簽出規格程序 這個時候應該是沒簽出的,首先將規格遷出。 4、T100畫面產生器 規格遷出之后,這個時候還需要生成一個畫…

springcloud-gateway 網關組件中文文檔

Spring Cloud網關 Greenwich SR5 該項目提供了一個基于Spring生態系統的API網關&#xff0c;其中包括&#xff1a;Spring 5&#xff0c;Spring Boot 2和項目Reactor。Spring Cloud網關的目的是提供一種簡單而有效的方法來路由到API&#xff0c;并向它們提供跨領域的關注&#x…

Java中的數據脫敏與隱私保護技術

Java中的數據脫敏與隱私保護技術 大家好&#xff0c;我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編&#xff0c;也是冬天不穿秋褲&#xff0c;天冷也要風度的程序猿&#xff01; 隨著信息化進程的加深&#xff0c;數據安全和隱私保護越來越受到關注。數據脫…

Python文件讀入操作

本套課在線學習視頻&#xff08;網盤地址&#xff0c;保存到網盤即可免費觀看&#xff09;&#xff1a; ??https://pan.quark.cn/s/e2ba7867f034?? Python編程中&#xff0c;文件操作是一項基礎且重要的技能。本文將詳細介紹如何使用Python進行文件的打開、讀取、寫入和關…

配置基于不同IP地址的虛擬主機

定義配置文件vhost.conf <directory /www> allowoverride none require all granted </directory> <virtualhost 192.168.209.136:80> documentroot /www servername 192.168.209.136 </virtualhost><virtualhost 192.168.209.138:80> document…

Restore Equipment

Restore Equipment 魔獸世界 - 盜號申請 - 恢復裝備流程 魔獸和網易真的不行啊 1&#xff09;這個裝備本來就是兌換的竟然可以賣NPC 2&#xff09;針對這個情況竟然無法挽回 3&#xff09;設計理念真的不得不吐槽一下 4&#xff09;策劃真的不咋樣&#xff0c;要是有機會我要自…

【C++】 解決 C++ 語言報錯:Stack Overflow

文章目錄 引言 棧溢出&#xff08;Stack Overflow&#xff09;是 C 編程中常見且嚴重的錯誤之一。棧溢出通常發生在程序遞歸調用過深或分配過大的局部變量時&#xff0c;導致棧空間耗盡。棧溢出不僅會導致程序崩潰&#xff0c;還可能引發不可預測的行為。本文將深入探討棧溢出…