歸因問答-如何進行自動評估

歸因問答-如何進行自動評估

diannao/2025/7/1 8:20:40/文章來源:https://blog.csdn.net/liliang199/article/details/149009697

歸因模型函數g的形式化表示

$g(q) = (a, p)$

輸入：用戶問題q

輸出：(a, p), 其中a為答案，p為原始文章中支持答案a的段落。

1）單樣本歸因

針對輸入問題q，如何評估歸因模型g輸出中段落p是對答案a的正確歸因。

在論文arributed qa中，依賴nli_cli(NLI classifer)分類器來判斷a和p之間是否存在邏輯支撐關系。

歸因形式化表示如下

$AutoAIS(x_i, g(x_i)) = \begin{cases} 1, & {nli\_cli(q_i, g(q_i)) = 1} \\ 0, & {else}\end{cases}$

給定問題qi、答案ai和相關段落pi表示為g(qi) =(ai, pi)。

要求nli_cli模型判斷，在問題q的上下文中，答案a是否完全由文檔段落p支持。

如果nil_cli模型回答1，則認為(q, g(q))正確歸因，否則認為(q, g(q))未正確歸因。

2）系統整體歸因

假設測試系統中n個問題q1, q2, ..., qn，對于每個問題qi，以及歸因模型輸出(ai, pi)=g(qi)。

采用如上自動評估過程后，該系統的評估函數定義如下

$\displaystyle E^{A}[g] = \frac{1}{n} \sum_{i=1}^{n} AutoAIS(p_i, g(p_i))$

自動歸因評估的精度依賴于歸因邏輯NLI分類模型的精度。

---

歸因問答-如何進行人類評估

https://blog.csdn.net/liliang199/article/details/148935474

(NLI classifier) True

https://github.com/google-research/true

(NLI classifier) TRUE: Re-evaluating Factual Consistency Evaluation

https://arxiv.org/pdf/2204.04991

Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models

https://arxiv.org/pdf/2212.08037

(AutoAIS) RARR: Researching and Revising What Language Models Say, Using Language Models

https://arxiv.org/pdf/2210.08726

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/89167.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/89167.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/89167.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

基于vue+View UI的組織機構選擇

基于vue+View UI的組織機構選擇

1、效果 1、代碼 <template><Button type"primary" click"modal true">點擊選擇</Button><div v-if"selectedArr.length > 0"><p>已選擇項：</p><div v-for"(item, index) in sel…

閱讀更多...

人大金倉Kingbase數據庫KSQL 常用命令指南

人大金倉Kingbase數據庫KSQL 常用命令指南

人大金倉Kingbase數據庫KSQL 常用命令指南 1. 連接與基本操作 1.1 連接數據庫 # 基礎語法 ksql -U 用戶名 -d 數據庫名 -h 主機名 -p 端口號 # 示例 ksql -U system -d testdb -h 127.0.0.1 -p 543211.2 執行SQL腳本 # 基礎語法 ksql -U <用戶名> -W -f <SQL腳本文…

閱讀更多...

從萌芽到領航：廣州華銳互動的 AR 奮進之路?

從萌芽到領航：廣州華銳互動的 AR 奮進之路?

在 AR 技術這片充滿無限可能的領域中，廣州華銳互動數字科技有限公司宛如一顆耀眼的新星，熠熠生輝。廣州華銳互動成立于 2008 年，在那個 AR 技術尚處于萌芽階段、大眾認知度還較低的時期，廣州華銳互動便憑借著前瞻性的戰略眼光和對…

閱讀更多...

redisson看門狗實現原理

redisson看門狗實現原理

Redisson 看門狗（Watch Dog）機制實現原理 Redisson 的 Watch Dog 機制是分布式鎖的核心組件之一，用于自動續期鎖的過期時間，防止業務邏輯執行時間超過鎖的持有時間，導致鎖提前釋放而引發并發問題。以下是其實現原理…

閱讀更多...

C++中explicit詳解

C++中explicit詳解

文章目錄 1. **防止隱式類型轉換**示例1：沒有使用explicit示例2：使用explicit 2. **防止拷貝初始化**示例1：沒有使用explicit示例2：使用explicit 3. **防止隱式類型轉換的鏈式調用**示例1：沒有使用explicit示例2&#…

閱讀更多...

代碼部落 20250629 CSP-J復賽模擬賽

代碼部落 20250629 CSP-J復賽模擬賽

網址：代碼部落一： 相濡以沫 β（代碼請自寫） 簽到題，如果a[i]<a[i1] a[i]a[i1],反之，直接輸出No 二共同富裕（代碼請自寫） 簽到題，用sort前綴和如果最富有的個…

閱讀更多...

零基礎學習RabbitMQ(5)--工作模式（1）

零基礎學習RabbitMQ(5)--工作模式（1）

在前面的章節中我們簡單介紹過一些RabbitMQ的工作模式，RabbitMQ共提供了七種工作模式進行消息傳遞，這里我們來詳細介紹。 1. Simple(簡單模式) P：生產者 C：消費者特點：一個生產者一個消費者，消息只能被…

閱讀更多...

Android Liunx ffmpeg交叉編譯

Android Liunx ffmpeg交叉編譯

本文的交叉編譯在window上安裝VMware，使用Ubuntu20.4進行的編譯。一、安裝NDK： 1、下載解壓： 在NDK 下載 | Android NDK | Android Developers下載Liunx平臺的NDK。本人下載的是android-ndk-r27c-linux.zip版本的。解壓android-ndk-r…

閱讀更多...

極海G32R501雙向數字電源解決方案賦能AI服務器及電源應用創新

極海G32R501雙向數字電源解決方案賦能AI服務器及電源應用創新

6月26日，Big-Bit商務網主辦的2025中國電子熱點解決方案創新峰會在東莞召開，峰會以“核心智變、能效躍遷”為主題，聚焦光儲充、800V超充、AI服務器、BMS、智能汽車照明與汽車中小電機電控應用。峰會期間，珠海極海半導體有限公司&a…

閱讀更多...

【修電腦的小記錄】連不上網

【修電腦的小記錄】連不上網

問題概述問題表現為：電腦連接網絡后，顯示已連接但無法上網。環境信息： - DNS 修改無效，ping 外網（8.8.8.8）失敗 - 嘗試重置網絡參數、多種命令無果 🔍 排查過程 1. 執行以下命令重置網絡&a…

閱讀更多...

QT中QSS樣式表的詳細介紹

QT中QSS樣式表的詳細介紹

轉自個人博客 **Qt樣式表（Qt Style Sheets，簡稱QSS）**是一種類似于HTML中的CSS（層疊樣式表）的機制，用于自定義Qt應用程序的外觀。通過QSS，開發者可以輕松地修改控件的外觀，而無需更改…

閱讀更多...

Spring 依賴注入：官方推薦方式及最佳實踐

Spring 依賴注入：官方推薦方式及最佳實踐

Spring 依賴注入：官方推薦方式及最佳實踐你正在遭遇以下困境嗎？ 項目變大后，依賴關系像一團亂麻，牽一發而動全身？單元測試難如登天，被迫啟動整個Spring容器？NullPointerException 總在運行時突…

閱讀更多...

javaweb聽課筆記day1

javaweb聽課筆記day1

MySQL數據模型關系型數據庫: 通過表來存儲數據關系型數據庫是建立在關系模型基礎上的數據庫，簡單說，關系型數據庫是由多張能互相連接的二維表組成的數據庫優點: 都是使用表結構，格式一致，易于維護;使用通用的SQL語言操作…

閱讀更多...

《從量子奇境到前端優化：解鎖卡西米爾效應的隱藏力量》

《從量子奇境到前端優化：解鎖卡西米爾效應的隱藏力量》

卡西米爾效應由荷蘭物理學家亨德里克卡西米爾于1948年提出，它源于量子場論中“真空不空”的奇異觀點。在傳統認知里，真空是一片虛無，但量子理論指出，真空中充滿了持續漲落的能量，即零點能。想象有兩片中性的金屬板被放…

閱讀更多...

【學習筆記】強化學習的數學原理

【學習筆記】強化學習的數學原理

軟活硬整，納什又把RL翻出來講了一遍，我以為是溫故而知新，原來是在賣書。不過溫故而知新還是沒啥毛病的。 PS：今天裝Notepad時看到的，我還以為現在連用個Notepad都要給天線寶寶們捐款了。文章目錄 PART 11 overview…

閱讀更多...

深入“火星棒球數據API”：用數據解鎖棒球世界的無限可能

深入“火星棒球數據API”：用數據解鎖棒球世界的無限可能

在棒球運動日益數據化的今天，高效獲取和處理海量比賽信息已成為球隊制勝、媒體解讀、球迷深入理解比賽的關鍵。“火星棒球數據API” 應運而生，成為連接棒球智慧與大數據技術的橋梁。本文將探討這一API的核心價值、功能亮點及其如何重塑我們體驗和分析棒球…

閱讀更多...

[附源碼+數據庫+畢業論文]基于Spring+MyBatis+MySQL+Maven+jsp實現的校園服務平臺管理系統，推薦！

[附源碼+數據庫+畢業論文]基于Spring+MyBatis+MySQL+Maven+jsp實現的校園服務平臺管理系統，推薦！

摘要現代經濟快節奏發展以及不斷完善升級的信息化技術，讓傳統數據信息的管理升級為軟件存儲，歸納，集中處理數據信息的管理方式。本校園服務平臺管理系統就是在這樣的大環境下誕生，其可以幫助管理者在短時間內處理完畢龐大的數據…

閱讀更多...

「Java EE開發指南」如何用MyEclipse創建一個WEB項目？（三）

「Java EE開發指南」如何用MyEclipse創建一個WEB項目？（三）

在本文中，您可以找到有關WEB項目的信息。將了解： Web項目結構和參數Web開發生產力工具JSP代碼完成和驗證這些特性在MyEclipse中可用。在上文中（點擊這里回顧>>），我們為大家介紹了Web開發效率工具、Web項目參數…

閱讀更多...

笨方法學python -練習6

笨方法學python -練習6

程序： print("Mary had a little lamb.") print("Its fleece was white as {}.".format(snow)) print("And everywhere that Mary went.") print("." * 10) # what′d that do? end1 "C" end2 "h&qu…

閱讀更多...

【MySQL】Binlog文件占用空間比較大，如何清理

【MySQL】Binlog文件占用空間比較大，如何清理

一、前言在進行一次數據導入之后，發現服務器磁盤爆滿，初步判斷是數據庫產生了大量binlog所致，接下來進行分析處理。二、分析 1、查看磁盤空間通過df -h命令，查看磁盤空間占用情況 2、查找占用文件或目錄通過命令：…

閱讀更多...

最新文章