SEER: Self-Aligned Evidence Extraction for Retrieval-AugmentedGeneration

一、動機

如何從檢索到的段落中提取證據,以降低計算成本并提升最終的RAG性能,然而這一問題仍然具有挑戰性。

現有方法 嚴重依賴于基于啟發式的增強,面臨以下幾個問題:

(1)由于手工制作的上下文過濾,導致泛化能力差;

(2)由于基于規則的上下文分塊,導致語義不足;

(3)由于句子級別的過濾學習,導致長度偏差。

不完美的檢索器,會檢索到無關的段落,誤導LLM

二、解決方法

我們提出了一種基于模型的證據提取學習框架——SEER,通過自對齊學習優化一個基礎模型,使其成為具有所需特性的證據提取器。

自對齊學習利用模型自我改進,并將其響應與期望的屬性對齊,這可以緩解對手工設計的上下文過濾、基于規則的上下文分塊和句子級過濾學習的高度依賴。

鑒于提取的證據,再次出現一個問題:如何正確評估證據的質量?原則上,證據應該是忠實的(即避免內在的幻覺),與檢索到的段落一致(Rashkin et al., 2021;Maynez et al., 2020);應有助于解決用戶輸入的問題(Adlakha et al., 2023);并且簡潔,以促進推理速度(Ko et al., 2024)。

我們提出了一種基于模型的證據提取學習框架——SEER:它包括三個主要階段:

(1)證據提取:為了緩解上述問題,我們提出通過響應采樣提取語義一致且長度多樣化的證據,從而為對齊提供充分的偏好數據。

三、任務表述

通過基礎提取器E和固定生成器G來提升生成任務的性能。

基礎提取器E:用于提取證據的模型,是從檢索到的文檔中提取相關的證據或信息。骨干網絡使用Llama2-7B-Chat

固定生成器G:根據提取的證據生成回答,生成器是固定的,權重不更新。

檢索到的段落:給定一個查詢q從一個檢索系統中獲取一組相關的段落

自動對齊和微調:通過自對齊(通過模型自身的學習來改善提取過程)來微調基礎提取器E,使其提取到的證據更加符合生成器G的需求

兩種上下文過濾優化:

1.基于啟發式的

2.基于模型的(本文)

四、方法

三個階段:1.證據提取 2.專家評估 3.自對齊?

1.證據提取

能不能讓模型“自我學習”,自動提取更好的證據,而不是靠人寫的死板規則?

🔍 怎么做?

作者的方法就是用一種叫 響應采樣(response sampling) 的策略來讓模型自己動手練。

我們把這個問題 q 和這段文檔 P 拼接在一起,喂給模型,提示它從中提取出 可能作為答案依據的證據(也就是e)。讓模型嘗試從這段文檔中,提取出 M 個不同版本的證據。

??? 問題:模型太“自信”,老是產出一樣的東西

大語言模型(LLM)有個“毛病”:它太自信了,總覺得它知道哪條最靠譜。
于是,它在多次采樣的時候,總是生成那幾條“它最喜歡的答案”:

📊 這導致了一個現象:生成結果的分布很不平衡,叫做“冪律分布”(power-law distribution)

  • 熱門答案(頭部響應)出現非常頻繁

  • 其他少見但可能有價值的答案(長尾響應)出現得很少

🔧 解決辦法:去重 + 均勻分布

  • 去重
    用一種叫 n-gram 相似度 的方法(就是比較字詞相似度),把重復或者非常相似的答案剔除掉。

  • 保留不重復、分布更均勻的一組證據
    得到新的候選集合 {ei}??,這個集合里的答案就更“多樣化”,不會被幾個高頻答案壟斷。

2.專家評估

提取器提取的證據可能:不忠實、沒有幫助、不簡潔

設置三個專家分別評估提取證據在忠實性、有用性、簡潔性方面的質量,之后針對每個提取的證據的多個評分,設計一個平滑的CoV-加權方案,以便得到最終的評估分數。

假設你和朋友們一起評分一部電影,大家的評分有高有低。為了得出一個合理的電影評分,我們可以用CoV-加權來“調節”

加權的意思就是根據評分的不穩定程度給每個評分一個“重要性”分數。

  • **波動大(不穩定)**的評分,權重會低。

  • **波動小(穩定)**的評分,權重會高。

1.獲得專家的評分

?首先收集一組QuadQARE<q, a, p, e>查詢、答案、檢索到的段落、提取的證據,設計三個可插拔的專家,并行評估提取證據的質量。

忠實專家:將檢索到的文檔 P 和相應的提取證據 e 視為前提和假設。然后,我們使用 ALIGNSCORE(NLI自然語言推理模型) 來衡量提取證據 e 是否能夠從檢索到的文檔 P 中推導出來

sf∈[0,1]是忠實性評分。如果假設 e 對前提 P 是忠實的,則評分接近 1,否則接近 0。

?有用性專家:通過計算在包含提取證據 e 前后生成黃金答案 a 的對數概率變化來評估其對大語言模型(LLMs)的潛在影響

[0,1] 是有用性評分Sig(?) 是 sigmoid 函數

?簡潔性專家:首先將查詢 q 和黃金答案 a 轉換為完整答案 t,該答案表示回答查詢所需的最小信息。隨后,我們利用 SBERT(Reimers 和 Gurevych,2019)來衡量完整答案和提取證據之間的語義重疊程度

[?1,1] 是簡潔性評分,通過計算完整答案 t 和提取證據 e 之間的余弦相似度來衡量,提示 GPT-3.5-turbo 根據查詢 q 和答案 a 生成完整答案 t

完整答案是通過將問題及其對應的答案轉化為陳述句的形式生成的

獲得每個專家的評估分數后,怎么用這些分數合并成一個綜合評分來評估每個證據的總體質量

簡單的方法:直接求平均值,但是每個評估的學習難度和重要性不一樣,所以,不能直接使用平均值,使用CoV加權(變異系數加權)的方法?

變異系數(CoV):

變異系數(Coefficient of Variation, CoV)是衡量分數變異程度的一個指標,公式為:

CoV的作用是:當某個分數的變動范圍較大時,它的影響更大。

計算加權:用 softmax 函數 來將 CoV 轉化為權重,并通過“溫度”τ\tauτ來控制這種平滑性,防止某些異常的分數權重過大。softmax 函數會根據 CoV 的大小分配不同的權重。溫度參數的作用是控制權重分配的平滑度。

CoV加權分數是通過如下公式計算的:

3.自對齊

?獲得偏好數據:(問題+背景,好的證據,不太好的證據)

?獲得數據后,開始對齊微調:

對齊訓練中,以前的工作通常采用近端策略優化(PPO)(Schulman et al., 2017) 或直接偏好優化(DPO)(Rafailov et al., 2023)。

  • PPO(近端策略優化):“你告訴我 A 比 B 好,那我就盡量學著多選 A,少選 B。”它確實能學偏好,但它有個局限:它根本 不關心這倆在總排名里的位置

  • DPO(直接偏好優化):“你喜歡 A 勝過 B?OK,我來微調模型傾向 A。”但 DPO 不在乎這個,它就是“誰贏就訓誰”,不考慮這倆交換對整體排名有多大影響。

🎯 所以問題出在哪?

PPO & DPO 的共同問題是:
它們都不夠“在乎排名位置”??
→ 就像一個不太懂“差距感”的評委。

? LPO(Lambda Preference Optimization):

如果我把第 2 名換到第 1 名,會讓整體排名提升多少?”它會根據這個**“排名提升的收益”**來給每對偏好打不同的“訓練權重”。LPO 是一種更聰明的訓練方法,不僅知道“e1 比 e2 好”,還知道“讓 e1 在前面對整體排名幫助更大”

根據Lambda 損失方法的啟發我們提出了?一種基于列表感知的 Lambda 偏好優化算法(LPO):

通過為每對候選項分配一個 lambda 權重,將排名位置無縫地引入 DPO:它在 DPO 的基礎上加了一個“排名感知”的增強項 —— lambda 權重(λ?w,l?),讓訓練更精準、更聰明!

LPO(Lambda Preference Optimization) 是一種讓模型在「學習偏好排序」時,同時關注:

  • 誰更好(偏好對比)

  • 誰的位置更重要(排名影響)

?L_LPO = - 期望值[ λ_w,l * log(Sigmoid( ... )) ]

這句話可以解釋為:

我們在訓練時,對每一對 evidence(ei vs ej),計算一個“偏好損失”,然后根據“他們交換會帶來多少排名變化(λ_w,l)”來調節訓練強度。

?這個結構其實和 DPO 很像,但多了一個 λw,l:每對樣本的訓練力度是按“交換是否很重要”來動態調整的!

🧠 Lambda 損失是個啥?

Lambda Loss(λ-Loss)是一種用于排序任務的訓練方法

核心思想:

🗣?「我不直接告訴模型要學什么分數,我告訴你:如果你把兩個樣本的位置換了,排名效果會提升多少 —— 然后你根據這個信息來訓練!」

Lambda 其實是給每一對候選項的“交換”打的一個分數,也就是“交換這倆值的 收益權重”。

對每一對組合,算出如果我們交換了它們的位置,對某個評價指標(如 NDCG、MRR)影響多大

這個影響值(也可以叫“梯度引導值”)就是 λ,用來指引模型參數往更好的排序方向更新!

?? 2. Lambda 權重 λ?w,l? 怎么算的?

λw,l = sw * ΔMRR(w,l) + sl * ΔMRR(l,w)

你可以這樣理解:

如果 ei 和 ej 的排名互換后,整體排序的“倒數排名提升”比較大,那說明這兩個項的位置很關鍵,我們就更強烈地用它們來訓練模型!

所以,lambda 權重的含義就是:

🌟「這兩個證據的排序變化,會對整體排名帶來多少提升?」如果越關鍵,我們就越強化訓練。

?五、實驗

1.數據集

NaturalQuestions (NQ)(Kwiatkowski 等,2019)、TriviaQA (TQA)(Joshi 等,2017)和 HotpotQA(Yang 等,2018)。

2.評估指標

NQ 和 TQA 屬于抽取式問答任務,我們采用 Exact Match(EM,精確匹配) 作為它們的評估指標:如果問答模型的回答中至少包含一個正確答案,則得分為 1;否則為 0。

HotpotQA 屬于生成式問答任務,我們使用 unigram F1 分數 來評估答案的正確性。

3.基線

1.零樣本(Zero-shot, Zero):不向大語言模型(LLM)傳入任何證據,僅依靠問題本身進行回答。

2.粗粒度證據類(Coarse-grained Evidence, CGE):

  • (i) 全文段(Full Passage, Full):
    直接將檢索得到的最相關整段文本傳給 LLM。

  • (ii) 上下文選擇(Select-Context, SeleCtx)(Li 等,2023b):?
    基于困惑度(perplexity)指標,從檢索到的段落中識別并剪除冗余部分,只保留更有信息量的上下文內容。

3.細粒度證據類(Fine-grained Evidence, FGE):

  • (i) LLM-Embedder(Zhang 等,2023):
    從檢索到的段落中提取與查詢最相似的子段落,作為證據。

  • (ii) Bge-Reranker-Large(Bge-Reranker)(Xiao 等,2023):
    對檢索段落中的所有子句進行重排序,選出得分最高的句子作為證據。

  • (iii) FILCO(Wang 等,2023):
    學習如何通過句子級別的精度過濾檢索段落,借助啟發式增強(heuristic-based augmentation)方法來標注真實標簽(ground-truth)。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/76677.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/76677.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/76677.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

毫米波測試套裝速遞!高效賦能5G/6G、新材料及智能超表面(RIS)研發

德思特&#xff08;Tesight&#xff09;作為全球領先的測試測量解決方案提供商&#xff0c;始終致力于為前沿技術研發提供高精度、高效率的測試工具。 針對毫米波技術在高頻通信、智能超表面&#xff08;RIS&#xff09;、新材料等領域的快速應用需求&#xff0c;我們推出毫米…

三維激光測量助力企業檢測效率提升3倍

智能制造與數字化浪潮席卷下&#xff0c;三維掃描技術已成為工業檢測領域不可或缺的工具。面對傳統檢測手段的精度瓶頸與效率局限&#xff0c;三維掃描儀&#xff0c;以毫米級精度、非接觸式測量與超高速掃描三大核心優勢&#xff0c;為汽車制造、航空航天、消費電子等行業的品…

SQL:Normalization(范式化)

目錄 Normalization&#xff08;范式化&#xff09; 為什么需要 Normalization&#xff1f; &#x1f9e9; 表格分析&#xff1a; 第一范式&#xff08;1NF&#xff09; 什么是第一范式&#xff08;First Normal Form&#xff09;&#xff1f; 第二范式&#xff08;2NF&am…

#MES系統運維問題分析思路

一套適用于90% MES運維現場問題的排查分析思維模型&#xff0c;叫做&#xff1a; &#x1f50d; MES系統問題分析七步法&#xff08;現場實戰適用&#xff09; ? 第一步&#xff1a;明確問題現象&#xff08;What&#xff09; 問題要說清楚&#xff0c;“不能操作”這種模糊描…

達夢數據庫-學習-18-ODBC數據源配置(Linux)

一、環境信息 名稱值CPU12th Gen Intel(R) Core(TM) i7-12700H操作系統CentOS Linux release 7.9.2009 (Core)內存4G邏輯核數2DM版本1 DM Database Server 64 V8 2 DB Version: 0x7000c 3 03134284194-20240703-234060-20108 4 Msg Versi…

js 效果展示 拿去練手

自學完整功能&#xff0c;拿去練手。 鼠標移動放大 通過網盤分享的文件&#xff1a;圖片放大 鏈接: https://pan.baidu.com/s/1w8SjtKi4kUNDnZtRDfYMeQ?pwd95p6 提取碼: 95p6 通過網盤分享的文件&#xff1a;圖片動畫效果 鏈接: https://pan.baidu.com/s/1Pjphx-Cc4HQQNNujr…

使用 TFIDF+分類器 范式進行企業級文本分類(二)

1.開場白 上一期講了 TF-IDF 的底層原理&#xff0c;簡單講了一下它可以將文本轉為向量形式&#xff0c;并搭配相應分類器做文本分類&#xff0c;且即便如今的企業實踐中也十分常見。詳情請見我的上一篇文章 從One-Hot到TF-IDF&#xff08;點我跳轉&#xff09; 光說不練假把…

硬件設計-MOS管快速關斷的原因和原理

目錄 簡介&#xff1a; 來源&#xff1a; MOS管快關的原理 先簡單介紹下快關的原理&#xff1a; 同電阻時為什么關斷時間會更長 小結 簡介&#xff1a; 本章主要介紹MOS快速關斷的原理和原因。 來源&#xff1a; 有人會問&#xff0c;會什么要求快速關斷&#xff0c;而…

Linux進階命令

目錄 一、touch 1. 基本語法 2. 常用選項 二、which 1. 基本語法 2. 主要功能 3. 常用選項 三、find 1. 基本語法 2. 常用選項和表達式 四、more 1. 基本語法 2. 常用操作 3. 對比 more 和 less 五、grep 1. 基本語法 2. 常用選項 六、wc 1. 基本語法 2. 常…

阿里云實時計算Flink版產品體驗測評

阿里云實時計算Flink版產品體驗測評 什么是阿里云實時計算Flink應用場景實時計算Flink&自建Flink集群性價比開發效率運維管理企業安全 場景落地 什么是阿里云實時計算Flink 實時計算Flink大家可能并不陌生&#xff0c;在實時數據處理上&#xff0c;可能會有所接觸&#xf…

用戶登錄不上linux服務器

一般出現這種問題&#xff0c;重新用root用戶修改lsy用戶的密碼即可登錄&#xff0c;但是當修改了還是登錄不了的時候&#xff0c;去修改一個文件用root才能修改&#xff0c; 然后在最后添加上改用戶的名字&#xff0c;例如 原本是只有user的&#xff0c;現在我加上了lsy了&a…

Android Jetpack架構組件——用Compose工具包構建基本的布局

推薦文章 構建基本布局 | Android Basics Compose - First Android app | Android Developers 向 Android 應用添加圖片 | Android Developers

SLAM(七)-卡爾曼濾波

SLAM&#xff08;七&#xff09;-卡爾曼濾波 一、卡爾曼濾波(KF)二、擴展卡爾曼濾波(EKF)三、誤差狀態卡爾曼濾波(ESKF) 參考《概率機器人》、《Principles of GNSS&#xff0c;lnertial and Multisensor lntegrated Navigation Systems (Second Edition)》 一、卡爾曼濾波(KF)…

Electron 應用太重?試試 PakePlus 輕裝上陣

Electron 作為將 Web 技術帶入桌面應用領域的先驅框架&#xff0c;讓無數開發者能夠使用熟悉的 HTML、CSS 和 JavaScript 構建跨平臺應用。然而&#xff0c;隨著應用規模的擴大&#xff0c;Electron 應用的性能問題逐漸顯現——內存占用高、啟動速度慢、安裝包體積龐大&#xf…

Vue.js組件安全工程化演進:從防御體系構建到安全性能融合

——百萬級流量場景下的安全組件架構與源碼級解決方案 文章目錄 總起&#xff1a;安全工程化的組件革命 分論&#xff1a; 一、現存組件架構的七宗罪與安全改造路徑   1.1 組件生態安全赤字現狀   1.2 架構級安全缺陷深度剖析   1.3 性能與安全的死亡螺旋 二、百萬級…

MCP+cursor使用嘴操作數據庫(不用編寫SQL語句實現CURD)

文章目錄 1.如何進行相關配置2.如何添加MCP server3.如何進行相關的操作3.0數據的查詢3.1數據的插入3.2數據的修改3.3多表連接查詢 1.如何進行相關配置 這個跟昨天的高德地圖的配置非常的相似&#xff0c;因此這個地方我就不進行過多的這個說明了&#xff0c;就是新加一個全聚…

效率工具- git rebase 全解

一、前言 對于git rebase 一直不太了解,這幾天想著提高下git提交質量,就發現了這個好用的指令,順便記錄一下,好加深記憶 貼出官方文檔以便大家進一步學習 Git 二、rebase是作用 rebase 官方解釋為變基,可以理解為移動你的分支根節點,維護一個更好的提交記錄。rebase把你當前…

小愛音箱接入大模型DeepSeek及TTS

簡介 相信看過鋼鐵俠的朋友們&#xff0c;都夢想擁有一個像賈維斯這樣全能的人工智能管家。而現在隨著AI的發展&#xff0c;這個愿景將隨我們越來越近。現階段&#xff0c;我們可以將小愛音箱接入DeepSeek&#xff0c;將其從“人工智障”進化成上知天文&#xff0c;下懂地理的半…

軟件架構評估利器:質量效用樹全解析

質量效用樹是軟件架構評估中的一種重要工具&#xff0c;它有助于系統地分析和評估軟件架構在滿足各種質量屬性方面的表現。以下是關于質量效用樹的詳細介紹&#xff1a; 一、定義與作用 質量效用樹是一種以樹形結構來表示軟件質量屬性及其相關效用的模型。它將軟件的質量目標…

[IEEE TIP 2024](cv即插即用模塊分享)IdeNet信息增強模塊 性能提升必備!

論文地址&#xff1a;https://ieeexplore.ieee.org/document/10661228 代碼地址&#xff1a;https://github.com/whyandbecause/IdeNet 什么是偽裝目標檢測&#xff08;COD&#xff09;&#xff1f; 偽裝目標檢測&#xff08;Camouflaged Object Detection, COD&#xff09;是…