大模型對齊方法筆記四：針對領域問答來進行知識對齊方法KnowPAT

KnowPAT

KnowPAT(Knowledgeable Preference AlignmenT) 出自2023年11月的論文《Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering》，主要針對領域問答來進行知識對齊。

在領域問答有兩個挑戰：希望輸出滿足用戶的要求、輸出充分利用領域知識庫。為了解決這些挑戰，提出了如下圖的三階段的KnowPAT框架。

在這里插入圖片描述

假設有一個QA數據集 $\mathcal{D} = {(q_i, a_i) | i=1,2,\ldots,N}$ ， $q_i$ 和 $a_i$ 是問答對，在論文中是對應的云端產品使用相關問答對，是由人工收集和標注的。

如果直接在數據集 $\mathcal{D}$ 上微調LLM $\mathcal{M}$ （即通常所說的SFT），設prompt 模板為 $\mathcal{I}$ ，則優化目標如下（式中的 $a_{i, j}$ 是 $a_i$ 的第j個token， $P_{\mathcal{M}}$ 是模型 $\mathcal{M}$ 預測的token概率）。
$\mathcal{L}_{f t}=-\frac{1}{\left|a_i\right|} \sum_{j=1}^{\left|a_i\right|} \log P_{\mathcal{M}}\left(a_{i, j} \mid \mathcal{I}, q_i, a_{i,<j}\right)$

對于領域相關任務，一般會有一個領域知識庫（domain KB） $\mathcal{B}$ ，現在流行的RAG就是領域領域知識庫來讓LLM在領域相關問題上回答更準確的一種解決方法。而KnowPAT采用的是如下三部分的框架來利用領域知識。

無監督知識檢索

設有語義相似度檢索器 $\mathcal{H}$ ，對于每個問題 $q_i$ 從KB $\mathcal{B}$ 中檢索出top-k條最相似的知識并記為 $\mathcal{K}$ ?，相似性以檢索器編碼后向量間的余弦相似度來衡量。

偏好數據集構建

偏好數據集分為風格偏好數據集(style preference set, SPS) $\mathcal{P}_s$ 和知識偏好數據(knowledge preference set, KPS) $\mathcal{P}_k$ 。

風格偏好數據集 $\mathcal{P}_s$ 構建過程：

選擇l-1個不同的LLM記為 $\mathcal{M}_1,\mathcal{M}_2,\ldots,\mathcal{M}_{l-1}$ ，不同LLM的文本理解和表達能力不一樣，所以可以生成不同風格的回答。
將上一步LLM生成的l-1個回答和金標準回答構成長度為l的風格偏好數據集 $\mathcal{P}_s = \{b_1, b_2,\ldots,b_l \}$ 。
為了與知識偏好數據集的長度一致，論文中取l為4，選了3個模型：ChatGPT、ChatGLM-6B、Vicuna-7B。
設金標準回答為 $b_1$ ，ChatGPT生成的回答為 $b_2$ 、ChatGLM-6B生成的回答為 $b_3$ 、Vicuna-7B生成的回答為 $b_4$ ，作者使用規則來確定這四個回答的偏好分數，認為三個模型的能力ChatGPT>ChatGLM>Vicuna，所以這四個回答的偏好分數順序為 $r_1 > r_2 > r_3 > r_4$ 。

知識偏好數據集 $\mathcal{P}_k$ 構建過程：

對于問題a從知識庫KB中檢索出3個知識組合 $\mathcal{K_1}$ 、 $\mathcal{K_2}$ 、 $\mathcal{K_3}$ ， $\mathcal{K_1}$ 是top-k最相似的知識， $KaTeX parse error: Undefined control sequence: \O at position 16: \mathcal{K_2}= \?O?$ 是空集表示不包括任何檢索知識， $\mathcal{K_3}$ ?表示top-k+1至top 2k相似的知識。
將不同的知識組合與prompt模板 $\mathcal{I}$ 一起輸入到LLM $\mathcal{M}$ 生成答案，生成的三個答案與金標準一起組成知識偏好數據 $\mathcal{P}_k = \{c_1, c_2, c_3,c_4 \}$ 。
設金標準回答為 $c_1$ ，使用 $\mathcal{K_1}$ 生成的回答為 $c_2$ 、使用 $\mathcal{K_2}$ 生成的回答為 $c_3$ 、使用 $\mathcal{K_3}$ 生成的回答為 $c_4$ ，作者發現與問題不那么相似的知識很容易誤導LLM，所以這四個回答的偏好分數順序為 $r_1 > r_2 > r_3 > r_4$ 。

微調和偏好對齊

前面構建的偏好數據集里偏好分數 $r_i$ 代表了偏好度，希望模型 $\mathcal{M}$ 能夠對齊偏好。模型在給定prompt模板和問題 $q_i$ 后對每個回答token的平均對數似然如下式 $S_i$ 表示，分數越高表示模型認為回答有更高的概率：
$\mathcal{S}_{i}=-\frac{1}{\left|a_i\right|} \sum_{j=1}^{\left|a_i\right|} \log P_{\mathcal{M}}\left(a_{i, j} \mid \mathcal{I}, q_i, a_{i,<j}\right)$
KnowPAT先設計了如下的對齊目標，目的是為了對比偏好答案和非偏好答案，偏好分數只用來決定不同答案的順序。式中的 $\sigma$ 是sigmoid函數。

$\mathcal{L}_{align}=- \sum_{i=1}^{|\mathcal{P}|-1} \left( \log \sigma (\mathcal{S}_i) + \log \sum_{r_j < r_i}\sigma (-\mathcal{S}_j) \right )$

考慮到不同的回答的文本質量和偏好等級不一樣，作者設計了如下式的自適應權重來控制每個偏好回答的影響，式中的 $S_{max}$ 和 $S_{min}$ 是偏好數據集里的最大和最小偏好分數。

$\mu_i = \frac {S_i - S_{min}}{S_{max} - S_{min}}$

使用自適應權重后，不同偏好分數的回答的影響可以動態調整，對齊目標相應地變為下式：
$\mathcal{L}_{align}= \sum_{i=1}^{|\mathcal{P}|-1} \mu_i \left( \log (1 + e^{-\mathcal{S}_i} )+ \log \sum_{r_j < r_i}\log ( 1 + e^{ \mathcal{S}_j}) \right )$

KnowPAT的訓練目標為對齊損失和微調目標之和，超參數 $\lambda$ 作為對齊損失的系數， $\mathcal{P}-1$ 用來歸一化對齊損失。
$\mathcal{L} = \mathcal{L}_{ft} + \frac{\lambda} {|\mathcal{P}| -1} \mathcal{L}_{align}$

注：1. 有一點疑問是前面構建了兩個偏好數據集，微調里沒有詳細說明是一起訓練還是分別訓練，只寫了一句看起來像是分別訓練的話：For each preference set constructed in the previous section, the model is trained and optimized with such an objective. 2. 風格偏好數據集與RRHF的數據構建思路是一樣的，論文代碼也是基于RRHF的，不過對齊目標函數有所區別

參考資料

KnowPAT: arxiv, github

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/21066.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/21066.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/21066.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！