歸因模型函數g的形式化表示
輸入:用戶問題q
輸出:(a, p), 其中a為答案,p為原始文章中支持答案a的段落。
1)單樣本歸因
針對輸入問題q,如何評估歸因模型g輸出中段落p是對答案a的正確歸因。
在論文arributed qa中,依賴nli_cli(NLI classifer)分類器來判斷a和p之間是否存在邏輯支撐關系。
歸因形式化表示如下
給定問題qi、答案ai和相關段落pi表示為g(qi) =(ai, pi)。
要求nli_cli模型判斷,在問題q的上下文中,答案a是否完全由文檔段落p支持。
如果nil_cli模型回答1,則認為(q, g(q))正確歸因,否則認為(q, g(q))未正確歸因。
2)系統整體歸因
假設測試系統中n個問題q1, q2, ..., qn,對于每個問題qi,以及歸因模型輸出(ai, pi)=g(qi)。
采用如上自動評估過程后,該系統的評估函數定義如下
自動歸因評估的精度依賴于歸因邏輯NLI分類模型的精度。
---
歸因問答-如何進行人類評估
https://blog.csdn.net/liliang199/article/details/148935474
(NLI classifier) True
https://github.com/google-research/true
(NLI classifier) TRUE: Re-evaluating Factual Consistency Evaluation
https://arxiv.org/pdf/2204.04991
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models
https://arxiv.org/pdf/2212.08037
(AutoAIS) RARR: Researching and Revising What Language Models Say, Using Language Models
https://arxiv.org/pdf/2210.08726