https://arxiv.org/pdf/2503.19213
https://www.doubao.com/chat/12038636966213122
A Survey of Large Language Model Agents for Question Answering
文章目錄
- 速覽
- 論文翻譯
- 面向問答的大型語言模型代理綜述
- 摘要
- 一、引言


速覽
這篇文檔主要是對基于大型語言模型(LLM)的問答代理進行了全面介紹。
首先,它解釋了什么是基于LLM的問答代理。簡單說,就是把大型語言模型當作“大腦”,讓它能像自主代理一樣感知環境、自主行動來完成問答任務。相比傳統的問答系統和單純的LLM問答系統,這種代理能和外部環境互動,所以問答效果更好。
接著,文檔梳理了這種問答代理的工作流程,主要包括幾個關鍵階段。規劃階段,就是讓LLM決定該采取什么步驟來回答問題,有基于提示和基于微調兩種方式;問題理解階段,通過識別關鍵信息、擴展或改寫問題,幫助機器更好地理解用戶的查詢;信息檢索階段,從大量信息中找到相關的內容,還會進行排序、壓縮和篩選;答案生成階段,綜合信息生成回答,還能借助計算器等外部工具,或者通過提示優化來提升效果;還有后續交互階段,能和用戶多輪對話,解決錯誤或者進行連續問答。
然后,文檔提到了用于訓練和評估這些代理的數據集,分為閉域和開域兩種,閉域是在特定文檔里找答案,開域則范圍更廣。
最后,文檔指出了目前基于LLM的問答代理存在的一些問題,比如評估標準難制定、容易產生幻覺(生成錯誤信息卻很自信)、推理能力有待提高、不能自主選擇和創造工具,以及在文檔索引方面還有挑戰等,同時也探討了未來的研究方向。
論文翻譯
面向問答的大型語言模型代理綜述
慕容悅
計算機科學系
喬治梅森大學
費爾法克斯,弗吉尼亞州 - 22030
myue@gmu.edu
摘要
本文綜述了基于大型語言模型(LLM)的問答(QA)代理的發展。傳統代理面臨著顯著的局限性,包括對數據的大量需求以及難以泛化到新環境等。基于LLM的代理通過利用LLM作為其核心推理引擎來應對這些挑戰。與傳統的問答流程和簡單的LLM問答系統相比,這些代理通過與外部環境進行交互,取得了更優異的問答結果。我們系統地回顧了在問答任務背景下LLM代理的設計,圍繞規劃、問題理解、信息檢索和答案生成等關鍵階段展開討論。此外,本文還指出了當前存在的挑戰,并探討了提升LLM代理問答系統性能的未來研究方向。
關鍵詞——問答、大型語言模型、自然語言處理
一、引言
自主代理的概念在人工智能研究中早已得到認可。這些代理能夠感知其環境并自主地對環境采取行動,以追求預定目標[1]。大型語言模型(LLM)的快速發展引發了人們對基于LLM的代理的濃厚興趣[2,3]。LLM是由數十億參數組成的神經網絡。通過在海量文本數據上進行訓練,LLM獲得了對語法、語義、上下文和世界知識的深刻理解。這使它們能夠將各種自然語言處理(NLP)任務轉化為端到端的文本生成問題,從而在多個領域實現了顯著的性能提升。
對于基于LLM的代理,我們可以將感知傳感器視為“眼睛”,將文本形式的代表性行動視為“手”。在這種情況下,LLM充當著構建復雜代理的“大腦”,解決了先前代理存在的局限性。訓練先前的代理需要大量的樣本數據,并且在專家獎勵設計方面成本高昂。相比之下,LLM代理擁有廣泛的世界知識,并表現出強大的泛化能力,能夠適應新的任務或環境。此外,由于LLM具備廣泛的語言理解能力和全面的世界知識,它們展現出強大的推理技能,即使在沒有特定環境訓練的情況下,也能處理復雜的查詢。而且,它們接受自然語言輸入,具有靈活性、可解釋性和用戶友好性等特點。
問答(QA)一直是NLP領域的研究重點,也是基于LLM的代理廣泛應用的場景。問答旨在根據給定的上下文或知識為問題提供正確答案,以滿足人類的信息需求[4]。值得注意的是,許多NLP任務都可以構建成問答形式,例如,翻譯任務可以表述為“你能提供以下句子的翻譯嗎”。在本綜述中,我們特別關注用戶有明確信息需求的任務。雖然LLM可以直接回答問題,但它們存在一定的局限性。首先,LLM可能會產生幻覺,生成不準確或錯誤的答案,特別是在需要細微、特定領域知識的情況下。這在法律、金融或醫療決策等復雜領域中尤為成問題[5,6]。其次,LLM的推理不與外部環境進行交互,例如用于檢索最新信息的數據庫或用于獲取更準確答案的工具(如計算器、API)。此外,它們無法在環境中自主驗證其輸出的正確性。
基于LLM的代理被廣泛應用于問答領域以解決這些問題。在問答任務中,基于LLM的代理與獨立的LLM之間的關鍵區別在于多個模塊的啟發式設計。這些模塊指導LLM執行特定的操作,如規劃,并使LLM能夠與外部環境進行交互,包括數據庫、工具、其他訓練過的模型和人類。
本文對用于問答任務的LLM代理設計進行了全面綜述。我們首先提供理解本綜述所需的基礎知識。然后,我們總結了當前關于用于問答的LLM代理的研究,根據問答過程的各個階段,將綜述內容分為規劃、問題理解、信息檢索、答案生成和后續交互。對于每個階段,我們討論引入該階段的動機,并探討LLM代理是如何設計以提升每個階段的性能的。此外,我們還指出了該領域存在的各種挑戰,并討論了潛在的未來研究方向。
本綜述所涵蓋的研究主要來自NLP領域的頂級會議和期刊。主要場所包括計算語言學協會年會(ACL)、自然語言處理經驗方法會議(EMNLP)、計算語言學協會北美分會(NAACL)、國際學習表征會議(ICLR)以及神經信息處理系統會議(NeurIPS)等。