論文閱讀：arxiv 2025 A Survey of Large Language Model Agents for Question Answering

https://arxiv.org/pdf/2503.19213

https://www.doubao.com/chat/12038636966213122

A Survey of Large Language Model Agents for Question Answering

文章目錄

速覽
論文翻譯
- 面向問答的大型語言模型代理綜述
- 摘要
- 一、引言

速覽

這篇文檔主要是對基于大型語言模型（LLM）的問答代理進行了全面介紹。

首先，它解釋了什么是基于LLM的問答代理。簡單說，就是把大型語言模型當作“大腦”，讓它能像自主代理一樣感知環境、自主行動來完成問答任務。相比傳統的問答系統和單純的LLM問答系統，這種代理能和外部環境互動，所以問答效果更好。

接著，文檔梳理了這種問答代理的工作流程，主要包括幾個關鍵階段。規劃階段，就是讓LLM決定該采取什么步驟來回答問題，有基于提示和基于微調兩種方式；問題理解階段，通過識別關鍵信息、擴展或改寫問題，幫助機器更好地理解用戶的查詢；信息檢索階段，從大量信息中找到相關的內容，還會進行排序、壓縮和篩選；答案生成階段，綜合信息生成回答，還能借助計算器等外部工具，或者通過提示優化來提升效果；還有后續交互階段，能和用戶多輪對話，解決錯誤或者進行連續問答。

然后，文檔提到了用于訓練和評估這些代理的數據集，分為閉域和開域兩種，閉域是在特定文檔里找答案，開域則范圍更廣。

最后，文檔指出了目前基于LLM的問答代理存在的一些問題，比如評估標準難制定、容易產生幻覺（生成錯誤信息卻很自信）、推理能力有待提高、不能自主選擇和創造工具，以及在文檔索引方面還有挑戰等，同時也探討了未來的研究方向。

論文翻譯

面向問答的大型語言模型代理綜述

慕容悅

計算機科學系
喬治梅森大學
費爾法克斯，弗吉尼亞州 - 22030
myue@gmu.edu

摘要

本文綜述了基于大型語言模型（LLM）的問答（QA）代理的發展。傳統代理面臨著顯著的局限性，包括對數據的大量需求以及難以泛化到新環境等。基于LLM的代理通過利用LLM作為其核心推理引擎來應對這些挑戰。與傳統的問答流程和簡單的LLM問答系統相比，這些代理通過與外部環境進行交互，取得了更優異的問答結果。我們系統地回顧了在問答任務背景下LLM代理的設計，圍繞規劃、問題理解、信息檢索和答案生成等關鍵階段展開討論。此外，本文還指出了當前存在的挑戰，并探討了提升LLM代理問答系統性能的未來研究方向。

關鍵詞——問答、大型語言模型、自然語言處理

一、引言

自主代理的概念在人工智能研究中早已得到認可。這些代理能夠感知其環境并自主地對環境采取行動，以追求預定目標[1]。大型語言模型（LLM）的快速發展引發了人們對基于LLM的代理的濃厚興趣[2,3]。LLM是由數十億參數組成的神經網絡。通過在海量文本數據上進行訓練，LLM獲得了對語法、語義、上下文和世界知識的深刻理解。這使它們能夠將各種自然語言處理（NLP）任務轉化為端到端的文本生成問題，從而在多個領域實現了顯著的性能提升。

對于基于LLM的代理，我們可以將感知傳感器視為“眼睛”，將文本形式的代表性行動視為“手”。在這種情況下，LLM充當著構建復雜代理的“大腦”，解決了先前代理存在的局限性。訓練先前的代理需要大量的樣本數據，并且在專家獎勵設計方面成本高昂。相比之下，LLM代理擁有廣泛的世界知識，并表現出強大的泛化能力，能夠適應新的任務或環境。此外，由于LLM具備廣泛的語言理解能力和全面的世界知識，它們展現出強大的推理技能，即使在沒有特定環境訓練的情況下，也能處理復雜的查詢。而且，它們接受自然語言輸入，具有靈活性、可解釋性和用戶友好性等特點。

問答（QA）一直是NLP領域的研究重點，也是基于LLM的代理廣泛應用的場景。問答旨在根據給定的上下文或知識為問題提供正確答案，以滿足人類的信息需求[4]。值得注意的是，許多NLP任務都可以構建成問答形式，例如，翻譯任務可以表述為“你能提供以下句子的翻譯嗎”。在本綜述中，我們特別關注用戶有明確信息需求的任務。雖然LLM可以直接回答問題，但它們存在一定的局限性。首先，LLM可能會產生幻覺，生成不準確或錯誤的答案，特別是在需要細微、特定領域知識的情況下。這在法律、金融或醫療決策等復雜領域中尤為成問題[5,6]。其次，LLM的推理不與外部環境進行交互，例如用于檢索最新信息的數據庫或用于獲取更準確答案的工具（如計算器、API）。此外，它們無法在環境中自主驗證其輸出的正確性。

基于LLM的代理被廣泛應用于問答領域以解決這些問題。在問答任務中，基于LLM的代理與獨立的LLM之間的關鍵區別在于多個模塊的啟發式設計。這些模塊指導LLM執行特定的操作，如規劃，并使LLM能夠與外部環境進行交互，包括數據庫、工具、其他訓練過的模型和人類。

本文對用于問答任務的LLM代理設計進行了全面綜述。我們首先提供理解本綜述所需的基礎知識。然后，我們總結了當前關于用于問答的LLM代理的研究，根據問答過程的各個階段，將綜述內容分為規劃、問題理解、信息檢索、答案生成和后續交互。對于每個階段，我們討論引入該階段的動機，并探討LLM代理是如何設計以提升每個階段的性能的。此外，我們還指出了該領域存在的各種挑戰，并討論了潛在的未來研究方向。

本綜述所涵蓋的研究主要來自NLP領域的頂級會議和期刊。主要場所包括計算語言學協會年會（ACL）、自然語言處理經驗方法會議（EMNLP）、計算語言學協會北美分會（NAACL）、國際學習表征會議（ICLR）以及神經信息處理系統會議（NeurIPS）等。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/88919.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/88919.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/88919.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！