論文淺嘗 | Interactive-KBQA：基于大語言模型的多輪交互KBQA（ACL2024）

轉載至：何駿昊開放知識圖譜

原文地址：論文淺嘗 | Interactive-KBQA：基于大語言模型的多輪交互KBQA（ACL2024）

筆記整理：何駿昊，東南大學碩士，研究方向為語義解析

論文鏈接：https://arxiv.org/abs/2402.15131

發表會議：ACL 2024

1. 動機

知識庫問答（KBQA）是一個日益重要的研究領域，它利用結構化知識庫（KB）為自然語言（NL）問題提供精確答案。大語言模型（LLM）的出現為增強KBQA系統開辟了新途徑。這些模型在KBQA領域中的推理和少樣本學習方面顯示出驚人的結果。該工作的動機主要源于解決KBQA領域中的以下關鍵挑戰：

（1）復雜查詢處理的局限性：現有基于信息檢索（IR）的方法在處理涉及類型約束、數值比較或多跳推理的復雜查詢時表現不足。例如，類似“身高超過2米的籃球運動員有多少人？”的問題需要更深入的語義理解，而傳統方法難以有效捕捉此類復雜邏輯。

（2）語義解析（SP）方法的高標注成本：基于語義解析的方法依賴大量標注數據來生成可執行的邏輯形式（如SPARQL查詢），但數據標注成本高昂，限制了方法的可擴展性。此外，這類方法的推理過程通常缺乏透明性，形成“黑箱”問題。

（3）大語言模型的潛力未充分釋放：盡管LLMs在少樣本學習和復雜推理任務中展現了強大能力，但現有KBQA系統主要將其用作分類器或簡單生成器，未充分利用其交互式推理能力。例如，許多方法僅用LLMs生成邏輯形式的初稿，而非通過多輪交互動態優化結果。

基于這些挑戰，論文提出Interactive-KBQA框架，核心思路是將LLM視為與知識庫交互的“智能體”，通過多輪對話逐步生成邏輯形式。這種方法不僅降低了標注成本，還通過交互式工具（如搜索節點、圖模式匹配）增強了復雜問題的處理能力，并通過人工干預機制提高了系統的靈活性和可解釋性。最終目標是實現一個高效、透明且適應低資源場景的KBQA系統。

2. 貢獻

該工作的主要貢獻為以下四點：

（1）提出交互式KBQA框架（Interactive-KBQA），將LLM視為與KB交互的智能體，通過多輪對話逐步生成邏輯形式（如SPARQL查詢）。 ?

（2）設計統一工具集與交互邏輯：開發了三個通用API，適配不同知識庫（Freebase、Wikidata、Movie KB）；通過標準化工具接口，實現了跨異構知識庫的兼容性，簡化了復雜查詢（如多跳、數值約束、限定符）的處理流程。

（3）實現低資源場景下的高效性能。針對每類復雜問題（如多跳、CVT、限定符），僅需標注2個示例即可引導LLM完成推理。在三個數據集上，使用極少量標注達到或超越傳統全監督方法的性能。

（4）發布高質量標注數據集，包含逐步推理過程的人工標注（如交互歷史、錯誤修正記錄），涵蓋多種復雜問題類型。

3. 方法

3.1?問題定義?

KB定義為三元組集合K∈E×R×(E∪L∪C)，其中E為實體集合，R為關系集合，C為類別集合，L為字面值。給定自然語言問題Q和知識庫K，目標是通過語義解析生成可執行的SPARQL查詢S，即建模為條件概率p(S|Q，K)。

3.2?框架設計

提出Interactive-KBQA框架（如圖1所示），將LLM視為與知識庫交互的智能體，通過多輪對話生成邏輯形式（SPARQL）。

交互范式：采用“思考-行動-觀察”（Thought-Action-Observation）循環：1.?思考（Thought）：LLM生成自然語言推理步驟（如問題分解、謂詞選擇）；2.?行動（Action）：調用預定義工具（如搜索節點、執行查詢），生成Python風格的API調用指令。3.?觀察（Observation）：執行工具后返回結果（如實體列表、子圖模式），作為下一輪輸入。

終止條件：當LLM生成Action: Done時，輸出最終SPARQL查詢結果。

圖1?Interactive-KBQA框架的交互過程示例

3.3?知識庫交互工具

框架基于三個通用工具（SearchNodes、SearchGraphPatterns、ExecuteSPARQL）引導LLM逐步推理復雜問題：

（1）SearchNodes(name)：通過實體表面名稱（如“Tom Hanks”）搜索知識庫中的節點，返回節點的規范化名稱、描述和類型（如“Barack Obama |?美國前總統”）。

（2）SearchGraphPatterns(sparql, semantic)：輸入需以“SELECT ?e WHERE”開頭的SPARQL片段，返回以??e?為中心的一跳子圖，并根據語義參數（如“play in film”）對謂詞排序。特別優化了Freebase的復合值類型（CVT）結構，例如將“Tom Hanks參演電影”映射為兩個單跳關系（film.actor.film?→?film.performance.film）。

（3）ExecuteSPARQL(sparql)：直接執行任意SPARQL查詢，支持靈活探索知識庫。

3.4?交互流程

構建提示模板Prompt={Inst，E，Q}，其中Inst為任務指令，E為示例集合，Q為當前問題。每輪交互中，LLM根據歷史H={c0,a0,o0,……，ct-1,at-1,ot-1}?生成動作at=LLM{Prompt,H}，其中ct為自然語言推理步驟（如“需查找Tom Hanks參演的電影”），at為工具調用（如SearchNodes、ExecuteSPARQL），ot為工具返回結果。若生成動作“Done”，則輸出最終答案。

針對多跳查詢，逐步解析謂詞而非具體實體（例如“法國的總統是誰？”需先定位國家節點，再搜索“president”關系）；針對Freebase的CVT結構，顯式分解為多個單跳關系（如將“演員-角色-電影”拆分為兩跳）；針對Wikidata的限定符（如“紐約市2010年人口”），設計專用SPARQL模式，通過修飾符（如point_in_time）約束查詢。每類問題提供2個標注示例，引導LLM遵循特定推理路徑。

3.5?人機協同標注

允許人工在交互過程中修正LLM的錯誤動作（如生成不存在謂詞），形成修正后的歷史{c0,a0,o0,……，a't,o't}，并繼續生成后續步驟。標注數據集包含詳細的逐步推理過程，用于微調開源LLM（如Mistral-7B），降低對商業API的依賴。

4. 實驗

4.1?實驗設置

本工作采用：WebQuestionsSP (WebQSP)?和?ComplexWebQuestions 1.1 (CWQ)：基于Freebase，分別包含簡單（1-hop）和復雜（多類型）問題，問題類型包括Conjunction (Conj)、Composition (Compo)、Comparative (Compa)、Superlative (Super)；KQA Pro：基于Wikidata，覆蓋9類復雜問題（如計數、屬性限定符、關系查詢）；MetaQA：基于Movie KB，包含1-hop至3-hop問題。?

本工作從每個數據集均勻采樣900個實例確保問題類型分布平衡。

4.2?基線方法

本工作采用以下基線方法：

（1）全數據微調方法：DeCAF（WebQSP）、BART-SPARQL（KQA Pro）、Edge-aware（MetaQA）。

（2）提示方法：KB-BINDER（少樣本）、Chain-of-Thought (CoT) + Self-Consistency (SC)。

（3）低資源微調方法：在標注數據集上微調開源LLMs（Mistral-7B、Llama2-7B/13B）。

（4）對比方法：StructGPT、ToG（假設實體已鏈接）。

4.3?評估指標

本工作采用以下評估指標：

（1）F1分數：邏輯形式生成的匹配程度。

（2）RHits@1（隨機命中率@1）：答案實體排名第一的比例。

（3）EM（精確匹配）：生成的SPARQL與標注完全一致的比例。

（4）準確率（KQA Pro）：答案集合完全匹配的比例。

4.4?主要結果

如表1所示，該工作在WebQSP和KQA Pro上，由于訓練數據量差異，GPT-4 Turbo的性能略低于全監督方法，但在CWQ和MetaQA（表2）上顯著超越（如CWQ的總體F1為49.07%，MetaQA的Hits@1達99.67%）。在復雜問題類型上表現突出，例如CWQ的“比較類”（Compa）和“最高級”（Super）問題分別提升29.85%和13.96%。 ?

Mistral-7B微調后在CWQ和KQA Pro上的F1分別達到39.90%和64.40%，優于同等規模的基準方法（如SFT-SPARQL的28.10%和57.78%）。?

Llama2-13B在部分任務（如CWQ的Compa問題）上表現接近GPT-4 Turbo（55.98% vs. 47.89%）。

表1?Interactive-KBQA在WebQSP?和?CWQ?上的結果

表2?Interactive-KBQA在MetaQA上的結果

4.5?實體鏈接的影響

通過對比ELQ工具與論文方法，發現實體鏈接是性能瓶頸之一。在WebQSP和CWQ上，論文方法的F1分別為80.00%和76.06%，而ELQ僅41.30%和43.81%。引入提及覆蓋率（MCR）指標（黃金實體名稱在問題中的出現比例）后發現，KQA Pro和MetaQA的MCR較高（80.80%和100%），而WebQSP和CWQ較低（67.42%和76.64%）。

表3?實體鏈接的結果

4.6?消融實驗

示例數量與覆蓋率：如表4和表5所示，在CWQ（4類問題）和KQA Pro（9類問題）上，增加示例覆蓋率可提升性能（如CWQ 4-shot比0-shot F1提升2.5%），但成本增加37.86%。

表4?問題類型分類器的性能

表5?示例編號和平均價格的影響

骨干模型對比：如表6所示，GPT-4 Turbo顯著優于GPT-3.5（CWQ F1為49.07% vs. 13.42%），微調后的Mistral-7B優于未訓練版本（CWQ 39.90% vs. 4.76%）。

表6不同骨干模型的性能

4.7?錯誤分析

如表7所示，錯誤類型分為六類：實體鏈接（18%）、謂詞搜索（6%）、推理（32%）、格式合規性（17%）、幻覺（19%）及其他（8%）。案例分析顯示，人工干預可有效修正幻覺（如生成不存在謂詞）和推理錯誤（如多跳路徑遺漏）。例如，在問題“Justin Bieber的兄弟是誰？”中，LLM需通過性別約束修正初始錯誤答案，最終生成正確的SPARQL查詢。

表7?錯誤類型的分布

5. 總結

該工作提出了Interactive-KBQA框架，通過將大型語言模型（LLM）作為與知識庫交互的智能體，以多輪對話形式逐步生成可執行的邏輯形式（如SPARQL查詢），解決了傳統KBQA方法在處理復雜查詢、高標注成本及模型黑箱問題上的瓶頸。其核心創新在于交互式工具設計（如SearchNodes、SearchGraphPatterns）與“思考-行動”范式的結合，允許LLM動態探索知識庫結構，并通過少量標注示例引導推理。此外，該方法支持人工干預，能夠修正模型錯誤，形成迭代優化機制，顯著提升了低資源場景下的性能與可解釋性。?

該工作中實驗設計覆蓋了四個主流數據集，涵蓋從簡單到復雜的多類問題（如多跳、數值約束、限定符）。亮點在于：首先，該工作僅用2-4個標注示例即可達到或超越傳統方法，凸顯了框架的樣本效率。其次，該工作通過分類錯誤類型（如實體鏈接、幻覺）和案例研究，揭示了模型瓶頸與改進方向。最后，該工作量化交互輪次與推理成本（如GPT-4 Turbo每輪$0.3–$0.5），為實際應用提供參考。?

盡管方法在低資源場景下表現突出，但仍存在明顯局限：首先，框架性能高度受限于LLM的推理質量，例如GPT-4 Turbo在復雜問題上的成功率顯著高于開源模型（如Mistral-7B）。若LLM生成錯誤推理步驟（如幻覺謂詞），需依賴人工干預修正，這在實際應用中可能增加操作成本。其次，多輪對話導致推理時間與API調用成本上升，尤其對需要高頻查詢的場景（如實時問答）不夠友好。最后，實驗集中于特定領域（如電影、人物），未驗證在開放域或動態更新知識庫中的適應性，且人工標注數據集的規模較小，可能影響模型魯棒性。?

未來工作需進一步優化工具自動化程度、降低對商業API的依賴，并探索更高效的交互策略（如壓縮歷史信息），以推動方法在實際系統中的落地。