大型語言模型(LLMs)在客戶服務、自動化內容創作和數據檢索方面變得至關重要。然而,它們的有效性常常因其在多次交互中無法始終如一地遵循詳細指令而受到限制。在金融服務和客戶支持系統等高風險環境中,嚴格遵循指南是必不可少的,而LLMs在指令回憶方面常常遇到困難,導致偏離預期行為。此外,它們還會生成誤導性或錯誤的信息,通常被稱為幻覺,這使得在需要精確、情境感知決策的情況下部署它們變得困難。
在復雜場景中保持推理一致性仍然是LLMs面臨的一個挑戰。雖然它們能對簡單查詢生成連貫的響應,但在多輪對話中,受過去交互影響,其性能會下降。一個關鍵問題是對齊漂移,模型逐漸偏離原始指令,導致誤解指南和錯誤建議。情境遺忘是另一個令人擔憂的問題,模型優先考慮最近的信息而忽略早期細節,常常忽視關鍵約束。這些因素導致了錯誤,削弱了LLMs驅動系統的可靠性。盡管有思維鏈(CoT)和基于驗證的提示等策略,但現有方法未能提供足夠的結構來可靠地引導模型完成復雜任務。
為了改進指令遵循度,已經開發了各種提示技術。CoT提示鼓勵分步推理以提高邏輯準確性,而驗證鏈則要求對輸出進行顯式自我檢查。盡管這些方法比直接響應生成有所改進,但它們缺乏強化領域特定約束和系統預防常見故障的機制。像LangChain這樣的人工智能框架添加了工具集成和工作流自動化的結構元素,但將LLM推理視為黑箱,限制了其強制執行嚴格指南的能力。缺乏防止幻覺和指令漂移的機制凸顯了需要更結構化的方法。
Emcie Co Ltd的研究人員開發了專注推理查詢(ARQs)來解決這些不足。這種新方法引入了一個結構化推理藍圖,旨在系統地引導LLMs完成預定義查詢。與自由形式推理方法不同,ARQs實現了一個結構化的JSON模式,在關鍵時刻引導模型關注特定的決策點。這種設計使ARQs能夠增強指南遵循度,同時最小化因誤解或情境細節丟失導致的故障。為了評估其有效性,該方法在Parlant框架內進行了測試,該框架用于構建面向客戶的AI應用程序。初步結果表明,ARQs顯著提高了指令遵循能力,同時減輕了與幻覺相關的錯誤。
ARQ框架由多個階段組成,這些階段共同增強了推理性能。第一步是發出針對性的結構化查詢,在響應生成前提醒模型關鍵約束。這些查詢強化了關鍵指令,確保模型不偏離預定義的指南。接下來,模型處理一系列分步查詢,以強化特定任務的推理。在某些實現中,隨后還有一個驗證步驟,模型在最終確定輸出前檢查其響應是否符合預定義的正確性標準。這種結構化方法與CoT提示形成鮮明對比,通過在推理過程的每個階段納入顯式機制來確保一致性。
在Parlant框架內的性能評估中,在包含87個不同對話場景的受控測試環境中,ARQs實現了90.2%的成功率,優于CoT推理(86.1%)和直接響應生成(81.5%)。ARQ方法在解決兩個關鍵故障模式方面表現出色:指南重新應用和幻覺預防。具體來說,在模型需要重新應用早期指令的情況下,ARQs確保了92.19%的成功率,顯著高于CoT(87.81%)和直接響應生成(85.31%)。此外,ARQs減少了事實性錯誤的發生,接受ARQ訓練的模型比依賴標準CoT技術的模型幻覺率低23%。這些結果強調了結構化推理方法在提高LLM可靠性方面的重要性。
研究的幾個關鍵結論包括:
-
ARQs提高了指令遵循度,在87個測試用例中實現了90.2%的成功率,超過了思維鏈(86.1%)和直接響應生成(81.5%)。
-
與CoT相比,ARQs顯著減少了23%的幻覺錯誤,使其特別適用于需要事實一致性的業務關鍵型AI應用。
-
在指南重新應用場景中,ARQs的性能優于CoT 4.38%,成功率為92.19%,而CoT為87.81%。
-
ARQs的結構化特性允許在分類任務中更高效地進行推理,與CoT相比減少了29%的令牌使用。
-
ARQs中的驗證機制是防止對齊漂移的關鍵。它確保了即使在長時間對話中,模型也能專注于預定義的約束。
-
未來的研究旨在通過優化查詢設計和探索其在多樣化AI驅動決策系統中的應用,進一步提高ARQ的效率。
詳見論文:https://arxiv.org/abs/2503.03669v1