專注推理查詢(ARQs):一種提升大型語言模型指令遵循度、決策準確性和防止幻覺的結構化方法

大型語言模型(LLMs)在客戶服務、自動化內容創作和數據檢索方面變得至關重要。然而,它們的有效性常常因其在多次交互中無法始終如一地遵循詳細指令而受到限制。在金融服務和客戶支持系統等高風險環境中,嚴格遵循指南是必不可少的,而LLMs在指令回憶方面常常遇到困難,導致偏離預期行為。此外,它們還會生成誤導性或錯誤的信息,通常被稱為幻覺,這使得在需要精確、情境感知決策的情況下部署它們變得困難。

在復雜場景中保持推理一致性仍然是LLMs面臨的一個挑戰。雖然它們能對簡單查詢生成連貫的響應,但在多輪對話中,受過去交互影響,其性能會下降。一個關鍵問題是對齊漂移,模型逐漸偏離原始指令,導致誤解指南和錯誤建議。情境遺忘是另一個令人擔憂的問題,模型優先考慮最近的信息而忽略早期細節,常常忽視關鍵約束。這些因素導致了錯誤,削弱了LLMs驅動系統的可靠性。盡管有思維鏈(CoT)和基于驗證的提示等策略,但現有方法未能提供足夠的結構來可靠地引導模型完成復雜任務。

為了改進指令遵循度,已經開發了各種提示技術。CoT提示鼓勵分步推理以提高邏輯準確性,而驗證鏈則要求對輸出進行顯式自我檢查。盡管這些方法比直接響應生成有所改進,但它們缺乏強化領域特定約束和系統預防常見故障的機制。像LangChain這樣的人工智能框架添加了工具集成和工作流自動化的結構元素,但將LLM推理視為黑箱,限制了其強制執行嚴格指南的能力。缺乏防止幻覺和指令漂移的機制凸顯了需要更結構化的方法。

Emcie Co Ltd的研究人員開發了專注推理查詢(ARQs)來解決這些不足。這種新方法引入了一個結構化推理藍圖,旨在系統地引導LLMs完成預定義查詢。與自由形式推理方法不同,ARQs實現了一個結構化的JSON模式,在關鍵時刻引導模型關注特定的決策點。這種設計使ARQs能夠增強指南遵循度,同時最小化因誤解或情境細節丟失導致的故障。為了評估其有效性,該方法在Parlant框架內進行了測試,該框架用于構建面向客戶的AI應用程序。初步結果表明,ARQs顯著提高了指令遵循能力,同時減輕了與幻覺相關的錯誤。

ARQ框架由多個階段組成,這些階段共同增強了推理性能。第一步是發出針對性的結構化查詢,在響應生成前提醒模型關鍵約束。這些查詢強化了關鍵指令,確保模型不偏離預定義的指南。接下來,模型處理一系列分步查詢,以強化特定任務的推理。在某些實現中,隨后還有一個驗證步驟,模型在最終確定輸出前檢查其響應是否符合預定義的正確性標準。這種結構化方法與CoT提示形成鮮明對比,通過在推理過程的每個階段納入顯式機制來確保一致性。

Image

Parlant框架內的性能評估中,在包含87個不同對話場景的受控測試環境中,ARQs實現了90.2%的成功率,優于CoT推理(86.1%)和直接響應生成(81.5%)。ARQ方法在解決兩個關鍵故障模式方面表現出色:指南重新應用和幻覺預防。具體來說,在模型需要重新應用早期指令的情況下,ARQs確保了92.19%的成功率,顯著高于CoT(87.81%)和直接響應生成(85.31%)。此外,ARQs減少了事實性錯誤的發生,接受ARQ訓練的模型比依賴標準CoT技術的模型幻覺率低23%。這些結果強調了結構化推理方法在提高LLM可靠性方面的重要性。

Image


研究的幾個關鍵結論包括:

  1. ARQs提高了指令遵循度,在87個測試用例中實現了90.2%的成功率,超過了思維鏈(86.1%)和直接響應生成(81.5%)。

  2. 與CoT相比,ARQs顯著減少了23%的幻覺錯誤,使其特別適用于需要事實一致性的業務關鍵型AI應用。

  3. 在指南重新應用場景中,ARQs的性能優于CoT 4.38%,成功率為92.19%,而CoT為87.81%。

  4. ARQs的結構化特性允許在分類任務中更高效地進行推理,與CoT相比減少了29%的令牌使用。

  5. ARQs中的驗證機制是防止對齊漂移的關鍵。它確保了即使在長時間對話中,模型也能專注于預定義的約束。

  6. 未來的研究旨在通過優化查詢設計和探索其在多樣化AI驅動決策系統中的應用,進一步提高ARQ的效率。

詳見論文:https://arxiv.org/abs/2503.03669v1

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/86577.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/86577.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/86577.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

華為云Flexus+DeepSeek征文 | DeepSeek驅動的醫療AI Agent:智能問診系統開發完整指南

華為云FlexusDeepSeek征文 | DeepSeek驅動的醫療AI Agent:智能問診系統開發完整指南 🌟 嗨,我是IRpickstars! 🌌 總有一行代碼,能點亮萬千星辰。 🔍 在技術的宇宙中,我愿做永不停歇…

【大模型水印論文閱讀2】前綴文本編碼、均勻性約束

TOC 🌈你好呀!我是 是Yu欸 🚀 感謝你的陪伴與支持~ 歡迎添加文末好友 🌌 在所有感興趣的領域擴展知識,不定期掉落福利資訊(*^▽^*) 寫在最前面 版權聲明:本文為原創,遵循 CC 4.0 BY-SA 協議。…

破繭時刻,與光同行

凌晨五點的鬧鐘刺破薄霧,我摸黑打開臺燈。攤開的數學錯題本上,函數圖像在暖黃的光暈里舒展,像等待破譯的密碼。這樣的清晨已持續三百多個日夜,我知道,在無數個相似的時刻里,總有千萬盞臺燈在黑暗中次第亮起…

Learning PostgresSQL讀書筆記: 第8章 Triggers and Rules

本章將討論以下內容: ? 探索 PostgreSQL 中的規則 ? 管理 PostgreSQL 中的觸發器 ? 事件觸發器 探索 PostgreSQL 中的規則 文檔中的這段話闡述了rule和trigger的區別: PostgreSQL 規則系統允許定義在數據庫表中插入、更新或刪除時執行的替代操作。粗…

信創國產化替代中的開發語言選擇分析

在信息技術應用創新(信創)國產化替代過程中,選擇合適的開發語言至關重要。以下是適合信創環境的開發語言及其優勢分析: 主流適合信創的編程語言 1. Java 優勢:跨平臺特性(JVM)、豐富的生態體系、企業級應用成熟 信創適配:國內有…

Android 中 函數實現多個返回值的幾種方式

在編程中,函數通常只能返回一個值。但通過使用對象封裝、Pair、Triple、數組、列表或 Bundle 方式,可以輕松地返回多個值。 1、對象封裝方式 創建數據類來封裝需要返回的多個值。 data class Result(val code: Int, val message: String)fun getMultiV…

Leetcode百題斬-DP

又到了最好玩的dp了,各種玄學轉移也算是其樂無窮。前段時間剛做的LCA正是這種題的小試牛刀,如果當時就把這個專題刷完了,或許我現在已經從西溪園區跑到云谷園區了。 不過,恐怖如斯的dp專題居然只給了一道hard,基本也沒…

策略模式與工廠模式的黃金組合:從設計到實戰

策略模式和工廠模式是軟件開發中最常用的兩種設計模式,當它們結合使用時,能產生11>2的效果。本文將通過實際案例,闡述這兩種模式的協同應用,讓代碼架構更優雅、可維護性更強。 一、為什么需要組合使用? 單獨使用的…

SAP PP模塊與MM模塊作用詳解

SAP PP模塊與MM模塊作用詳解 一、PP模塊(Production Planning)—— 生產計劃與執行中樞 核心作用:將銷售需求轉化為可執行的生產指令,管控從計劃到完工的全過程。 關鍵功能 功能說明業務價值主數據管理維護BOM(物料…

Linux tcp_info:監控TCP連接的秘密武器

深入解析 Linux tcp_info:TCP 狀態的實時監控利器 在開發和運維網絡服務時,我們常常遇到這些問題: 我的 TCP 連接為什么速度慢?是發生了重傳,還是窗口太小?擁塞控制到底有沒有生效? 這些問題…

CVE-2015-5531源碼分析與漏洞復現(Elasticsearch目錄遍歷漏洞)

概述 漏洞名稱:Elasticsearch 快照API目錄遍歷漏洞 CVE 編號:CVE-2015-5531 CVSS 評分:7.5 影響版本: Elasticsearch 1.0.0–1.6.0(1.5.1及以前版本無需配置即可觸發;1.5.2–1.6.0需配置path.repo&#xf…

HexHub開發運維利器Database, Docker, SSH, SFTP

支持隧道,SFTP,X11轉發,跳板機,分屏廣播輸入,LRZSZ,TRZSZ,SCP 分屏廣播輸入 管理多臺服務器,更快一步 支持多種文件傳輸協議 支持跨服務器文件傳輸,使用復制粘貼即可進…

2025年教育、心理健康與信息管理國際會議(EMHIM 2025)

2025 2nd International Conference on Education, Mental Health, and Information Management 一、大會信息 會議簡稱:EMHIM 2025 大會地點:中國三亞 收錄檢索:提交Ei Compendex,CPCI,CNKI,Google Scholar等 二、會議簡介 第二屆教…

數字孿生技術為UI前端注入新活力:實現智能化交互新體驗

hello寶子們...我們是艾斯視覺擅長ui設計、前端開發、數字孿生、大數據、三維建模、三維動畫10年經驗!希望我的分享能幫助到您!如需幫助可以評論關注私信我們一起探討!致敬感謝感恩! 在數字化轉型的深水區,數字孿生技術正以破竹之勢重構 UI 前端的技術邏輯與交互范式…

組件協作模式

目錄 “組件協作”模式模板方法模式動機模式定義結構要點總結 “組件協作”模式 現代軟件專業分工之后的第一個結果是“框架與應用程序的劃分”。“組件協作”模式通過晚期綁定,實現框架與應用程序之間的松耦合,是二者之間協作時常用的模式。典型模式&a…

Docker 運行RAGFlow 搭建RAG知識庫

借鑒視頻:DeepSeek 10分鐘完全本地部署 保姆級教程 斷網運行 無懼隱私威脅 大語言模型 CPU GPU 混合推理32B輕松本地部署!DeepSeek模擬王者!!_嗶哩嗶哩_bilibili 借鑒博客:RAGFlow搭建全攻略:從入門到精通…

python編寫腳本每月1號和15號執行一次將TRX是否強更發送到釘釘

編寫腳本 import requests import json import time import hmac import hashlib import base64 import urllib.parse# 1. 配置釘釘機器人 webhook "https://oapi.dingtalk.com/robot/send?access_tokenXXXXXX" secret "XXXXXXXX" # 如果沒有加簽驗…

Linux-系統管理

[rootlocalhost ~]# lscpu //查看cpu [rootlocalhost etc]# cat /etc/redhat-release //查看當前目錄的版本信息 [rootlocalhost ~]# ifconfig //查看當前激活的網卡信息 [rootlocalhost ~]# ifconfig ens33 192.168.1.10 //給網卡配置臨時地址 [rootlocalhost ~]# hostnam…

【Spring】系統化的 Spring Boot 全棧學習教程,涵蓋基礎配置、核心功能、進階實戰及文檔自動生成

這里寫目錄標題 🛠? **一、環境搭建與項目創建**1. 開發環境準備2. 創建第一個項目(Spring Initializr) 🚀 **二、核心功能開發**1. RESTful API 開發2. 數據持久化(Spring Data JPA)3. 配置文件多環境切換…

Discrete Audio Tokens: More Than a Survey

文章目錄 模型設計的考慮量化的方式:比特率:Fixed vs. Adaptive Bitrate碼本內容設計的考慮Streamability. 模型評估Reconstruction Evaluation and Complexity Analysis.識別和生成任務(SE, SR)Acoustic Language Modeling.Music Generation…