Table as Thought論文精讀

標題:Table as Thought: Exploring Structured Thoughts in LLM Reasoning

作者:Zhenjie Sun, Naihao Deng, Haofei Yu, Jiaxuan You

單位:University of Illinois Urbana-Champaign, University of Michigan

摘要:

llm的推理能力可以通過某些 組織其思維過程的方法 得到提升。比如cot,這種方法采用順序結構來一步一步引導推理過程。「Q:什么是cot A:chain of thought鏈式思維提示,不是讓模型直接給答案 而是引導模型一步一步思考」然而,目前方法主要專注于組織思維的順序,每一步內部的結構還缺乏深入研究。因此我們提出了table as?thought,受認知神經科學的啟發。該方法將推理過程組織在一個表格結構中,每一行表示一個連續的思考步驟,每一列用于記錄關鍵的限制條件和上下文信息。推理過程會迭代填充表格,直到自我驗證機制能保證完整性和正確性。實驗表明,tat相比于無結構的思維方式,在規劃任務和數學推理方面表現優異。

引言:

近期研究表明,在推理過程中引入結構化設計,可以有效提升llm的推理能力。比如cot用線性鏈式結構,以逐步的方式組織文本推理過程。在此基礎上,后續研究發現,引入更復雜的結構化組織方式可以進一步提升推理表現。但這些方法只是在 不同思維步驟之間的連接層面(即跨思維層 inter-thought level) 做了結構化,每一步內部的內容(即思維內部層thought level)仍然是非結構化的。

這引出了一個關鍵問題:如果在每一個具體思維步驟的內部引入結構,能否進一步提升llm的推理能力?

為解決這個問題,我們從人類思維的認知神經科學理論中找靈感。神經科學家發現,人類的思維方式是結構化的,大腦的結構有助于人類進行有順序、以目標為導向的推理。中間講了一堆神經科學的進展,然后說,基于這些研究啟發,我們提出一個探索方向:是否可以將類似的人類結構化表示方式引入llm中,以增強其推理和規劃能力?

在本研究中,我們采用了一種簡單但有效的結構化形式——表格結構(tabular schema)來模擬人類思維過程中的結構化特性。在我們的方法中,表格的結構就像防御一個框架,用來組織和導航知識。受到神經科學中 神經元逐步激活特定模式這一過程的啟發,我們將這一過程建模為按順序填寫表格的每一行,并根據預定義的結構跨列移動「原文是we model these processes as the sequential population of rows in a table, moving across columns according to a predefined schema.其中的population是填充的意思」一張表可以封裝一個或多個結構化的思維過程,為組織和連接思維步驟及其相關信息提供一個連貫的容器。表格不僅可以表示為 達成特定目標的逐步過程,也可以作為planning tasks的robust框架。此外,使用表格作為結構化表示還能使我們設計出確保組織性和數據完整性的schema,從而更高效地驗證與分析推理過程。

本論文的貢獻如下:

1. 提出table as thought,首個嘗試將結構化表示直接整合到llm推理過程的研究和實踐。

2. 我們在需要規劃和數學推理的任務中,驗證了table as thought的優勢,突出它在需要順序性和目標導向思維的任務中 提升表現的潛力。

3.對tat進行了詳細全面的分析,闡述了其功能和優勢,并對結構化和非結構化思維的表述的效果進行了比較分析。

相關工作:

?llm推理中的structures:cot、tot(tree of thoughts)、自一致性方法(self-consistency通過采樣多條思維路徑并選擇最一致的一條來增強推理的可靠性)

表格在llm推理中的表示方式:tables在llm中歷來在處理結構化數據的任務中很重要。比如知識檢索(knowledge retrieval)、基于結構化數據的問答(question answering over structured data)、表格推理任務(tabular reasoning)。在這些任務中,表格只作為理解和操作的輸入。cot不僅把表格作為輸入,還把表格作為推理過程的中間表達形式,在這個框架中,模型每一步推理都更新一次表格,就像在表格中思考,形成了動態的推理鏈條。本文將表格作為一種通用的結構化思維框架,用于組織模型內部的思維過程,哪怕任務一開始根本沒有任何表格數據。

table as thought:

我們在此提出了tat的框架設計,該框架通過使用表格作為結構化的思維表示,為llm引入了一種全新的推理方式。在tat中,表格被作為一個容器,用來表示一個或多個結構化的思維過程,這些表格被稱為reasoning tables,它們封裝了思維內容,整個推理過程是透明的。一個reasoning table T是通過一個original table schema S定義的,而這個S是由llm根據某個查詢Q定義的,「這句話在說,“我們要先告訴模型:表格怎么組織”;Schema(結構)S?指的是表的列,比如:

| Step | Goal | Context | Action | Justification |

而這個 schema 是模型根據當前問題 Q 自己定義的。也就是說,模型自己決定“我這道題要用哪幾列來推理”。」接下來模型會基于結構S生成結構化思維Structured thoughts Θ ,其中每一個思維步驟對應表格中的一行。隨后模型根據這些結構化思維?Θ?來逐步填充和更新推理表格?T。

Schema development module(結構設計模塊):結構設計模塊能夠動態調整表格結構,以適應不同任務中的各種查詢。對于約束規劃類任務,我們會在設計表格結構之前,先引導llm明確列出任務中的約束條件。這樣可以確保在推理過程中,無論是顯示約束還是隱含約束,都能被充分考慮。對于數學推理任務,我們會定制表格結構,以反應推理步驟中的邏輯發展過程,從而能夠系統地組織關鍵信息。?表格中的表頭(列名)被設計為表示該任務中關鍵的推理步驟與重要信息項。這些表頭像錨點一頁,用于組織和驗證推理過程中的中間結果與輸出。

例如,考慮一個旅行計劃類的查詢“我打算獨自旅行,預算大約是1100美元”在這種情況下,關鍵約束是總花費不超過1400美元。為解決這個約束,schema中必須包含一個列名為cost的列,類型為Number,以確保在推理中捕捉并驗證與預算相關的信息。對于數學題,要解題必須跟蹤各種變量,那么就需要設計對應的列來記錄計算,這樣推理過程就可以逐步展開并便于校驗。

reasoning verification module(推理驗證模塊):之所以引入這個模塊,是因為實驗發現,當前的llm有時無法完整地生成結構化的推理過程來解決問題。用一個自動檢查器來看有沒有遺漏信息(完整性)、推理邏輯是否合理(正確性)。對于約束類推理任務,這個模塊會確保推理過程中已經包含并滿足schema中定義的所有必要約束條件。一般來說約束檢查是由llm自己通過 反思性推理 對生成的表格進行的,且約束條件是顯示列出以便于驗證。由于tat的思維是結構化的,因此可以引入一種額外機制:自動檢查約束auto-check。這是一種由系統執行的外部驗證機制,用于確保滿足約束。

table construction module(表格構建模塊):根據schema和推理驗證模塊的反饋,迭代地生成結構化思維內容并構建推理表格。在構建過程中,模塊會動態添加新思維步驟,修改已有內容或刪除不符合schema或問題要求的條目。迭代終止的兩種情況 1. 推理驗證模塊確認表格已經完整且正確 2. 達到最大迭代次數(我們所有實驗中設為10次)

實驗:

在所有任務中,我們采用了原始的評估方法,以確保結果具有一致性和可比性。

約束規劃任務:這類任務的目標是生成滿足顯示和隱式約束條件的計劃。我們在兩個數據集上評估了我們的方法:1.?TravelPlanner(高復雜度)(由于該任務需要特別長的上下文,會導致大量token消耗,因此我們僅使用了?GPT-4-o-mini?進行實驗。)2.?Calendar Scheduling (from NaturalPlan)(低復雜度)

數學推理任務:我們使用?GSM-8K?(小學數學)和?MATH500(高級數學)?兩個數據集,來評估 LLMs 在結構化數學推理任務中的表現。這些題目對模型構成挑戰,因為需要進行符號操作和深入的數學理解

模型選擇:tat框架中的schema設計與表格構建模塊,要求llm能生成負責的結構化輸出,并嚴格符合指定的schema格式。這種能力可以通過 OpenAI 提供的?Structured Outputs Mode(結構化輸出模式)?原生支持,使得生成結果可以精準對齊到預定義的 schema 要求。因此,我們的所有實驗都在?OpenAI 的 GPT-4-o-mini 與 GPT-4-o-2024-08-06?兩個模型上進行。將該方法推廣到具有類似能力的開源模型,是我們未來研究的方向之一。

text thought baselines文本思維類的對比方法:1. direct prompting直接提示,不要求中間的推理步驟 2. cot prompting鏈式思維提示 3. text as thought文本即思維,與table as thought唯一區別是,它使用的是非結構化的文本表示思維過程。以文本為媒介進行推理,并在此基礎上擴展了cot方法,通過反思機制迭代更新推理過程。

variations of table as thought(tat的兩種變體)。這兩個變體分別是:帶自動約束檢查的 Table as Thought:通過增加約束自動驗證機制,使 schema 設計更加復雜;使用預設 schema 的 Table as Thought:通過提供固定的表格結構,簡化了任務難度。

?

結果:

三個任務:日程安排 旅行規劃 數學推理

?

?

?

分析:?

Schema Design 對推理路徑的影響:探究?不同表格結構(schema)設計?對推理過程粒度和模型性能的影響,特別是在?Calendar Scheduling(日程安排)?任務中。

LLM 在復雜規劃任務中的 schema 設計能力有限

?

?

?

結論:

本文提出了一種新型推理框架:Table as Thought(表格即思維)

創新點在于:在?思維粒度層面(thought level)?引入結構化推理,通過表格(schema)來組織每一步思維;模型不僅負責回答問題,還要:設計表格結構(Schema);根據結構填充結構化的推理內容(Structured Thoughts)。

?

?

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/75556.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/75556.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/75556.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ubuntu18 server版花屏問題

新搞了一臺dellT150的塔式服務器,裝的ubuntu18 server版。 開機后遇到花屏,或者卡在開機界面的問題,和售后技術溝通這個情況是ubuntu自帶的顯卡驅動包兼容問題。需要做如下設置: 解決: 1.開機,連續按下e…

【MySQL】理解MySQL的雙重緩沖機制:Buffer Pool與Redo Log的協同之道

在數據庫系統中,內存與磁盤的讀寫性能差距始終是需要解決的核心問題。當注意到Redo Log和Buffer Pool都采用"先寫內存再刷盤"的設計時,一個自然的問題浮現:既然兩者都需要維護內存數據并定期持久化,為何需要雙重緩沖機制…

PMP考試改革解讀:新題型+5A通關秘籍

2024年,項目管理協會(PMI)對PMP考試進行了重大調整,從考試形式、題型分布到知識領域均進行了優化升級。本文結合PMI官方公告與一線教研經驗,深度解析改革要點,并提供針對性通關策略,助你高效沖刺…

【Django】教程-10-ajax請求Demo,結合使用

【Django】教程-1-安裝創建項目目錄結構介紹 【Django】教程-2-前端-目錄結構介紹 【Django】教程-3-數據庫相關介紹 【Django】教程-4-一個增刪改查的Demo 【Django】教程-5-ModelForm增刪改查規則校驗【正則鉤子函數】 【Django】教程-6-搜索框-條件查詢前后端 【Django】教程…

RabbitMQ高級特性1

RabbitMQ高級特性1 一.消息確認1.消息確認機制2.手動確認代碼肯定確認否定確認1否定確認2Spring中的代碼 二.持久性1.交換機持久化2.隊列的持久化3.消息的持久化非持久化代碼實現三方面都持久化,數據也會丟失 三.發送方確認1.Confirm確認模式2.return返回模式 四.總…

Java網絡編程NIO

一、NIO是什么? NIO可以說是比BIO更強大的IO,可以設置非阻塞模式(通過事件的方式監聽數據的到來) BIO是基于socket通信,一個線程對應一個socket連接,讀取數據要一直等待 NIO是基于channel通信,一個線程管…

【動態規劃】二分優化最長上升子序列

最長上升子序列 II 題解 題目傳送門:AcWing 896. 最長上升子序列 II 一、題目描述 給定一個長度為 N 的數列,求數值嚴格單調遞增的子序列的長度最長是多少。 輸入格式: 第一行包含整數 N第二行包含 N 個整數,表示完整序列 輸…

Dify接口api對接,流式接收流式返回(.net)

試了好多種方法除了Console.WriteLine()能打印出來,試了好些方法都不行,不是報錯就是打印只有一行,要么就是接收完才返回...下面代碼實現調用api接收流式數據,并進行流式返回給前端: using Furion.HttpRemote; using …

19-元素顯示模式及浮動(CSS3)

知識目標 掌握標準文檔流的解析規則掌握元素的顯示模式掌握元素浮動屬性語法與使用掌握浮動塌陷解決方法 1. 標準文檔流 2. 元素顯示模式 元素顯示模式就是元素&#xff08;標簽&#xff09;以什么方式進行顯示&#xff0c;比如<div>獨占一行&#xff0c;一行可以放多…

HTML jQuery 項目 PDF 批注插件庫在線版 API 示例教程

本文章介紹 HTML && jQuery Web項目中 PDF 批注插件庫 ElasticPDF 在線版 API 示例教程&#xff0c;API 包含 ① 導出批注后PDF數據&#xff1b;② 導出純批注 json 數據&#xff1b;③ 加載舊批注&#xff1b;④ 切換文檔&#xff1b;⑤ 切換用戶&#xff1b;⑥ 清空批…

CATIA裝配體全自動存儲解決方案開發實戰——基于遞歸算法的產品結構樹批量處理技術

一、功能定位與技術架構 本工具針對CATIA V5裝配體文件管理場景&#xff0c;實現了一套全自動遞歸存儲系統&#xff0c;主要功能包括&#xff1a; ?智能路徑選擇&#xff1a;通過Tkinter目錄對話框實現可視化路徑選擇?產品結構遞歸解析&#xff1a;深度優先遍歷裝配體中的子…

C#:接口(interface)

目錄 接口的核心是什么&#xff1f; 1. 什么是接口&#xff08;Interface&#xff09;&#xff0c;為什么要用它&#xff1f; 2. 如何定義和使用接口&#xff1f; 3.什么是引用接口&#xff1f; 如何“引用接口”&#xff1f; “引用接口”的關鍵點 4. 接口與抽象類的區…

基于卷積神經網絡CNN實現電力負荷多變量時序預測(PyTorch版)

前言 系列專欄:【深度學習:算法項目實戰】?? 涉及醫療健康、財經金融、商業零售、食品飲料、運動健身、交通運輸、環境科學、社交媒體以及文本和圖像處理等諸多領域,討論了各種復雜的深度神經網絡思想,如卷積神經網絡、循環神經網絡、生成對抗網絡、門控循環單元、長短期記…

關于inode,dentry結合軟鏈接及硬鏈接的實驗

一、背景 在之前的博客 缺頁異常導致的iowait打印出相關文件的絕對路徑-CSDN博客 里 2.2.3 一節里&#xff0c;我們講到了file&#xff0c;fd&#xff0c;inode&#xff0c;dentry&#xff0c;super_block這幾個概念&#xff0c;在這篇博客里&#xff0c;我們針對inode和dentr…

游戲引擎學習第201天

倉庫:https://gitee.com/mrxiao_com/2d_game_5 回顧之前的內容&#xff0c;并遇到了一次一階異常&#xff08;First-Chance Exception&#xff09;。 歡迎來到新一期的開發過程&#xff0c;我們目前正在編寫調試接口代碼。 當前&#xff0c;我們已經在布局系統上進行了一些工…

計算機視覺算法實戰——基于YOLOv8的行人流量統計系統

?個人主頁歡迎您的訪問 ?期待您的三連 ? ?個人主頁歡迎您的訪問 ?期待您的三連 ? ?個人主頁歡迎您的訪問 ?期待您的三連? ??? ????????? ?? 引言:智能客流分析的市場需求 在零售、交通、安防等領域,準確的行人流量統計對于商業決策、公共安全管理…

Redis是什么?架構是怎么樣的?

目錄 前言 一,Redis架構 1.1 本地緩存 1.2 遠程緩存 二,強大的Redis優點 2.1 支持多種數據類型 2.2 內存過期策略 2.3 內存淘汰策略 2.4 持久化 三,Redis是什么 前言 我是一個程序員,維護了一個商品服務,它的背后直連Mysql數據庫,假設商品服務對外每秒需要提供1萬次…

藍橋杯真題——傳送陣

原題連接&#xff1a;藍橋杯2024年第十五屆省賽真題-傳送陣 - C語言網 知識點&#xff1a;并查集 題目描述 小藍在環球旅行時來到了一座古代遺跡&#xff0c;里面并排放置了 n 個傳送陣&#xff0c;進入第 i 個傳送陣會被傳送到第 ai 個傳送陣前&#xff0c;并且可以隨時選擇…

彩虹表攻擊

1. 引言 密碼安全一直是信息安全領域的重要課題。攻擊者可以利用**暴力破解(Brute-Force Attack)和字典攻擊(Dictionary Attack)等方式嘗試破解密碼。然而,計算機性能的提升使得這些方法的效率不斷提高,其中彩虹表攻擊(Rainbow Table Attack)**是一種極具威脅性的密碼…

Vue2 監聽器 watcher

文章目錄 前言監聽器的作用&#xff1a;工作流程&#xff1a;基本用法1. 簡單監聽2. 對象形式配置 使用場景1. 執行異步操作2. 監聽路由變化3. 復雜對象/數組變化 關鍵配置項與計算屬性的區別動態添加監聽器注意事項 前言 提示&#xff1a;這里可以添加本文要記錄的大概內容&a…