Table as Thought論文精讀

標題：Table as Thought: Exploring Structured Thoughts in LLM Reasoning

作者：Zhenjie Sun, Naihao Deng, Haofei Yu, Jiaxuan You

單位：University of Illinois Urbana-Champaign, University of Michigan

摘要：

llm的推理能力可以通過某些組織其思維過程的方法得到提升。比如cot，這種方法采用順序結構來一步一步引導推理過程。「Q：什么是cot A：chain of thought鏈式思維提示，不是讓模型直接給答案而是引導模型一步一步思考」然而，目前方法主要專注于組織思維的順序，每一步內部的結構還缺乏深入研究。因此我們提出了table as?thought，受認知神經科學的啟發。該方法將推理過程組織在一個表格結構中，每一行表示一個連續的思考步驟，每一列用于記錄關鍵的限制條件和上下文信息。推理過程會迭代填充表格，直到自我驗證機制能保證完整性和正確性。實驗表明，tat相比于無結構的思維方式，在規劃任務和數學推理方面表現優異。

引言：

近期研究表明，在推理過程中引入結構化設計，可以有效提升llm的推理能力。比如cot用線性鏈式結構，以逐步的方式組織文本推理過程。在此基礎上，后續研究發現，引入更復雜的結構化組織方式可以進一步提升推理表現。但這些方法只是在不同思維步驟之間的連接層面（即跨思維層 inter-thought level）做了結構化，每一步內部的內容（即思維內部層thought level）仍然是非結構化的。

這引出了一個關鍵問題：如果在每一個具體思維步驟的內部引入結構，能否進一步提升llm的推理能力？

為解決這個問題，我們從人類思維的認知神經科學理論中找靈感。神經科學家發現，人類的思維方式是結構化的，大腦的結構有助于人類進行有順序、以目標為導向的推理。中間講了一堆神經科學的進展，然后說，基于這些研究啟發，我們提出一個探索方向：是否可以將類似的人類結構化表示方式引入llm中，以增強其推理和規劃能力？

在本研究中，我們采用了一種簡單但有效的結構化形式——表格結構（tabular schema）來模擬人類思維過程中的結構化特性。在我們的方法中，表格的結構就像防御一個框架，用來組織和導航知識。受到神經科學中神經元逐步激活特定模式這一過程的啟發，我們將這一過程建模為按順序填寫表格的每一行，并根據預定義的結構跨列移動「原文是we model these processes as the sequential population of rows in a table, moving across columns according to a predefined schema.其中的population是填充的意思」一張表可以封裝一個或多個結構化的思維過程，為組織和連接思維步驟及其相關信息提供一個連貫的容器。表格不僅可以表示為達成特定目標的逐步過程，也可以作為planning tasks的robust框架。此外，使用表格作為結構化表示還能使我們設計出確保組織性和數據完整性的schema，從而更高效地驗證與分析推理過程。

本論文的貢獻如下：

1. 提出table as thought，首個嘗試將結構化表示直接整合到llm推理過程的研究和實踐。

2. 我們在需要規劃和數學推理的任務中，驗證了table as thought的優勢，突出它在需要順序性和目標導向思維的任務中提升表現的潛力。

3.對tat進行了詳細全面的分析，闡述了其功能和優勢，并對結構化和非結構化思維的表述的效果進行了比較分析。

table as thought：

我們在此提出了tat的框架設計，該框架通過使用表格作為結構化的思維表示，為llm引入了一種全新的推理方式。在tat中，表格被作為一個容器，用來表示一個或多個結構化的思維過程，這些表格被稱為reasoning tables，它們封裝了思維內容，整個推理過程是透明的。一個reasoning table T是通過一個original table schema S定義的，而這個S是由llm根據某個查詢Q定義的，「這句話在說，“我們要先告訴模型：表格怎么組織”；Schema（結構）S?指的是表的列，比如：

而這個 schema 是模型根據當前問題 Q 自己定義的。也就是說，模型自己決定“我這道題要用哪幾列來推理”。」接下來模型會基于結構S生成結構化思維Structured thoughts Θ ，其中每一個思維步驟對應表格中的一行。隨后模型根據這些結構化思維?Θ?來逐步填充和更新推理表格?T。

Schema development module（結構設計模塊）：結構設計模塊能夠動態調整表格結構，以適應不同任務中的各種查詢。對于約束規劃類任務，我們會在設計表格結構之前，先引導llm明確列出任務中的約束條件。這樣可以確保在推理過程中，無論是顯示約束還是隱含約束，都能被充分考慮。對于數學推理任務，我們會定制表格結構，以反應推理步驟中的邏輯發展過程，從而能夠系統地組織關鍵信息。?表格中的表頭（列名）被設計為表示該任務中關鍵的推理步驟與重要信息項。這些表頭像錨點一頁，用于組織和驗證推理過程中的中間結果與輸出。

例如，考慮一個旅行計劃類的查詢“我打算獨自旅行，預算大約是1100美元”在這種情況下，關鍵約束是總花費不超過1400美元。為解決這個約束，schema中必須包含一個列名為cost的列，類型為Number，以確保在推理中捕捉并驗證與預算相關的信息。對于數學題，要解題必須跟蹤各種變量，那么就需要設計對應的列來記錄計算，這樣推理過程就可以逐步展開并便于校驗。

reasoning verification module（推理驗證模塊）：之所以引入這個模塊，是因為實驗發現，當前的llm有時無法完整地生成結構化的推理過程來解決問題。用一個自動檢查器來看有沒有遺漏信息（完整性）、推理邏輯是否合理（正確性）。對于約束類推理任務，這個模塊會確保推理過程中已經包含并滿足schema中定義的所有必要約束條件。一般來說約束檢查是由llm自己通過 反思性推理 對生成的表格進行的，且約束條件是顯示列出以便于驗證。由于tat的思維是結構化的，因此可以引入一種額外機制：自動檢查約束auto-check。這是一種由系統執行的外部驗證機制，用于確保滿足約束。

table construction module（表格構建模塊）：根據schema和推理驗證模塊的反饋，迭代地生成結構化思維內容并構建推理表格。在構建過程中，模塊會動態添加新思維步驟，修改已有內容或刪除不符合schema或問題要求的條目。迭代終止的兩種情況 1. 推理驗證模塊確認表格已經完整且正確 2. 達到最大迭代次數（我們所有實驗中設為10次）

實驗：

在所有任務中，我們采用了原始的評估方法，以確保結果具有一致性和可比性。

約束規劃任務：這類任務的目標是生成滿足顯示和隱式約束條件的計劃。我們在兩個數據集上評估了我們的方法：1.?TravelPlanner（高復雜度）（由于該任務需要特別長的上下文，會導致大量token消耗，因此我們僅使用了?GPT-4-o-mini?進行實驗。）2.?Calendar Scheduling (from NaturalPlan)（低復雜度）

數學推理任務：我們使用?GSM-8K?（小學數學）和?MATH500（高級數學）?兩個數據集，來評估 LLMs 在結構化數學推理任務中的表現。這些題目對模型構成挑戰，因為需要進行符號操作和深入的數學理解

模型選擇：tat框架中的schema設計與表格構建模塊，要求llm能生成負責的結構化輸出，并嚴格符合指定的schema格式。這種能力可以通過 OpenAI 提供的?Structured Outputs Mode（結構化輸出模式）?原生支持，使得生成結果可以精準對齊到預定義的 schema 要求。因此，我們的所有實驗都在?OpenAI 的 GPT-4-o-mini 與 GPT-4-o-2024-08-06?兩個模型上進行。將該方法推廣到具有類似能力的開源模型，是我們未來研究的方向之一。

text thought baselines文本思維類的對比方法：1. direct prompting直接提示，不要求中間的推理步驟 2. cot prompting鏈式思維提示 3. text as thought文本即思維，與table as thought唯一區別是，它使用的是非結構化的文本表示思維過程。以文本為媒介進行推理，并在此基礎上擴展了cot方法，通過反思機制迭代更新推理過程。

variations of table as thought（tat的兩種變體）。這兩個變體分別是：帶自動約束檢查的 Table as Thought：通過增加約束自動驗證機制，使 schema 設計更加復雜；使用預設 schema 的 Table as Thought：通過提供固定的表格結構，簡化了任務難度。