論文淺嘗 | 提高大型語言模型的數學推理能力的學習定理基本原理(AAAI2025)

筆記整理:蘭雅榕,浙江大學碩士生,研究方向為知識圖譜、大語言模型

論文鏈接:https://ojs.aaai.org/index.php/AAAI/article/view/33662

發表會議:AAAI 2025

1. 動機

提高開源大型語言模型(LLM)的數學推理能力是一項有價值但持續的挑戰,目前有的利用涉及思維鏈(CoT) 原理的注釋或生成的問題-解決方案數據對對模型進行微調的方法雖然有一定作用,但是對于復雜的數學問題提升不大,且其完全忽略了結合問題思考相應定理的顯性思維過程,增加了涉及無關定理和幻覺的危險,該限制阻礙了推理過程的透明度和可解釋性,使錯誤診斷和糾正更加困難。

對于人類而言,能否根據給定的問題選擇合適的定理是影響最終解決方案質量的關鍵因素,但這在?LLM 推理領域的先前研究中卻被忽視了。本文提出了一種新穎的方法,以增強 LLM 將數學定理應用于具體問題的能力,我們稱之為定理原理 (TR)。

2. 貢獻

(1)本文提出了一種方法,用于明確學習如何將定理應用于具體問題,并收集包含 TR 原則的數據集。

(2)本文設計了策略,從問題-定理對中自動演化出面向定理的指令,從而有助于從多個層次的視角學習 TR。

(3)在本文提到的的數據集上進行微調的模型實現了持續的改進,展現了該方法在提升 LLM 數學推理能力方面的潛力。

3. 方法

所謂定理基本原理就是涉及為特定問題選擇和利用定理原則的聯合分布定義,一個關鍵點在于將特定定理集和特定問題結合的過程,極具挑戰但是通常都被忽視。論文中引入了一個特定的提示來刺激?LLM 從每個原始 (qi, ai) 對中自動擴展涉及 TR 的 (qi, ti, Si) 三元組,并伴隨著啟發式算法進行進一步篩選,以確保數據質量。

原始數據收集:

收集問題-答案對:為LLM提供一些相關信息以生成更準確的三元組,使用BM25從以前的觀測中檢索最相關的三元組。首先在不同數據集中收集問題-答案對,更關注高水平問題,這些問題對于建立問題和定理之間的聯系更有幫助。

生成定理數據:論文中編譯了一個專門的提示和少量的上下文示例,以指導?GPT-4o1 從其參數知識中反思對應于 qi 的定理 ti,并在編寫解決方案之前明確列出 ti。通過提示中的刺激,生成的響應明確涉及推導出答案 ai 所需的數學定理 ti 和 ti 約束內的逐步解決方案,模仿了人類數學問題解決的過程。因此,我們將 Do 擴展到由并聯 (qi, ti, Si) 三元組組成的 Dt。

人工注釋和過濾:手動過濾三類不合理樣本(包含不一致最終答案的樣本,包含明顯定理不一致或者錯誤的樣本和包含過長、無意義且重復的解決方案的樣本)。此外實施重復數據刪除和基于長度的啟發式后處理策略。計算?Dt 中所有 (qi, ti, Si) 三元組的解 Si 的長度分布,去除長度異常的解(基于信念:如果模型有足夠的信心來掌握問題,則解決方案將在有限的推理步驟內完成。)

以定理為中心的指令優化:

參考人類教師在數學教學化中采用的方法,發展以定理為中心的分層指令;a) 建立概念理解,(b) 將數學概念與其應用聯系起來,(c) 培養解決問題的能力。設計與這三種能力對應的指導策略,以從Dt進化指令:

Theorem Memorization(TM)策略:涉及從定理名字到定理內容的映射,從Dt中提取1800個定理完成。

Theorem Alignment (TA):雙向TA指令策略:正向出發:提示列出指定問題所需的定理;反向出發:自動編寫示例來演示指定定理的應用。

Theorem-based Problem Solving (TPS):模型需要將明確地將思考相應的定理作為解決問題的第一步,而不是像?CoT 中的實踐那樣將它們耦合到解決方案中。

以?TM、TA 和 TPS 為指導原則,利用 GPT 生成多樣化的指令描述,從而從 Dt 中提取總共 30k 的指令數據用于后續訓練。

指令微調:

收集了48k個指令和響應數據對,使用因果語言建模來全參數微調llama3-8b。

4. 實驗

實驗設定:

數據集:ID(Conic10K、MATH、GSM8k);OOD(MMLU-pro-Math、JEEBench-Math、SciBench、SAT-Math)包含開放式問題和多項選擇題

baseline:具有相同參數尺度的高級開源模型,包括?LLaMA2、Calactica、AQuA-SFT、WizardMath和 MAmmoTHCoT。以及具有代表性的閉源大模型例如 GPT-4、GPT-3.5 和 Claude-2。

評估指標:準確性

實驗結果:

在包含不同數學級別的各種評估數據集中表現出準確性的一致提高,與?IND 數據集相比,模型在 OOD 數據集上獲得了更高的性能,這表明從 TR 中學習賦予了模型強大的數學推理能力。

對于知識密集型數學任務,顯式學習和利用定理對提高推理能力起著至關重要的作用。

實驗還評估了三種指令有效性:對各種提出的面向定理的教學進化策略進行了進一步的消融研究,分別消除了專注于?TM、TA 和 TPS 策略的指令,并使用得到的子集 D-TM、D-TA 和 D-TPS 來微調模型。與使用合并數據集相比,刪除這些子集中的任何一個都會導致準確性降低,這凸顯了論文提出的指令進化方法而不是直接使用原始問答三元組訓練的必要性。比較去除不同子集帶來的性能下降,觀察到省略 TPS 導致的性能下降最大,其次是 TA 和刪除 TM 帶來的影響最小。這一發現驗證了假設:僅僅將數學定理作為普通文本記憶是遠遠不夠解決數學問題的,關鍵過程是學習如何將定理應用于特定問題。TA 暗示了將相應的定理與問題對齊的基本原理,而 TPS 在解決方案中進一步引入了定理的約束,因此為解決問題做出了更大的貢獻。

5. 總結

本文旨在學習將數學定理應用于具體問題,以提升大型語言模型(LLM)的數學推理能力。該工作精心構建了一個包含并行問題-定理-解三元組的高質量數據集,該數據集涉及TR原則。此外,他們提出了一種以定理為導向的策略來增強三元組中的指令,旨在使LLM能夠從不同角度運用定理。在廣泛使用的評估基準上進行的大量實驗表明,使用此數據集調整的模型獲得了強大的數學能力。此外,我們證實了明確引入與定理相關的思想對于提升閉源LLM性能的有效性。該工作為未來的數學推理和糾錯工作提供了新的視角。


OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文,進入 OpenKG 網站。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/93443.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/93443.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/93443.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

母豬姿態轉換行為識別:計算機視覺與行為識別模型調優指南

母豬姿態轉換行為識別:計算機視覺與行為識別模型調優指南 1. 引言 1.1 研究背景與意義 母豬姿態轉換行為識別是智能養殖領域的重要研究方向,通過計算機視覺技術自動識別母豬的站立、躺臥、行走等姿態變化,對于監測母豬健康狀態、評估福利水平…

K8S集群環境搭建(一)

虛擬機鏡像 ubuntu 24 虛擬機網絡 虛擬網絡–配置 nat模式主機ip配置宿主機ip配置 10.0.0.12 master 2c 10.0.0.15 node1 10.0.0.16 node2 10.0.0.17 node3 10.0.0.20 registersudo vi /etc/netplan/00-installer-config.yaml # 替換為實際文件名 sudo netplan applynetwork:v…

css預編譯器實現星空背景圖

打造夢幻星空背景:用CSS預處理器輕松實現動態效果 星空背景能為網頁增添神秘感和視覺吸引力。通過CSS預處理器(如Sass/Less)可以高效實現可定制化的星空效果,避免重復編寫純CSS代碼。以下是 Vue3 組件皮膚具體實現方法和代碼示例。…

焊接機器人保護氣體效率優化

在現代工業制造領域,焊接機器人的應用日益廣泛,而保護氣體在焊接過程中起著至關重要的作用。如何優化保護氣體的效率,成為焊接技術發展的一個關鍵考量因素。WGFACS節氣裝置的出現,為焊接機器人在保護氣體效率優化方面帶來了顯著的…

Portkey-AI gateway 的一次“假壓縮頭”翻車的完整排障記:由 httpx 解壓異常引發的根因分析

筆者最近在本地搭建了Portkey AI Gateway(模型路由網關),然后按照文檔中的方式進行測試。結果發現,網關能夠接收到請求,但是Python測試的程序卻運行報錯。Python代碼報錯信息如下: Traceback (most recent …

什么是Session? PHP編程中Session用法詳解

一、Session的基本概念 Session 是 Web 開發中用于在服務器端存儲用戶臨時數據的一種機制,它允許服務器在不同的 HTTP 請求之間識別和跟蹤特定用戶的狀態,本質上是?服務器為每個用戶開辟的臨時私有存儲空間?。由于 HTTP 協議本身是無狀態的&#xff…

【大模型】AI平臺 joyagent 2.0 的部署與測試

github鏈接:https://github.com/jd-opensource/joyagent-jdgenie 本篇博客記錄下自己在配置joyagent的過程,以【手動初始化環境,啟動服務】為例,后端調用的deepseek-chat大模型。 前言 JoyAgent是由京東云開源的企業級多智能體系統…

計算機視覺(一):nvidia與cuda介紹

背景與意義 計算機視覺 (Computer Vision, CV) 需要對圖像和視頻進行處理、特征提取和模型訓練,計算量巨大。GPU (圖形處理單元) 擅長并行計算,非常適合深度學習、卷積操作、矩陣乘法等場景。NVIDIA 作為 GPU 領域的領導者,推出了 CUDA (Comp…

阿里云杭州 AI 產品法務崗位信息分享(2025 年 8 月)

(注:本崗位信息已獲jobleap.cn授權,可在 CSDN 平臺發布) 一、基本信息 招聘方:阿里云工作地點:杭州信息收錄時間:2025 年 08 月 14 日 二、職位主要職責 為 AI 相關產品全流程提供法務支持&…

醫療智慧大屏系統 - Flask + Vue實現

下面我將實現一個完整的醫療智慧大屏系統,使用Flask作為后端框架,前端使用Vue.js結合ECharts進行醫療數據的可視化展示,文章末尾提交源碼下載。 系統設計思路 前端部分: 使用Vue.js構建響應式界面 使用ECharts實現各類醫療數據可…

庫制作與原理(下)

庫制作與原理 (下) 1. 目標文件 編譯和鏈接這兩個步驟,在 Windows 下被我們的 IDE 封裝的很完美,我們一般都是一鍵構建非常方便,但一旦遇到錯誤的時候呢,尤其是鏈接相關的錯誤,很多人就束手無策了。在 Linux 下&#x…

STL 容器

STL是C的核心組成部分,其主要包括了容器、迭代器、算法三大組件。 其中容器負責存儲數據,迭代器是容器和算法的橋梁,負責對容器中的元素進行操作。本文重點介紹容器部分內容。 STL主要容器 STL容器根據特性進行分類,可以分為序列式…

微信小程序 拖拽簽章

微信小程序 拖拽簽章 效果 主要實現的功能點 文件按比例加載圖片(寬高設定拖拽范圍) 彈層展示印章模板 模板拖拽到文件圖片上 實時獲取拽拽位置 難點 彈層中的元素如何拖拽到文件圖片上 實現歷程 版本1.0 以前我們拖拽一個圖層到另一個圖層上,pc端使用的是mousedown mou…

人工智能加速計算套件

按照甲方要求的技術指標的人工智能加速計算套件1套。每套包含以下內容: 1、顯卡 不低于6542Y;容量不低于 48GB GDDR6顯存;CUDA核心不低于14080 個 ;第四代Tensor Core不低于440 個;單精度性能不低于69.3 TFLOPS&#x…

端到端測試:復雜系統的終極體檢術

當你的應用像多米諾骨牌一樣牽一發而動全身,如何確保用戶一路暢通無阻?一、為什么我們需要端到端測試? 想象一下:你精心開發的電商應用,用戶登錄順利,商品瀏覽流暢,卻在最后支付時卡殼——原因是…

Perf使用詳解

Perf 工具深度解析 Perf(Performance Counters for Linux)是 Linux 系統的性能分析工具,基于內核的 perf_event 子系統,通過硬件性能計數器(PMC)、軟件事件和跟蹤點(tracepoints)實現…

Windchill 11 Enumerated Type Customization Utility-枚舉類型自定義實用程序

一、Enumerated Type Customization Utility 枚舉類型自定義實用程序,可用于添加或編輯枚舉類型的值,在Windchill 12.0中可直接在類型和屬性管理中編輯,如下圖所示,而在Windchill 11.0中只能通過windchill shell啟動程序&#xff…

git疑問,暫時記錄

有時候把dev本地分支搞亂了,多出幾個提交,好像在遠程倉庫,rebase dev到本地dev,就恢復了,然后再把我開發分支合并過去就ok,就不會多出幾個重復的提交 在自己分支開發提交數據后,不push到遠程倉庫 然后合并到dev分支,推dev分支到遠程倉庫然后在自己分支,rebase到自己分支,然后再…

Java 大視界 -- 基于 Java 的大數據分布式計算在氣象災害預警與應急響應中的應用

Java 大視界 -- 基于 Java 的大數據分布式計算在氣象災害預警與應急響應中的應用引言:Java 筑起氣象防災減災的數字長城正文:Java 構建的氣象智慧防御體系一、氣象大數據的 Java 基座:從采集到存儲的全鏈路優化1.1 多源異構數據的實時匯聚1.2…

MySQL黑盒子研究工具 strace

strace是什么? 按照 strace 官網的描述, strace 是一個可用于診斷、調試和教學的 Linux 用戶空間跟蹤器。我們用它來監控用戶空間進程和內核的交互,比如系統調用、信號傳遞、進程狀態變更等。 strace 底層使用內核的 ptrace 特性來實現其功能。 strace能…