大語言模型推理能力從何而來?

前言

DeepSeek R1采用強化學習進行后訓練,通過獎勵機制和規則引導模型生成結構化思維鏈(CoT),從而顯著提升了推理能力。這一創新方法使得DeepSeek R1能夠在無需大量監督數據的情況下,通過自我進化發展出強大的推理能力。那么語言模型的推理能力具體是什么,讓我們一起來討論。

利用計算機做推理的歷史

推理是人類運用邏輯或經驗,從已知的事實或前提出發,推導出新的結論或判斷的認知活動。推理在人類生活中無處不在,例如科學研究、法律審判、醫學診斷、教育評估等。在這些場景中,人們需要根據已有的證據或假設,運用合適的推理方式,得出合理的結論或決策。

人類用計算機科學做推理的研究始于人工智能的誕生,例如早期的邏輯程序設計語言(如Prolog)和專家系統(如MYCIN)。這些系統都是基于符號邏輯的形式化推理,可以處理一些結構化的、確定性的、規則化的問題,例如數學證明、棋類游戲、醫學診斷等。然而,這些系統也有很多局限性,難以處理不完備的、不確定性的、非結構化的問題,例如自然語言理解、常識推理等。

隨著深度學習和神經網絡的發展,人類用計算機科學做推理的方式也發生了變化。神經網絡可以從大量的數據中自動學習特征和知識,而不需要人為地設計規則和符號也可以處理更多的復雜的、多模態的、動態的問題,例如語音識別、機器翻譯、圖像生成等。然而,神經網絡也有很多挑戰,例如難以解釋和驗證其內部的推理過程、難以泛化到新的領域和任務、難以利用先驗知識和常識等。這些問題需要更多的推理和解釋能力,而不僅僅是學習和記憶能力。

近年來,預訓練技術催生了大語言模型,在提示學習(Prompt Learning)的引導下大語言模型展現出驚人的推理能力,吸引了學術界和工業界的廣泛關注。這種技術可以在具備涌現能力的大語言模型下有效地提升大語言模型的推理能力和解釋能力,使其能夠應對更多的復雜問題和場景。

為什么大語言模型會產生推理

語言是人類用來表達思想和感情的符號系統,是人類大腦高級認知能力和思考過程的一種體現。大語言模型是一種利用海量的人類自然語言文本來學習和模仿人類語言溝通方式的人工智能技術,它的基本功能是根據給定的提示來生成或補全文本,例如寫小說、新聞、詩歌等,這體現了它們的文本創造能力。然而,大語言模型不僅僅是在預測下一個詞元(token),當模型達到一定規模時(100億-1000億個參數規模)就能夠在沒有進行訓練的情況下完成特定任務,例如語言理解、生成、邏輯推理、翻譯、編程等。這些任務需要一定的認知推理能力,而大語言模型似乎通過合理的提示就能夠表現出這種能力,就像AI擁有了人類的意識一樣。我們稱這種能力為“涌現能力”。

這種涌現能力和傳統的人工智能技術有著本質的區別。傳統人工智能技術所展現出來的水平很大程度上取決于我們給它的訓練樣本,就像“鸚鵡學舌”一樣,只是在樣本所涵蓋的知識領域內進行泛化。而大語言模型卻讓我們看到了一種質的飛躍,它能夠主動地創造和解決問題,就像“烏鴉喝水”一樣,我們并沒有事先在訓練過程中給它類似的樣本或條件,它可以自己想出方法。這種自主的創造力就是大語言模型與其他技術顯著不同的特征。

思維鏈(Chain of Thought,CoT)是一種新穎且有效的提示工程技術,它能夠利用大語言模型的涌現能力,賦予大語言模型推理能力,并提升大語言模型在復雜推理任務中(例如算術推理、常識推理和符號推理)的表現。

然而,大語言模型只是一種自然語言生成模型,并不具備真正意義上的計算和推理能力,為什么給它一個邏輯清晰的例子時,它能按照邏輯的方式輸出呢?這是因為通過這個例子為大語言模型提供了一個“更仔細、更認真思考、有邏輯性”的語境,這種語境是人類描述推理問題的某種習慣模式。在這個語境下后續文本生成將會獲得一個偏向生成具有推理風格文本的最大概率。

比如說,“讓我們一步一步思考(Let’s think step by step)”這句話在提示中出現時,通常意味著下面會有一個按照邏輯順序分析的過程。

因此,站在一個更高的視角來觀察,這些思維鏈無一例外都是通過“某種人類理解的、有邏輯的、抽象化的”結構來做提示編排(大部分模擬人類的思考邏輯過程的某種抽象結構),從而觸發(啟發)大語言模型消耗更多的算力往推理方向去生成。

深入閱讀

在過去的一段時間里,人們總結了非常多的利用思維鏈提示(COT)增強大語言模型推理的方法,在人民郵電出版社出版的《AI原生應用開發:提示工程原理與實戰》(京東圖書:https://item.jd.com/14373635.html)一書中,作者用了一章的篇幅詳細介紹了市面上主流的利用思維鏈技術提升大模型推理的方法,并且進一步研究了思維鏈的本質,揭開了利用語言模型推理的面紗,讓我們一起看看吧!在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/896048.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/896048.shtml
英文地址,請注明出處:http://en.pswp.cn/news/896048.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

用 WOW.js 和 animate.css 實現動畫效果

用 wow.js 就可以實現動畫效果,但由于里面的動畫樣式太少,一般還會引入 animated.css 第一步:下載 選擇合適的包管理器下載對應的內容 pnpm i wow.js animated.css --save 第二步:引入 在main.js中加入: import …

設計模式教程:解釋器模式(Interpreter Pattern)

1. 什么是解釋器模式? 解釋器模式(Interpreter Pattern)是一種行為型設計模式,通常用于處理語言(例如數學表達式、SQL查詢等)中的語法和解釋。該模式定義了一個文法,并通過解釋器類來解釋文法中…

STM32MP157A單片機移植Linux驅動深入版

需求整理 在Linux設備樹中新增leds節點&#xff0c;其有3個gpio屬性&#xff0c;分別表示PE10對應led1&#xff0c;PF10對應led2&#xff0c;PE8對應led3&#xff0c;設備樹鍵值對如下&#xff1a; leds { led1-gpio <&gpioe 10 0>; led2-gpio &l…

本地DeepSeek模型GGUF文件轉換為PyTorch格式

接前文,我們在本地Windows系統上,基于GGUF文件部署了DeepSeek模型(DeepSeek-R1-Distill-Qwen-1.5B.gguf版本),但是GGUF是已經量化的版本,我們除了對其進行微調之外,無法對其訓練,那么還有沒有其他辦法對本地的GGUF部署的DeepSeek模型進行訓練呢?今天我們就反其道而行之…

http代理IP怎么實現?如何解決代理IP訪問不了問題?

HTTP代理是一種網絡服務&#xff0c;它充當客戶端和目標服務器之間的中介。當客戶端發送請求時&#xff0c;請求首先發送到代理服務器&#xff0c;然后由代理服務器轉發到目標服務器。同樣&#xff0c;目標服務器的響應也會先發送到代理服務器&#xff0c;再由代理服務器返回給…

人工智能之數學基礎:施密特正交化

本文重點 在前面的課程中,我們學習了線性空間的基,其中有一個標準正交基的概念,假設現在有一個線性向量空間,然后已經確定了該線性空間的一組基,那么如何將其轉變為標準正交基。本文將學習如何通過施密特正交化完成這個任務。 施密特正交化 施密特正交化(Schmidt Orth…

Spark(2)linux和簡單命令

&#xff08;一&#xff09;Linux的文件系統 文件系統&#xff1a;操作系統中負責管理和存儲文件信息的軟件結構稱為文件管理系統。 文件系統的結構通常叫做目錄樹結構&#xff0c;從斜桿/根目錄開始; Linux號稱萬物皆文件&#xff0c;意味著針對Linux的操作&#xff0c;大多…

Grok 3.0 Beta 版大語言模型評測

2025年2月17日至18日&#xff0c;全球首富埃隆馬斯克&#xff08;Elon Musk&#xff09;攜手其人工智能公司xAI&#xff0c;在美國重磅發布了Grok 3.0 Beta版。這款被譽為“迄今為止世界上最智能的語言模型”的AI&#xff0c;不僅集成了先進的“DeepSearch”搜索功能&#xff0…

基于COSTAR模型的內容創作:如何用框架提升寫作質量

目錄 前言1. Context&#xff08;上下文&#xff09;&#xff1a;理解背景&#xff0c;奠定寫作基礎1.1 何為上下文1.2 上下文的作用1.3 案例解析 2. Objective&#xff08;目標&#xff09;&#xff1a;明確寫作方向&#xff0c;避免跑題2.1 確立目標2.2 如何設定目標2.3 案例…

Springboot應用開發工具類整理

目錄 一、編寫目的 二、映射工具類 2.1 依賴 2.2 代碼 三、日期格式 3.1 依賴 3.2 代碼 四、加密 4.1 代碼 五、Http請求 5.1 依賴 5.2 代碼 六、金額 6.1?代碼 七、二維碼 7.1 依賴 7.2 代碼 八、坐標轉換 8.1 代碼 九、樹結構 9.1?代碼 9.1.1 節點 …

【Research Proposal】基于提示詞方法的智能體工具調用研究——研究問題

博客主頁&#xff1a; [小????????] 本文專欄: AIGC | ChatGPT 文章目錄 &#x1f4af;前言&#x1f4af;研究問題1. 如何優化提示詞方法以提高智能體的工具調用能力&#xff1f;2. 如何解決提示詞方法在多模態任務中的挑戰&#xff1f;3. 如何通過提示詞優化智能體…

Java 大視界 -- 國際競爭與合作:Java 大數據在全球市場的機遇與挑戰(94)

&#x1f496;親愛的朋友們&#xff0c;熱烈歡迎來到 青云交的博客&#xff01;能與諸位在此相逢&#xff0c;我倍感榮幸。在這飛速更迭的時代&#xff0c;我們都渴望一方心靈凈土&#xff0c;而 我的博客 正是這樣溫暖的所在。這里為你呈上趣味與實用兼具的知識&#xff0c;也…

25旅游管理研究生復試面試問題匯總 旅游管理專業知識問題很全! 旅游管理復試全流程攻略 旅游管理考研復試真題匯總

旅游管理復試很難&#xff1f;&#xff01; 別怕&#xff01;經驗超豐富的老學姐來給你們出謀劃策啦&#xff01; 最近是不是被旅游管理考研復試折磨得夠嗆&#xff1f;莫慌&#xff01;我這有著豐富復試指導經驗的老學姐來幫你們排雷&#xff0c;助力大家順利上岸&#xff01…

美的樓宇科技基于阿里云 EMR Serverless Spark 構建 LakeHouse 湖倉數據平臺

作者&#xff1a;美的樓宇科技事業部 先行研究中心智能技術部 美的樓宇科技 IoT 數據平臺建設背景 美的樓宇科技事業部&#xff08;以下簡稱樓宇科技&#xff09;是美的集團旗下五大板塊之一&#xff0c;產品覆蓋多聯機組、大型冷水機組、單元機、機房空調、扶梯、直梯、貨梯…

Html5學習教程,從入門到精通,HTML5 元素語法知識點及案例代碼(2)

HTML5 元素語法知識點及案例代碼 一、HTML5 元素概述 HTML5 元素是構成網頁的基本單位&#xff0c;每個元素都有特定的語義和功能。HTML5 元素由開始標簽、內容和結束標簽組成&#xff0c;例如&#xff1a; <p>這是一個段落。</p><p> 是開始標簽這是一個段…

23種設計模式 - 備忘錄模式

模式定義 備忘錄模式&#xff08;Memento Pattern&#xff09;是一種行為型設計模式&#xff0c;其核心是在不破壞對象封裝性的前提下&#xff0c;捕獲并保存對象的內部狀態&#xff0c;以便后續恢復。該模式特別適用于需要實現撤銷/重做、狀態回滾等功能的系統&#xff0c;如…

2025asp.net全棧技術開發學習路線圖

2025年技術亮點?&#xff1a; Blazor已全面支持WebAssembly 2.0標準 .NET 8版本原生集成AI模型部署能力 Azure Kubernetes服務實現智能自動擴縮容 EF Core新增向量數據庫支持特性 ?ASP.NET 全棧開發關鍵技術說明&#xff08;2025年視角&#xff09;? 以下技術分類基于現…

Linux設備驅動-練習

練習要求&#xff1a; 一、設備樹 1、配置設備樹信息&#xff1a;將3個led燈和1個風扇使用到的設備信息配置到設備樹中 二、設備驅動層 1、通過of_find_node_by_name、of_get_named_gpion等內核核心層統一的api接口調用外設&#xff1b; 2、通過udev設備管理器自動注冊并創建設…

Python應用算法之貪心算法理解和實踐

一、什么是貪心算法&#xff1f; 貪心算法&#xff08;Greedy Algorithm&#xff09;是一種簡單而高效的算法設計思想&#xff0c;其核心思想是&#xff1a;在每一步選擇中&#xff0c;都采取當前狀態下最優的選擇&#xff08;即“局部最優解”&#xff09;&#xff0c;希望通…

競爭與冒險問題【數電速通】

時序邏輯電路&#xff1a; 組合邏輯電路中的競爭與冒險問題&#xff1a; 在組合邏輯電路中&#xff0c;競爭和冒險是兩種常見的時序問題&#xff0c;它們通常由電路的延時特性和不完美的設計引起。下面是這兩種現象的詳細解釋&#xff1a; 1. 競爭&#xff08;Race Condition&…