前言
DeepSeek R1采用強化學習進行后訓練,通過獎勵機制和規則引導模型生成結構化思維鏈(CoT),從而顯著提升了推理能力。這一創新方法使得DeepSeek R1能夠在無需大量監督數據的情況下,通過自我進化發展出強大的推理能力。那么語言模型的推理能力具體是什么,讓我們一起來討論。
利用計算機做推理的歷史
推理是人類運用邏輯或經驗,從已知的事實或前提出發,推導出新的結論或判斷的認知活動。推理在人類生活中無處不在,例如科學研究、法律審判、醫學診斷、教育評估等。在這些場景中,人們需要根據已有的證據或假設,運用合適的推理方式,得出合理的結論或決策。
人類用計算機科學做推理的研究始于人工智能的誕生,例如早期的邏輯程序設計語言(如Prolog)和專家系統(如MYCIN)。這些系統都是基于符號邏輯的形式化推理,可以處理一些結構化的、確定性的、規則化的問題,例如數學證明、棋類游戲、醫學診斷等。然而,這些系統也有很多局限性,難以處理不完備的、不確定性的、非結構化的問題,例如自然語言理解、常識推理等。
隨著深度學習和神經網絡的發展,人類用計算機科學做推理的方式也發生了變化。神經網絡可以從大量的數據中自動學習特征和知識,而不需要人為地設計規則和符號也可以處理更多的復雜的、多模態的、動態的問題,例如語音識別、機器翻譯、圖像生成等。然而,神經網絡也有很多挑戰,例如難以解釋和驗證其內部的推理過程、難以泛化到新的領域和任務、難以利用先驗知識和常識等。這些問題需要更多的推理和解釋能力,而不僅僅是學習和記憶能力。
近年來,預訓練技術催生了大語言模型,在提示學習(Prompt Learning)的引導下大語言模型展現出驚人的推理能力,吸引了學術界和工業界的廣泛關注。這種技術可以在具備涌現能力的大語言模型下有效地提升大語言模型的推理能力和解釋能力,使其能夠應對更多的復雜問題和場景。
為什么大語言模型會產生推理
語言是人類用來表達思想和感情的符號系統,是人類大腦高級認知能力和思考過程的一種體現。大語言模型是一種利用海量的人類自然語言文本來學習和模仿人類語言溝通方式的人工智能技術,它的基本功能是根據給定的提示來生成或補全文本,例如寫小說、新聞、詩歌等,這體現了它們的文本創造能力。然而,大語言模型不僅僅是在預測下一個詞元(token),當模型達到一定規模時(100億-1000億個參數規模)就能夠在沒有進行訓練的情況下完成特定任務,例如語言理解、生成、邏輯推理、翻譯、編程等。這些任務需要一定的認知推理能力,而大語言模型似乎通過合理的提示就能夠表現出這種能力,就像AI擁有了人類的意識一樣。我們稱這種能力為“涌現能力”。
這種涌現能力和傳統的人工智能技術有著本質的區別。傳統人工智能技術所展現出來的水平很大程度上取決于我們給它的訓練樣本,就像“鸚鵡學舌”一樣,只是在樣本所涵蓋的知識領域內進行泛化。而大語言模型卻讓我們看到了一種質的飛躍,它能夠主動地創造和解決問題,就像“烏鴉喝水”一樣,我們并沒有事先在訓練過程中給它類似的樣本或條件,它可以自己想出方法。這種自主的創造力就是大語言模型與其他技術顯著不同的特征。
思維鏈(Chain of Thought,CoT)是一種新穎且有效的提示工程技術,它能夠利用大語言模型的涌現能力,賦予大語言模型推理能力,并提升大語言模型在復雜推理任務中(例如算術推理、常識推理和符號推理)的表現。
然而,大語言模型只是一種自然語言生成模型,并不具備真正意義上的計算和推理能力,為什么給它一個邏輯清晰的例子時,它能按照邏輯的方式輸出呢?這是因為通過這個例子為大語言模型提供了一個“更仔細、更認真思考、有邏輯性”的語境,這種語境是人類描述推理問題的某種習慣模式。在這個語境下后續文本生成將會獲得一個偏向生成具有推理風格文本的最大概率。
比如說,“讓我們一步一步思考(Let’s think step by step)”這句話在提示中出現時,通常意味著下面會有一個按照邏輯順序分析的過程。
因此,站在一個更高的視角來觀察,這些思維鏈無一例外都是通過“某種人類理解的、有邏輯的、抽象化的”結構來做提示編排(大部分模擬人類的思考邏輯過程的某種抽象結構),從而觸發(啟發)大語言模型消耗更多的算力往推理方向去生成。
深入閱讀
在過去的一段時間里,人們總結了非常多的利用思維鏈提示(COT)增強大語言模型推理的方法,在人民郵電出版社出版的《AI原生應用開發:提示工程原理與實戰》(京東圖書:https://item.jd.com/14373635.html)一書中,作者用了一章的篇幅詳細介紹了市面上主流的利用思維鏈技術提升大模型推理的方法,并且進一步研究了思維鏈的本質,揭開了利用語言模型推理的面紗,讓我們一起看看吧!