一、說明
????????大語言模型(維基:LLM-?large language model)是以大尺寸為特征的語言模型。它們的規模是由人工智能加速器實現的,人工智能加速器能夠處理大量文本數據,這些數據大部分是從互聯網上抓取的。 [1]所構建的人工神經網絡可以包含數千萬到數十億的權重,并使用自監督學習和半監督學習進行(預)訓練。 Transformer 架構有助于加快訓練速度。[2]替代架構包括專家混合(MoE),它是由 Google 提出的,從 2017 年的稀疏門控架構開始,[3] 2021 年的 Gshard[4] 到 2022 年的 GLaM。?
????????作為語言模型,它們的工作原理是獲取輸入文本并重復預測下一個標記或單詞。[6]到 2020 年,微調是模型能夠完成特定任務的唯一方法。然而,較大尺寸的模型,例如 GPT-3,可以通過快速設計來實現類似的結果。 [7]他們被認為獲得了人類語言語料庫中固有的語法、語義和“本體論”的具體知識,但也獲得了語料庫中存在的不準確和偏見。 [8]
二、度量尺度演進史
????????在17世紀初,一位名叫埃德蒙·岡特(Edmund Gunter)的數學家和天文學家面臨著前所未有的天文學挑戰。計算行星的復雜運動和預測日食需要的不僅僅是直覺——它需要掌握復雜的對數和三角方程。因此,就像任何精明的創新者一樣,岡瑟決定從頭開始構建它!他創造了一種模擬計算設備,最終成為所謂的計算尺。
????????計算尺是一個長30厘米的矩形木塊,由兩部分組成:固定框架和滑動部分。固定框架容納固定對數刻度,而滑動部分容納可移動刻度。要使用計算尺,您需要了解對數的基本原理以及如何對齊乘法、除法和其他數學運算的刻度。您必須滑動可移動部分以對齊設置數字,讀取結果并考慮小數點放置。哎呀,這真的很復雜!

????????大約300年后,貝爾潘奇公司于1961年推出了第一臺電子桌面計算器“ANITA Mk VII”。在接下來的幾十年里,電子計算器變得更加復雜,具有附加功能。以前需要大量手動計算的工作大大減少了工時,使員工能夠專注于工作中更具分析和創造性的方面。因此,現代電子計算器不僅重塑了工作角色,還為提高解決問題的能力鋪平了道路。
計算器是數學完成方式的一步變化。語言呢?
三、語言度量才剛剛開始
????????想想你是如何生成句子的。你首先需要有一個想法。接下來,你需要知道一堆單詞(詞匯)。然后,您需要能夠將它們放在適當的句子(語法)中。嘖,又是相當復雜的!
????????我們生成語言單詞的方式可以追溯到50萬年前,也就是現代智人首次創造語言的時候。
公平地說,我們仍然處于岡瑟在生成句子時使用計算尺的時代!
????????如果你考慮一下,使用適當的詞匯和語法基本上只是遵守規則。語言規則。
????????這類似于數學。它充滿了規則。因此,為什么我可以確定 1+1=2 以及為什么計算器有效!
我們需要的是一個計算器,但對于文字!
????????是的,不同的語言遵循不同的規則,但需要遵循一些規則才能理解。語言和數學之間的一個明顯區別是,數學有固定的答案,而一個句子中可以容納的合理單詞的數量可能很大。
????????嘗試完成以下句子:我吃了一個________。想象一下接下來可能出現的單詞。英文大約有1萬個單詞。其中很多都可以在這里使用,但絕對不是全部。
????????回答“黑洞”相當于說2+2=5。此外,回答“蘋果”也不準確。為什么?因為語法!
????????在過去的幾個月里,大型語言模型(LLM)風靡全球。一些人稱其為自然語言處理的突破,而另一些人則將其視為人工智能(AI)新時代的曙光。
????????LLM已被證明非常擅長生成類似人類的文本,提高了基于語言的AI應用程序的標準。憑借龐大的知識庫和上下文理解,LLM可以應用于各個領域,從語言翻譯和內容生成到虛擬助手和客戶支持聊天機器人。
問題是:我們目前是否處于LLM的拐點,就像我們在1960年代使用電子計算器一樣?
????????在我們回答這個問題之前,LLM是如何工作的?LLM基于轉換器神經網絡,用于計算和預測接下來最適合的單詞。要構建一個強大的轉換器神經網絡,您需要在大量的文本數據上對其進行訓練。這就是為什么“預測下一個單詞/標記”方法如此有效的原因:有很多容易獲得的訓練數據。LLM將整個單詞序列作為輸入,并預測下一個最有可能出現的單詞。為了了解接下來最有可能發生的事情,他們吞下了所有的維基百科作為熱身練習,然后轉向成堆的書籍,最后是整個互聯網。
????????我們之前已經確定語言包含規則和模式。該模型通過遍歷所有這些句子隱式學習這些規則,它將使用這些句子來完成預測下一個單詞的任務。

????????在單數名詞之后,下一個單詞是以“s”結尾的動詞的可能性增加。同樣,在閱讀莎士比亞時,看到“doth”和“wherefore”等詞的機會也會增加。
????????在訓練過程中,模型用語言學習這些模式,最終成為專家!
但這夠了嗎?學習語言規則就夠了嗎?

????????因此,自我關注。簡單來說,自我注意是LLM用來理解句子或一段文本中不同單詞之間關系的一種技術。就像你關注故事的不同部分來理解它一樣,自我關注允許LLM在處理信息時更加重視句子中的某些單詞。這樣,模型可以更好地理解文本的整體含義和上下文,而不是僅僅根據語言規則盲目地預測下一個單詞。

如果LLM是單詞的計算器,只是預測下一個單詞,它如何回答我所有的問題?
????????當你要求一個大型語言模型做一些聰明的事情——而且它有效——你很有可能要求它做一些它已經看到數千個例子的事情。即使你想出了一些非常獨特的東西,比如:
“給我寫一首關于逆戟鯨吃雞的詩”
在海浪中,一個看不見的景象,一只逆戟鯨捕獵,迅速而敏銳,在海洋領域,舞蹈開始,作為雞的命運,逆戟鯨獲勝。
它用強大的下顎撞擊獵物,羽毛漂浮,漂流,以自然的方式,編織一個故事,生與死合而為一。
~ 聊天
????????很不錯吧?得益于其自我注意機制,它可以有效地混合和匹配相關信息,以構建合理而連貫的響應。
????????在訓練過程中,LLM學習識別他們所接觸到的數據中單詞和短語之間的模式,關聯和關系。由于這種廣泛的培訓和微調,LLM可以表現出新興屬性,例如執行語言翻譯,摘要,問答甚至創意寫作的能力。這些功能通常超出了模型中顯式編程的范圍,并且可能非常出色!
大型語言模型是否智能?
????????電子計算器已經存在了六十多年。該工具本身已經有了突飛猛進的改進,但它從未被認為是智能的。為什么?
圖靈測試 - 圖靈測試是一種看似簡單的方法,用于確定機器是否表現出類似人類的智能:如果機器能夠以與人類無法區分的方式與人類進行對話,則認為它具有人類智能。
????????計算器從未接受過圖靈測試,因為它不像人類那樣用同樣的語言進行交流,只有數學語言。另一方面,LLM產生人類語言。它的整個訓練過程圍繞著模仿人類語言。因此,它可以“以與人類無法區分的方式與人類進行對話”也就不足為奇了。
????????因此,用“智能”這個詞來描述LLM有點棘手,因為對于智能的真正含義沒有明確的共識。考慮某物是否智能的一種方法是,它是否做了有趣、有用且不是非常明顯的事情。LLM確實屬于這一類。不幸的是,我完全不同意這種解釋。
我將智力定義為擴展知識前沿的能力。
????????在撰寫本文時,經過訓練來預測下一個標記/單詞的機器仍然無法擴展知識的前沿。
????????但是,它可以對已訓練的數據進行插值。沒有明確理解單詞背后的邏輯,也沒有存在的知識樹。因此,它將永遠無法產生異常的想法并實現洞察力的飛躍。它將始終提供連貫的答案,在某種程度上是平均響應。

????????我們應該把LLM更像一個單詞的計算器。永遠不要把你的思維完全外包給語言模型。
????????與此同時,隨著這些模型呈指數級增長,我們可能會感到越來越不知所措和微不足道。解決這個問題的方法是始終對看似無關的想法保持好奇。表面上看起來不連貫的想法,但基于我們與周圍環境的互動而有意義。目標是生活在知識的邊緣,創造和連接新的點。
????????如果你在這個層面上工作,所有形式的技術,無論是計算器還是大型語言模型,都會成為你可以使用的工具,而不是你需要擔心的生存威脅。