一、說明

????????大語言模型（維基：LLM-?large language model）是以大尺寸為特征的語言模型。它們的規模是由人工智能加速器實現的，人工智能加速器能夠處理大量文本數據，這些數據大部分是從互聯網上抓取的。 [1]所構建的人工神經網絡可以包含數千萬到數十億的權重，并使用自監督學習和半監督學習進行（預）訓練。 Transformer 架構有助于加快訓練速度。[2]替代架構包括專家混合（MoE），它是由 Google 提出的，從 2017 年的稀疏門控架構開始，[3] 2021 年的 Gshard[4] 到 2022 年的 GLaM。?

????????作為語言模型，它們的工作原理是獲取輸入文本并重復預測下一個標記或單詞。[6]到 2020 年，微調是模型能夠完成特定任務的唯一方法。然而，較大尺寸的模型，例如 GPT-3，可以通過快速設計來實現類似的結果。 [7]他們被認為獲得了人類語言語料庫中固有的語法、語義和“本體論”的具體知識，但也獲得了語料庫中存在的不準確和偏見。 [8]

二、度量尺度演進史

????????在17世紀初，一位名叫埃德蒙·岡特（Edmund Gunter）的數學家和天文學家面臨著前所未有的天文學挑戰。計算行星的復雜運動和預測日食需要的不僅僅是直覺——它需要掌握復雜的對數和三角方程。因此，就像任何精明的創新者一樣，岡瑟決定從頭開始構建它！他創造了一種模擬計算設備，最終成為所謂的計算尺。

????????計算尺是一個長30厘米的矩形木塊，由兩部分組成：固定框架和滑動部分。固定框架容納固定對數刻度，而滑動部分容納可移動刻度。要使用計算尺，您需要了解對數的基本原理以及如何對齊乘法、除法和其他數學運算的刻度。您必須滑動可移動部分以對齊設置數字，讀取結果并考慮小數點放置。哎呀，這真的很復雜！

????????大約300年后，貝爾潘奇公司于1961年推出了第一臺電子桌面計算器“ANITA Mk VII”。在接下來的幾十年里，電子計算器變得更加復雜，具有附加功能。以前需要大量手動計算的工作大大減少了工時，使員工能夠專注于工作中更具分析和創造性的方面。因此，現代電子計算器不僅重塑了工作角色，還為提高解決問題的能力鋪平了道路。

計算器是數學完成方式的一步變化。語言呢？

三、語言度量才剛剛開始

????????想想你是如何生成句子的。你首先需要有一個想法。接下來，你需要知道一堆單詞（詞匯）。然后，您需要能夠將它們放在適當的句子（語法）中。嘖，又是相當復雜的！

????????我們生成語言單詞的方式可以追溯到50萬年前，也就是現代智人首次創造語言的時候。

公平地說，我們仍然處于岡瑟在生成句子時使用計算尺的時代！

????????如果你考慮一下，使用適當的詞匯和語法基本上只是遵守規則。語言規則。

????????這類似于數學。它充滿了規則。因此，為什么我可以確定 1+1=2 以及為什么計算器有效！

我們需要的是一個計算器，但對于文字！

????????是的，不同的語言遵循不同的規則，但需要遵循一些規則才能理解。語言和數學之間的一個明顯區別是，數學有固定的答案，而一個句子中可以容納的合理單詞的數量可能很大。

????????嘗試完成以下句子：我吃了一個________。想象一下接下來可能出現的單詞。英文大約有1萬個單詞。其中很多都可以在這里使用，但絕對不是全部。

????????回答“黑洞”相當于說2+2=5。此外，回答“蘋果”也不準確。為什么？因為語法！

????????在過去的幾個月里，大型語言模型（LLM）風靡全球。一些人稱其為自然語言處理的突破，而另一些人則將其視為人工智能（AI）新時代的曙光。

????????LLM已被證明非常擅長生成類似人類的文本，提高了基于語言的AI應用程序的標準。憑借龐大的知識庫和上下文理解，LLM可以應用于各個領域，從語言翻譯和內容生成到虛擬助手和客戶支持聊天機器人。

問題是：我們目前是否處于LLM的拐點，就像我們在1960年代使用電子計算器一樣？

????????在我們回答這個問題之前，LLM是如何工作的？LLM基于轉換器神經網絡，用于計算和預測接下來最適合的單詞。要構建一個強大的轉換器神經網絡，您需要在大量的文本數據上對其進行訓練。這就是為什么“預測下一個單詞/標記”方法如此有效的原因：有很多容易獲得的訓練數據。LLM將整個單詞序列作為輸入，并預測下一個最有可能出現的單詞。為了了解接下來最有可能發生的事情，他們吞下了所有的維基百科作為熱身練習，然后轉向成堆的書籍，最后是整個互聯網。

????????我們之前已經確定語言包含規則和模式。該模型通過遍歷所有這些句子隱式學習這些規則，它將使用這些句子來完成預測下一個單詞的任務。

????????在單數名詞之后，下一個單詞是以“s”結尾的動詞的可能性增加。同樣，在閱讀莎士比亞時，看到“doth”和“wherefore”等詞的機會也會增加。

????????在訓練過程中，模型用語言學習這些模式，最終成為專家！

但這夠了嗎？學習語言規則就夠了嗎？

????????因此，自我關注。簡單來說，自我注意是LLM用來理解句子或一段文本中不同單詞之間關系的一種技術。就像你關注故事的不同部分來理解它一樣，自我關注允許LLM在處理信息時更加重視句子中的某些單詞。這樣，模型可以更好地理解文本的整體含義和上下文，而不是僅僅根據語言規則盲目地預測下一個單詞。