大語言模型:LLM的概念是個啥?

一、說明

????????大語言模型(維基:LLM-?large language model)是以大尺寸為特征的語言模型。它們的規模是由人工智能加速器實現的,人工智能加速器能夠處理大量文本數據,這些數據大部分是從互聯網上抓取的。 [1]所構建的人工神經網絡可以包含數千萬到數十億的權重,并使用自監督學習和半監督學習進行(預)訓練。 Transformer 架構有助于加快訓練速度。[2]替代架構包括專家混合(MoE),它是由 Google 提出的,從 2017 年的稀疏門控架構開始,[3] 2021 年的 Gshard[4] 到 2022 年的 GLaM。?

????????作為語言模型,它們的工作原理是獲取輸入文本并重復預測下一個標記或單詞。[6]到 2020 年,微調是模型能夠完成特定任務的唯一方法。然而,較大尺寸的模型,例如 GPT-3,可以通過快速設計來實現類似的結果。 [7]他們被認為獲得了人類語言語料庫中固有的語法、語義和“本體論”的具體知識,但也獲得了語料庫中存在的不準確和偏見。 [8]

二、度量尺度演進史

????????在17世紀初,一位名叫埃德蒙·岡特(Edmund Gunter)的數學家和天文學家面臨著前所未有的天文學挑戰。計算行星的復雜運動和預測日食需要的不僅僅是直覺——它需要掌握復雜的對數和三角方程。因此,就像任何精明的創新者一樣,岡瑟決定從頭開始構建它!他創造了一種模擬計算設備,最終成為所謂的計算尺。

????????計算尺是一個長30厘米的矩形木塊,由兩部分組成:固定框架和滑動部分。固定框架容納固定對數刻度,而滑動部分容納可移動刻度。要使用計算尺,您需要了解對數的基本原理以及如何對齊乘法、除法和其他數學運算的刻度。您必須滑動可移動部分以對齊設置數字,讀取結果并考慮小數點放置。哎呀,這真的很復雜!

計算尺

????????大約300年后,貝爾潘奇公司于1961年推出了第一臺電子桌面計算器“ANITA Mk VII”。在接下來的幾十年里,電子計算器變得更加復雜,具有附加功能。以前需要大量手動計算的工作大大減少了工時,使員工能夠專注于工作中更具分析和創造性的方面。因此,現代電子計算器不僅重塑了工作角色,還為提高解決問題的能力鋪平了道路。

計算器是數學完成方式的一步變化。語言呢?

三、語言度量才剛剛開始

????????想想你是如何生成句子的。你首先需要有一個想法。接下來,你需要知道一堆單詞(詞匯)。然后,您需要能夠將它們放在適當的句子(語法)中。嘖,又是相當復雜的!

????????我們生成語言單詞的方式可以追溯到50萬年前,也就是現代智人首次創造語言的時候。

公平地說,我們仍然處于岡瑟在生成句子時使用計算尺的時代!

????????如果你考慮一下,使用適當的詞匯和語法基本上只是遵守規則。語言規則。

????????這類似于數學。它充滿了規則。因此,為什么我可以確定 1+1=2 以及為什么計算器有效!

我們需要的是一個計算器,但對于文字!

????????是的,不同的語言遵循不同的規則,但需要遵循一些規則才能理解。語言和數學之間的一個明顯區別是,數學有固定的答案,而一個句子中可以容納的合理單詞的數量可能很大。

????????嘗試完成以下句子:我吃了一個________。想象一下接下來可能出現的單詞。英文大約有1萬個單詞。其中很多都可以在這里使用,但絕對不是全部。

????????回答“黑洞”相當于說2+2=5。此外,回答“蘋果”也不準確。為什么?因為語法!

????????在過去的幾個月里,大型語言模型(LLM)風靡全球。一些人稱其為自然語言處理的突破,而另一些人則將其視為人工智能(AI)新時代的曙光。

????????LLM已被證明非常擅長生成類似人類的文本,提高了基于語言的AI應用程序的標準。憑借龐大的知識庫和上下文理解,LLM可以應用于各個領域,從語言翻譯和內容生成到虛擬助手和客戶支持聊天機器人。

問題是:我們目前是否處于LLM的拐點,就像我們在1960年代使用電子計算器一樣?

????????在我們回答這個問題之前,LLM是如何工作的?LLM基于轉換器神經網絡,用于計算和預測接下來最適合的單詞。要構建一個強大的轉換器神經網絡,您需要在大量的文本數據上對其進行訓練。這就是為什么“預測下一個單詞/標記”方法如此有效的原因:有很多容易獲得的訓練數據。LLM將整個單詞序列作為輸入,并預測下一個最有可能出現的單詞。為了了解接下來最有可能發生的事情,他們吞下了所有的維基百科作為熱身練習,然后轉向成堆的書籍,最后是整個互聯網。

????????我們之前已經確定語言包含規則和模式。該模型通過遍歷所有這些句子隱式學習這些規則,它將使用這些句子來完成預測下一個單詞的任務。

深度神經網絡

????????在單數名詞之后,下一個單詞是以“s”結尾的動詞的可能性增加。同樣,在閱讀莎士比亞時,看到“doth”和“wherefore”等詞的機會也會增加。

????????在訓練過程中,模型用語言學習這些模式,最終成為專家!

但這夠了嗎?學習語言規則就夠了嗎?

語言很復雜,一個詞可能根據上下文意味著多種事物。

????????因此,自我關注。簡單來說,自我注意是LLM用來理解句子或一段文本中不同單詞之間關系的一種技術。就像你關注故事的不同部分來理解它一樣,自我關注允許LLM在處理信息時更加重視句子中的某些單詞。這樣,模型可以更好地理解文本的整體含義和上下文,而不是僅僅根據語言規則盲目地預測下一個單詞。

自我注意機制

如果LLM是單詞的計算器,只是預測下一個單詞,它如何回答我所有的問題?

????????當你要求一個大型語言模型做一些聰明的事情——而且它有效——你很有可能要求它做一些它已經看到數千個例子的事情。即使你想出了一些非常獨特的東西,比如:

“給我寫一首關于逆戟鯨吃雞的詩”

在海浪中,一個看不見的景象,一只逆戟鯨捕獵,迅速而敏銳,在海洋領域,舞蹈開始,作為雞的命運,逆戟鯨獲勝。

它用強大的下顎撞擊獵物,羽毛漂浮,漂流,以自然的方式,編織一個故事,生與死合而為一。

~ 聊天

????????很不錯吧?得益于其自我注意機制,它可以有效地混合和匹配相關信息,以構建合理而連貫的響應。

????????在訓練過程中,LLM學習識別他們所接觸到的數據中單詞和短語之間的模式,關聯和關系。由于這種廣泛的培訓和微調,LLM可以表現出新興屬性,例如執行語言翻譯,摘要,問答甚至創意寫作的能力。這些功能通常超出了模型中顯式編程的范圍,并且可能非常出色!

大型語言模型是否智能?

????????電子計算器已經存在了六十多年。該工具本身已經有了突飛猛進的改進,但它從未被認為是智能的。為什么?

圖靈測試 - 圖靈測試是一種看似簡單的方法,用于確定機器是否表現出類似人類的智能:如果機器能夠以與人類無法區分的方式與人類進行對話,則認為它具有人類智能。

????????計算器從未接受過圖靈測試,因為它不像人類那樣用同樣的語言進行交流,只有數學語言。另一方面,LLM產生人類語言。它的整個訓練過程圍繞著模仿人類語言。因此,它可以“以與人類無法區分的方式與人類進行對話”也就不足為奇了。

????????因此,用“智能”這個詞來描述LLM有點棘手,因為對于智能的真正含義沒有明確的共識。考慮某物是否智能的一種方法是,它是否做了有趣、有用且不是非常明顯的事情。LLM確實屬于這一類。不幸的是,我完全不同意這種解釋。

我將智力定義為擴展知識前沿的能力。

????????在撰寫本文時,經過訓練來預測下一個標記/單詞的機器仍然無法擴展知識的前沿。

????????但是,它可以對已訓練的數據進行插值。沒有明確理解單詞背后的邏輯,也沒有存在的知識樹。因此,它將永遠無法產生異常的想法并實現洞察力的飛躍。它將始終提供連貫的答案,在某種程度上是平均響應。

那么,這對我們人類意味著什么呢?

????????我們應該把LLM更像一個單詞的計算器。永遠不要把你的思維完全外包給語言模型。

????????與此同時,隨著這些模型呈指數級增長,我們可能會感到越來越不知所措和微不足道。解決這個問題的方法是始終對看似無關的想法保持好奇。表面上看起來不連貫的想法,但基于我們與周圍環境的互動而有意義。目標是生活在知識的邊緣,創造和連接新的點。

????????如果你在這個層面上工作,所有形式的技術,無論是計算器還是大型語言模型,都會成為你可以使用的工具,而不是你需要擔心的生存威脅。

參考資料: 達文·維賈揚

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/36611.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/36611.shtml
英文地址,請注明出處:http://en.pswp.cn/news/36611.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

02 - git 文件重命名

查看所有文章鏈接:(更新中)GIT常用場景- 目錄 文章目錄 1. 第一種方式2. 第二種方式 1. 第一種方式 mv kongfu_person.txt kongfu.txt git add .2. 第二種方式 git mv kongfu_person.txt kongfu.txt

微服務實戰項目-學成在線-項目優化(redis緩存優化)

微服務實戰項目-學成在線-項目優化(redis緩存優化) 1 優化需求 視頻播放頁面用戶未登錄也可以訪問,當用戶觀看試學課程時需要請求服務端查詢數據,接口如下: 1、根據課程id查詢課程信息。 2、根據文件id查詢視頻信息。 這些接口在用戶未認…

Unity 人物連招(三段連擊)

一: 連招思路 首先人物角色上有三個攻擊實例對象 Damage,每一個damage定義了攻擊的傷害值,攻擊距離,觸發器名稱,傷害的發起者,攻擊持續時間,攻擊重置時間,傷害的碰撞框大小等字段: …

【WordPress】給你一萬個不使用WP-Cron定時機制的理由

這篇文章也可以在我的博客中查看 定時任務 cron Cron是Unix/Linux系統中的任務調度工具,允許用戶在預定的時間和日期間隔自動運行命令或腳本 它通過Cron表達式定義任務執行的頻率,該表達式包含分鐘、小時、日期等信息 我們可以利用Cron來定期執行維護…

MySQL表的增刪查改

目錄 一,新增 二,查詢 2.1 全列查詢 2.2 指定列查詢 2.3 查詢字段為表達式 2.4 別名 - as 2.5 去重 - distinct 2.6 排序 - order by 2.7 條件查詢 - where 2.8 分頁查詢 - limit 三,修改 - update 四,刪除 - delete 一…

@Mapper POJO 與DTO之間的class屬性轉換映射

Mapper注解基于mapStract 框架實現對象轉換&#xff1a;MapStract java bean 屬性轉換映射 引用轉自&#xff1a;org.mapstruct:mapstruct 包&#xff08;Mapper、Mapping&#xff09;的使用 依賴包&#xff1a; <!--mapStruct依賴--> <dependency><groupId&g…

Spring-2-透徹理解Spring 注解方式創建Bean--IOC

今日目標 學習使用XML配置第三方Bean 掌握純注解開發定義Bean對象 掌握純注解開發IOC模式 1. 第三方資源配置管理 說明&#xff1a;以管理DataSource連接池對象為例講解第三方資源配置管理 1.1 XML管理Druid連接池(第三方Bean)對象【重點】 數據庫準備 -- 創建數據庫 create …

純前端 -- html轉pdf插件總結

一、html2canvasjsPDF&#xff08;文字會被截斷&#xff09;&#xff1a; 將HTML元素呈現給添加到PDF中的畫布對象&#xff0c;不能僅使用jsPDF&#xff0c;需要html2canvas或rasterizeHTML html2canvasjsPDF的具體使用鏈接 二、html2pdf&#xff08;內容顯示不全文字會被截斷…

[RoarCTF 2019Online Proxy]sql巧妙盲注

文章目錄 [RoarCTF 2019Online Proxy]sql巧妙盲注解題腳本腳本解析 [RoarCTF 2019Online Proxy]sql巧妙盲注 解題 在源代碼界面發現&#xff1a;Current Ip 我們會聯想到&#xff1a;X-Forwarded-For來修改ip&#xff1a; 結果我們發現&#xff0c;response會講Last Ip回顯出…

Semaphore 原理分析

分析下SemaPhore吧&#xff0c;也是基于AQS實現的&#xff0c;對并發進行控制的工具類&#xff0c;看下其怎么實現的&#xff0c; Semaphore semaphore new Semaphore(3);semaphore.acquire();semaphore.release();Semaphore 常用于控制并發量&#xff0c;比如這里設置為3&…

請教電路高手幫忙Review一下是否可行?

想要實現STM32 3.3V GPIO 控制5V電源通斷&#xff0c;默認狀態為&#xff1a;接通。 使用如下電路圖有無問題&#xff1f;參數是否需要調整&#xff1f;

8.14 ARM

1.練習一 .text 文本段 .global _start 聲明一個_start函數入口 _start: _start標簽&#xff0c;相當于C語言中函數mov r0,#0x2mov r1,#0x3cmp r0,r1beq stopsubhi r0,r0,r1subcc r1,r1,r0stop: stop標簽&#xff0c;相當于C語言中函數b stop 跳轉到stop標簽下的第一條…

C++的IO流

C語言的輸入與輸出 C語言中我們用到的最頻繁的輸入輸出方式就是scanf ()與printf()。 scanf(): 從標準輸入設備(鍵盤)讀取數據&#xff0c;并將值存放在變量中。printf(): 將指定的文字/字符串輸出到標準輸出設備(屏幕)。注意寬度輸出和精度輸出控制。C語言借助了相應的緩沖區來…

javaScript:如何獲取html中的元素對象

目錄 前言&#xff1a; 方法 1.通過id獲取元素 2.通過標簽名獲取元素 3.通過類名class獲取元素 獲取body的方法 1.document.getElementsByTagName(body)[0] 2.document.body 相關代碼 前言&#xff1a; 通過獲取HTML中的元素對象&#xff0c;JavaScript可以對網頁進行動…

學生成績管理系統V1.0

某班有最多不超過30人&#xff08;具體人數由鍵盤輸入&#xff09;參加某門課程的考試&#xff0c;用一維數組作函數參數編程實現如下學生成績管理&#xff1a; &#xff08;1&#xff09;錄入每個學生的學號和考試成績&#xff1b; &#xff08;2&#xff09;計算課程的總分…

Vue [Day7]

文章目錄 自定義創建項目ESlint 代碼規范vuex 概述創建倉庫向倉庫提供數據使用倉庫中的數據通過store直接訪問通過輔助函數 mapState&#xff08;簡化&#xff09;mutations傳參語法(同步實時輸入&#xff0c;實時更新輔助函數 mapMutationsaction &#xff08;異步輔助函數map…

IntelliJ IDEA 2021/2022關閉雙擊shift全局搜索

我這里演示的是修改&#xff0c;刪除是右鍵的時候選擇Remove就好了 IDEA左上角 File-->Settings 找到Navigate -->Search Everywhere &#xff0c;右鍵添加快捷鍵。 OK --> Apply應用

C語言學習之const關鍵字的使用

const修飾變量&#xff1a;const關鍵字修飾變量時&#xff0c;該變量表示是一個只讀變量&#xff0c;不能通過變量名修改變量的值&#xff1b;案例&#xff1a; const int m 20; int const n 30; m 30;//不可以賦值&#xff0c;因為m是只讀變量 n 20;//不可以賦值&#xf…

初始多線程

目錄 認識線程 線程是什么&#xff1a; 線程與進程的區別 Java中的線程和操作系統線程的關系 創建線程 繼承Thread類 實現Runnable接口 其他變形 Thread類及其常見方法 Thread的常見構造方法 Thread類的幾個常見屬性 Thread類常用的方法 啟動一個線程-start() 中斷…

前端食堂技術周刊第 93 期:7 月登陸 Web 平臺的新功能、Node.js 工具箱、Nuxt3 開發技巧、MF 重構方案

美味值&#xff1a;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f; 口味&#xff1a;橙橙冰萃美式 食堂技術周刊倉庫地址&#xff1a;https://github.com/Geekhyt/weekly 大家好&#xff0c;我是童歐巴。歡迎來到前端食堂技術周刊&#xff0c;我們先來…