大模型發展歷程

大模型的發展歷程

  • 大語言模型的發展歷程
    • 一、語言模型是個啥?
    • 二、語言模型的 “進化史”
      • (一)統計語言模型(SLM)
      • (二)神經語言模型(NLM)
      • (三)預訓練語言模型(PLM)
      • (四)大語言模型(LLM)
    • 三、語言模型的 “秘密武器”
      • (一)模型參數規模
      • (二)數據數量和質量
    • 四、未來展望

大語言模型的發展歷程

哈嘍~今天咱們來好好嘮嘮大語言模型。這可不是什么高深莫測的玩意兒,它就在咱們身邊,像 ChatGPT、文心一言這些,都是大語言模型的 “明星成員”。咱今天就來扒一扒它的 “老底”。
在這里插入圖片描述

一、語言模型是個啥?

簡單來說,語言模型就是能讓計算機 “懂得” 人類語言的模型。它能預測下一個詞是什么,也能生成像模像樣的句子。就像咱們學外語,剛開始可能只會背單詞,后來就能用單詞造句,語言模型就是讓計算機學會 “造句” 的。

舉個例子,輸入 “今天天氣很”,語言模型就能預測下一個詞可能是 “好”、“晴朗” 之類的詞。是不是挺神奇的?

二、語言模型的 “進化史”

(一)統計語言模型(SLM)

這算是語言模型的 “老祖宗” 了。它基于統計學,用鏈式法則來建模句子序列。比如,要計算 “我愛學習” 這句話出現的概率,就得算出 “我” 出現的概率、“愛” 在 “我” 后面出現的概率、“學習” 在 “愛” 后面出現的概率,然后把這些概率乘起來。

用公式表示就是: p ( I , a m , f i n e ) = p ( I ∣ S T A R T ) ? p ( a m ∣ I ) ? p ( f i n e ∣ I , a m ) p(I,am,fine) = p(I|START) * p(am|I) * p(fine|I,am) p(I,am,fine)=p(ISTART)?p(amI)?p(fineI,am)

但有個麻煩,就是如果有些詞組合在訓練數據里沒出現過,概率就算不出來。這時候就得用 “平滑” 和 “回退” 來解決。平滑就像是給沒見過的詞也分一點概率,回退則是當高階模型算不出來時,用低階模型來代替。

案例:假設我們有 “學生打開書”、“學生打開筆記本” 這兩句話,如果要算 “學生打開考試” 這句話的概率,發現 “打開考試” 這個組合沒出現過,那就可以用平滑方法,給 “打開考試” 也分配一點概率。

(二)神經語言模型(NLM)

隨著深度學習的發展,神經語言模型登場了。它用神經網絡來學習詞向量,然后預測當前詞。比如,用多層感知機(MLP)把單詞映射到詞向量,再由神經網絡預測當前時刻詞匯。

它的訓練目標函數是:
1 N ∑ i = 1 N log ? p ( w i ∣ w i ? n , … , w i ? 1 ) \frac{1}{N}\sum_{i=1}^{N}\log p\left(w_{i} \mid w_{i-n}, \ldots, w_{i-1}\right) N1?i=1N?logp(wi?wi?n?,,wi?1?)

循環神經網絡(RNN)也是神經語言模型的一種。它的基本單元是:
h t = σ ( W h x x t + W h h h t ? 1 + b ) h_t = \sigma(W_{hx} x_t + W_{hh} h_{t-1} + b) ht?=σ(Whx?xt?+Whh?ht?1?+b)
y t = W h y h t + c y_t = W_{hy} h_t + c yt?=Why?ht?+c

它能處理序列數據,就像咱們看文章一樣,前面的詞會影響后面的詞。不過,RNN 有 “短記性”,對離得很遠的詞的記憶會變弱。

案例:用 RNN 來預測下一個詞。比如輸入 “我今天吃了一頓”,它會根據前面的詞來預測下一個詞可能是 “飯”、“美食” 之類的。

(三)預訓練語言模型(PLM)

預訓練語言模型是在大量語料上進行無監督預訓練,然后在特定任務上微調的模型。比如,GPT 系列是自回歸語言模型,它能根據前面的詞生成后面的詞;BERT 是自編碼語言模型,它能理解詞在句子中的含義。

GPT 的目標函數是:
L = ? ∑ i = 1 n log ? p ( w i ∣ w 1 , … , w i ? 1 ) \mathcal{L} = -\sum_{i=1}^{n} \log p\left(w_{i} \mid w_{1}, \ldots, w_{i-1}\right) L=?i=1n?logp(wi?w1?,,wi?1?)

BERT 的目標函數是:
L = ? ∑ i = 1 n ( y i log ? p ( w i ) + ( 1 ? y i ) log ? ( 1 ? p ( w i ) ) ) \mathcal{L} = -\sum_{i=1}^{n} \left( y_{i} \log p\left(w_{i}\right) + (1 - y_{i}) \log \left(1 - p\left(w_{i}\right)\right) \right) L=?i=1n?(yi?logp(wi?)+(1?yi?)log(1?p(wi?)))

案例:GPT-3 有 1750 億參數,經過海量文本預訓練,能生成各種文本,像寫文章、寫代碼都不在話下。

(四)大語言模型(LLM)

大語言模型是參數規模更大、經過海量數據預訓練的模型。它的特點就是 “大力出奇跡”,能處理各種復雜任務,像問答、生成、翻譯等。

案例:ChatGPT 是大語言模型的代表,它能和人進行多輪對話,回答各種問題,還能寫故事、寫詩。

三、語言模型的 “秘密武器”

(一)模型參數規模

參數規模越大,模型能學到的知識就越多。就像一個學生,讀書越多,知識就越豐富。比如,Chinchilla 模型有 700 億參數,經過 1.4 萬億個詞訓練,雖然比一些大模型參數少,但性能卻很不錯。

(二)數據數量和質量

數據就是模型的 “糧食”,沒有足夠的數據,模型就學不會東西。而且,數據質量也很重要。如果數據里有很多錯誤,那模型學到的東西也會有問題。

案例:有些語言模型用維基百科、新聞文章這些高質量數據來訓練,所以能生成比較準確的文本。

四、未來展望

大語言模型還在不斷發展,未來可能會更智能、更高效。它可能會在更多領域發揮作用,像教育、醫療、金融等。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/71657.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/71657.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/71657.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

springboot項目使用中創InforSuiteAS替換tomcat

springboot項目使用中創InforSuiteAS替換tomcat 學習地址一、部署InforSuiteAS1、部署2、運行 二、springboot項目打包成war包 特殊處理1、pom文件處理1、排除內嵌的tomcat包2、新增tomcat、javax.servlet-api3、打包格式設置為war4、打包后的項目名稱5、啟動類修改1、原來的不…

Seata

Seata是一款開源的分布式事務解決方案,由阿里巴巴發起并維護,旨在幫助應用程序管理和協調分布式事務。以下是對Seata的詳細介紹: 一、概述 Seata致力于提供高性能和簡單易用的分布式事務服務,它為用戶提供了AT、TCC、SAGA和XA等…

Pytest自動化框架

Pytest簡單介紹 下載pytest pip install pytest 第一章:Pytest console命令 默認需要test開頭的py模塊,test_開頭的方法 1.pytest 執行pytest命令會自動匹配到test開頭或者結尾的文件 將其作為測試用例文件執行,在測試用例文件中自動匹配到test開…

【spring】注解版

1.管理bean 之前我們要想管理bean都是在xml文件中將想要添加的bean手動添加進ioc容器中,這樣太過麻煩了,在 Java 開發里,針對一些較為繁瑣的操作,通常會有相應的簡化方式,這個也不例外,就是spring提供的注…

RV1126+FFMPEG多路碼流監控項目

一.項目介紹: 本項目采用的是易百納RV1126開發板和CMOS攝像頭,使用的推流框架是FFMPEG開源項目。這個項目的工作流程如下(如上圖):通過采集攝像頭的VI模塊,再通過硬件編碼VENC模塊進行H264/H265的編碼壓縮,并把壓縮后的…

13.IIC-EEPROM(AT24C02)

1.為什么需要EEPROM? 在單片機開發中,斷電數據保存是常見的需求。例如,智能家居設備的用戶設置、電子秤的校準參數等都需要在斷電后仍能保留。AT24C02作為一款IIC接口的EEPROM芯片,具備以下優勢: 非易失性存儲:斷電后…

ubuntu22.04安裝P104-100一些經驗(非教程)

一、版本: 系統:ubuntu-22.04.5-desktop-amd64.iso Nvidia 驅動:NVIDIA-Linux-x86_64-570.124.04.run。官網下載即可 二、經驗 1、通用教程? 直接關鍵詞搜“ubuntu p104”會有一些教程,比如禁用nouveau等 安裝參考&#xff1a…

TCP7680端口是什么服務

WAF上看到有好多tcp7680端口的訪問信息 于是上網搜索了一下,確認TCP7680端口是Windows系統更新“傳遞優化”功能的服務端口,個人理解應該是Windows利用這個TCP7680端口,直接從內網已經具備更新包的主機上共享下載該升級包,無需從微…

OSI七大模型 --- 發送郵件

我想通過電子郵件發送一張照片給我的朋友。從我開始寫郵件到發送成功,按照這個順序講一下我都經歷了OSI模型的哪一層,對應的層使用了什么樣的協議? 完整流程示例(補充物理層細節) 假設你通過Wi-Fi發送郵件&#xff1a…

LINUX網絡基礎 [一] - 初識網絡,理解網絡協議

目錄 前言 一. 計算機網絡背景 1.1 發展歷程 1.1.1 獨立模式 1.1.2 網絡互聯 1.1.3 局域網LAN 1.1.4 廣域網WAN 1.2 總結 二. "協議" 2.1 什么是協議 2.2 網絡協議的理解 2.3 網絡協議的分層結構 三. OSI七層模型(理論標準) …

【LLms】關鍵詞提取

1. 停用詞 在文本處理和信息檢索領域,停用詞(Stop Words)是指在文本中出現頻率較高,但通常不包含實際語義信息或對語義理解貢獻較小的詞匯。這些詞匯通常是一些常見的功能詞,如冠詞、介詞、連詞、代詞、感嘆詞、助動詞…

1998-2022年各地級市三次產業占比/地級市國內生產總值構成/地級市第一產業占比、第二產業占比、第三產業占比數據(全市)

1998-2022年各地級市三次產業占比/地級市國內生產總值構成/地級市第一產業占比、第二產業占比、第三產業占比數據(全市) 1、時間:1998-2022年 2、指標:第一產業占比、第二產業占比、第三產業占比 3、來源:城市統計年…

基于STM32的簡易出租車計費設計(Proteus仿真+程序+設計報告+原理圖PCB+講解視頻)

這里寫目錄標題 1.主要功能資料下載鏈接:2.仿真3. 程序4. 原理圖PCB5. 實物圖6. 設計報告7. 下載鏈接 基于STM32的簡易出租車計費設計(Proteus仿真程序設計報告原理圖PCB講解視頻) 仿真圖proteus 8.9 程序編譯器:keil 5 編程語言&#xff1…

HAL庫啟動ADC的三個函數的區別

HAL_ADC_Start 應該是啟動ADC轉換的最基本函數。只是啟動一次轉換,然后需要用戶自己去查詢轉換是否完成,或者可能只是單次轉換。比如,當調用這個函數后,ADC開始轉換,但程序需要不斷檢查某個標志位來看轉換是否完成&am…

EXIT原理和使用

要用到的控制器NVIC(中斷總控制器)、EXIT(外部中斷控制器) (EXIT是NVIC是下屬) GPIO外部中斷簡圖 EXIT的基本概念 EXIT主要特性 EXTI工作原理框圖(從輸入線開始看) 6個寄存器 EXTI和IO的映射關系 AFIO簡介 EXTI與IO對應關系 如…

經典核密度估計(Kernel Density Estimation):從直覺到數學

經典核密度估計(Kernel Density Estimation):從直覺到數學 作為一名在大模型時代進入深度學習領域的研究者,你可能對 Transformer、擴散模型等現代技術駕輕就熟。然而,在閱讀一些生成模型的文獻(如 Explic…

Halcon 算子 一維碼檢測識別、項目案例

首先我們要明白碼的識別思路 把窗口全部關閉讀取新的圖片圖像預處理創建條碼模型設置模型參數搜索模型獲取條碼結果顯示條碼結果 圖像預處理和條碼增強 對比度太低: scale_image(或使用外部程序scale_image_range),增強圖像的對比度圖像模糊…

vue-cli3+vue2+elementUI+avue升級到vite+vue3+elementPlus+avue總結

上一個新公司接手了一個vue-cli3vue2vue-router3.0elementUI2.15avue2.6的后臺管理項目,因為vue2在2023年底已經不更新維護了,elementUI也只支持到vue2,然后總結了一下vue3的優勢,最后批準升級成為了vitevue3vue-router4.5element…

SpringBoot實戰(三十五)微服務集成OAuth2.0(UAA)

目錄 一、知識回顧1.1 什么是 OAuth2 協議?1.2 OAuth2 的4個角色1.3 OAuth2 的3種令牌1.4 OAuth2 的5種認證方式1.5 OAuth2 內置接口地址 二、UAA介紹2.1 概述2.2 UAA的主要功能2.3 UAA 的應用場景 三、微服務集成3.1 集成示例介紹3.2 集成測試 一、知識回顧 在進行…

紅果短劇安卓+IOS雙端源碼,專業短劇開發公司

給大家拆解一下紅果短劇/河馬短劇,這種看光解鎖視頻,可以掙金幣的短劇APP。給大家分享一個相似的短劇APP源碼,這個系統已接入穿山甲廣告、百度廣告、快手廣告、騰訊廣告等,類似紅果短劇的玩法,可以看劇賺錢&#xff0c…