GPT系列模型簡要概述

GPT-1:(0.117B參數量,0.8B words預訓練數據)

動機:

在RNN和Transformer之間,選擇了后者。

和《All your need is Attention》翻譯模型的Encoder-Decoder架構相比,只保留Decoder,因此去掉了Cross-Attention層。沒有使用sin、cos做位置編碼,用的是可訓練的位置編碼。0.117B參數量。

預訓練:

注意:是Embedding和最后一層分類層,參數共享的。原因:這個時期的模型參數小,Embedding參數量占的比重高,共享可以降低參數量。現在的模型參數大,Embedding占的比重小,都不再共享了。

微調(Fine Tune):

將上了特殊Token(Start、Extract、Delim),讓模型感知到在做NLP任務,而不是在做句子生成。

Similarity任務,將句子1和句子2,用不同的順序,做成2個樣本,激活值相加,最后進Linear層去分類。

多選題任務,題目+選項,得到1個數值;每個選項都得到1個數值,這些數值做softmax;

Trick: 微調任務和預訓練任務,同時進行訓練。

訓練數據:

Bert:

雙向Encoder預訓練;最后加1層線形層做下游任務微調。

效果碾壓GPT-1:

GPT-2(1.542B參數量,40GB文字訓練數據量)

動機:

下游任務,放棄特殊token,改用prompt:

模型變化:

訓練變化:

效果:比不過FineTune模型。但發現了規律:隨著參數量增大,效果仍可繼續上升。

GPT-3: (175B參數量,300B token預訓練數據量)

動機:

模型修改:

引入稀疏注意力機制(每個token只和前面的部分token進行attention計算,而不是前面全部token)

訓練數據:

不同來源的數據,采樣比例不一樣。(質量差的數據,就少采樣一些)

效果:超過了最好的Fine tune模型。

GPT-4:

效果:霸榜Top-1

Insight:?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/62471.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/62471.shtml
英文地址,請注明出處:http://en.pswp.cn/web/62471.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

汽車升級到底應不應該設置“可取消“功能

最近,汽車OTA(Over-the-Air)升級頻頻成為車主討論的熱點。有些車主反映,一些升級增加了實用功能,而另一些卻讓體驗變得復雜甚至帶來不便。于是,大家不禁發問:汽車升級功能究竟應不應該允許“可取…

單片機 PCB 設計要點

一、引言 單片機作為現代科技的重要組成部分,其 PCB 設計至關重要。本文將詳細介紹單片機 PCB 設計的要點和流程,幫助讀者更好地掌握這一關鍵技術。 在電子世界的浩瀚星海中,單片機無疑是現代科技中一顆閃爍的明珠。作為掌握嵌入式系統的基…

Django+Apscheduler 開發定時任務模塊【六】

目錄 回顧 前五個文章講述了django-autojob的部分代碼和執行邏輯 【DjangoApscheduler 開發定時任務模塊】【一】 【DjangoApscheduler 開發定時任務模塊】【二】 【DjangoApscheduler 開發定時任務模塊】【三】 【DjangoApscheduler 開發定時任務模塊】【四】 【DjangoApsch…

Ubuntu中配置交叉編譯工具的三條命令的詳細研究

關于該把下面的三條交叉編譯配置語句加到哪里,詳情見 https://blog.csdn.net/wenhao_ir/article/details/144326545 的第2點。 現在試解釋下面三條交叉編譯配置語句: export ARCHarm export CROSS_COMPILEarm-buildroot-linux-gnueabihf- export PATH$…

wlanapi.dll丟失怎么辦?有沒有什么靠譜的修復wlanapi.dll方法

在遇到各種系統文件錯誤當中,其中之一就是“wlanapi.dll文件丟失”的問題。這種問題通常發生在Windows操作系統上,特別是當系統試圖執行與無線網絡相關的任務時。wlanapi.dll是一個重要的系統文件,它負責處理Windows無線網絡服務的許多功能。…

利用ipmi工具設置ip、用戶等設置

#打開交互模式 ipmitool -I open shell #切換管理端口為lom1,即共享em1/eth0 delloem lan set shared with lom1 #設置ip、mask、gateway lan set 1 ipaddr 10.0.0.250 lan set 1 netmask 10.0.0.250 lan set 1 defgw ipaddr 10.0.0.250 #查看用戶名 user list 1 …

Python之因子分析詳細步驟

1.數學原理 1.1數學模型 1.2正交因子模型假設 注意:下面的推導都是基于這一假設。因此,這里的模型都是屬于正交因子模型。 1.3正交因子模型的協方差結構 1.4各類方差貢獻的介紹 在1.3正交因子模型的協方差結構中,我們介紹了“方差貢獻”&…

unity3d—demo(2d人物左右移動發射子彈)

目錄 人物代碼示例: 子彈代碼示例: 總結上面代碼: 注意點: 人物代碼示例: using System.Collections; using System.Collections.Generic; using UnityEngine;public class PlayerTiao : MonoBehaviour {public f…

linux之vim

一、模式轉換命令 vim主要有三種模式:命令模式(Normal Mode)、輸入模式(Insert Mode)和底線命令模式(Command-Line Mode)。 從命令模式切換到輸入模式:i:在當前光標所在…

顯存和GPU之間的通信;GPUDirect P2P,NVLink,NCCL;聚合通信和點對點通信

目錄 顯存和GPU之間的分配 顯存和GPU之間的通信 原語是什么,簡單舉例說明 GPUDirect P2P,NVLink,NCCL的全稱及解釋 聚合通信和點對點通信 聚合通信(Collective Communication) 點對點通信(Point-to-Point Communication) 為什么使用GPUDirect P2P,NVLink,NCCL…

Mysql 的 B+ 樹是否包含行數據?

在 MySQL 中,是否在 B樹 的葉子節點上存儲完整的行數據,取決于使用的 存儲引擎 和 索引類型: 聚簇索引 (Clustered Index) 葉子節點包含完整的行數據。 適用場景:MySQL InnoDB 存儲引擎的主鍵索引(或聚簇索引&#xf…

【記錄】用JUnit 4的@Test注解時報錯java.lang.NullPointerException的原因與解決方法

項目場景: 在練習黑馬點評的邏輯過期解決緩存擊穿時,編寫了一個預熱緩存數據的單元測試 SpringBootTest public class HmDianPingApplicationTests {Resourceprivate ShopServiceImpl shopService;Testpublic void testSaveShop() throws InterruptedE…

echarts使用整理

4、條形分區統計 <div ref"chartsVal1" class"chartsline-div"></div> const chartsVal1 ref(null); const chartsVal1Title ref(運行時間統計);drewCharts2(chartsVal1, chartsVal1Title.value);function drewCharts2(id, title) {const m…

【八股】HTTP

瀏覽器輸入URL之后發生的過程 瀏覽器解析URL中的協議&#xff0c;主機&#xff0c;端口&#xff0c;路徑參數等DNS域名解析得到對應的IP地址通過IP和PORT對服務器發送TCP三次握手建立連接瀏覽器發送請求服務器接受請求&#xff0c;處理并響應瀏覽器得到HTTP響應&#xff0c;對…

torch.optim.lr_scheduler.ReduceLROnPlateau

torch.optim.lr_scheduler.ReduceLROnPlateau 是 PyTorch 中的一種學習率調度器&#xff0c;主要用于在模型訓練過程中根據某些指標&#xff08;如驗證損失&#xff09;動態調整學習率。它是一種基于性能指標動態調整學習率的策略&#xff0c;而不是預定義的固定時間調整。 主要…

ubuntu下的chattts 學習6:音色固定的學習

魔搭社區 該區提供了隨機種子級音樂的試聽與下載。 spk torch.load(<PT-FILE-PATH>) params_infer_code {spk_emb: spk, } 略 測試過程&#xff1a; 1.先建一個文件夾&#xff1a;然后從上面的網站上下載了兩個。放在里面測試 2 2.測試代碼 import ChatTTS impo…

數據集的重要性:如何構建AIGC訓練集

文章目錄 一、為什么數據集對AIGC如此重要&#xff1f;1. 數據決定模型的知識邊界2. 數據質量直接影響生成效果3. 數據集多樣性提升模型魯棒性 二、構建AIGC訓練集的關鍵步驟1. 明確目標任務和生成需求2. 數據源的選擇3. 數據清洗與預處理4. 數據標注5. 數據增強 三、針對不同類…

47 基于單片機的書庫環境監測

目錄 一、主要功能 二、硬件資源 三、程序編程 四、實現現象 一、主要功能 基于51單片機&#xff0c;采用DHT11濕度傳感器檢測濕度&#xff0c;DS18B20溫度傳感器檢測溫度&#xff0c; 采用滑動變阻器連接數模轉換器模擬二氧化碳和氧氣濃度檢測&#xff0c;各項數值通過lc…

【操作系統】每日 3 題(五十五)

?個人博客&#xff1a;https://blog.csdn.net/Newin2020?typeblog &#x1f4e3;專欄地址&#xff1a;https://blog.csdn.net/newin2020/category_12820365.html &#x1f4da;專欄簡介&#xff1a;在這個專欄中&#xff0c;我將會分享操作系統面試中常見的面試題給大家~ ??…

服務器加固

1.服務器密碼復雜度 密碼最小長度&#xff0c;密碼復雜度策略 vim /etc/pam.d/system-auth --------------- #密碼配置 #ucredit&#xff1a;大寫字母個數&#xff1b;lcredit&#xff1a;小寫字母個數&#xff1b;dcredit&#xff1a;數字個數&#xff1b;ocredit&#xff1a;…