大模型系列(五)--- GPT3: Language Models are Few-Shot Learners

論文鏈接:?Language Models are Few-Shot Learners

點評: GPT3把參數規模擴大到1750億,且在少樣本場景下性能優異。對于所有任務,GPT-3均未進行任何梯度更新或微調,僅通過純文本交互形式接收任務描述和少量示例。然而,我們也發現部分數據集上GPT-3的少樣本學習能力仍有局限,以及一些因依賴大規模網絡語料訓練引發的潛在方法學問題。

?GPT系列:?

GPT1預訓練+微調,
創新點在于Task-specific input transformations。
GPT215億參數預訓練+Prompt+Predict,
創新點在于Zero-shot
Zero-shot新穎度拉滿,但模型性能拉胯
GPT31750億參數預訓練+Prompt+Predict,
創新點在于in-context learning
開創性提出in-context learning概念,是Prompting祖師爺(ICL)是Prompting范式發展的第一階段。

GPT模型指出,如果用Transformer的解碼器和大量的無標簽樣本去預訓練一個語言模型,然后在子任務上提供少量的標注樣本做微調,就可以很大的提高模型的性能。GPT2則是更往前走了一步,說在子任務上不去提供任何相關的訓練樣本,而是直接用足夠大的預訓練模型去理解自然語言表達的要求,并基于此做預測。但是,GPT2的性能太差,有效性低。

GPT3其實就是來解決有效性低的問題。Zero-shot的概念很誘人,但是別說人工智能了,哪怕是我們人,去學習一個任務也是需要樣本的,只不過人看兩三個例子就可以學會一件事了,而機器卻往往需要大量的標注樣本去fine-tune。那有沒有可能:給預訓練好的語言模型一點樣本。用這有限的樣本,語言模型就可以迅速學會下游的任務?

Note: GPT3中的few-shot learning,只是在預測是時候給幾個例子,并不微調網絡。GPT-2用zero-shot去講了multitask Learning的故事,GPT-3使用meta-learning和in-context learning去講故事。

網絡結構 Model Construction

GPT-3沿用了GPT-2的結構,但是在網絡容量上做了很大的提升,并且使用了一個Sparse Transformer的架構,具體如下:

1.GPT-3采用了96層的多頭transformer,頭的個數為 96;

2.詞向量的長度是12,888;

3.上下文劃窗的窗口大小提升至2,048個token;

4.使用了alternating dense和locally banded sparse attention

Sparse Transformer:

Sparse Transformer是一種旨在處理高維、稀疏和長序列數據的Transformer拓展版,相比于傳統的Transformer架構,Sparse Transformer通過在自注意力機制中引入稀疏性,減少了網絡中計算的數量,從而可以處理更長的序列數據。具體的:在處理高維、稀疏數據時,Sparse Transformer可以避免對所有輸入的位置進行計算,只計算與當前位置相關的位置,從而提高了計算效率

GPT3的batch size達到320萬,為什么用這么大的?

首先,大模型相比于小模型更不容易過擬合,所以更用大的、噪音更少的Batch也不會帶來太多負面影響;其次,現在訓練一個大模型會用到多臺機器做分布式計算,機器與機器之間數據并行。最后,雖然批大小增加會導致梯度計算的時間復雜度增加,但是較大的batch size通常可以提高模型的訓練效率和性能。

圖1.2:更大的模型擁有更強的利用情境信息能力

圖1.3: 聚合了模型在42個基準數據集上的性能

  • 本文的實現與GPT-2的方法相似,預訓練過程的不同只在于采用了參數更多的模型、更豐富的數據集和更長的訓練的過程。本文聚焦于系統分析同一下游任務不同設置情況下,模型情境學習能力的差異。下游任務的設置有以下四類:
  1. Fine-Tunning(FT):FT利用成千上萬的下游任務標注數據來更新預訓練模型中的權重以獲得強大的性能。但是,該方法不僅導致每個新的下游任務都需要大量的標注語料,還導致模型在樣本外預測的能力很弱。雖然GPT-3從理論上支持FT,但本文沒這么做。
  2. Few-Shot(FS):模型在推理階段可以得到少量的下游任務示例作為限制條件,但是不允許更新預訓練模型中的權重。FS過程的示例可以看本筆記圖2.1點整理的案例。FS的主要優點是并不需要大量的下游任務數據,同時也防止了模型在fine-tune階段的過擬合。FS的主要缺點是不僅與fine-tune的SOTA模型性能差距較大且仍需要少量的下游任務數據。
  3. One-Shot(1S):模型在推理階段僅得到1個下游任務示例。把1S獨立于Few-Shot和Zero-Shot討論是因為這種方式與人類溝通的方式最相似。
  4. Zero-Shot(0S):模型在推理階段僅得到一段以自然語言描述的下游任務說明。0S的優點是提供了最大程度的方便性、盡可能大的魯棒性并盡可能避免了偽相關性。0S的方式是非常具有挑戰的,即使是人類有時候也難以僅依賴任務描述而沒有示例的情況下理解一個任務。但毫無疑問,0S設置下的性能是最與人類的水平具有可比性的。

評估:?

  • 單項選擇任務:給定K個任務示例和待測樣本的上下文信息,計算分別選取每個候選詞的整個補全樣本(K個任務示例+待測樣本上下文+待測樣本候選詞)的似然,選擇能產生最大樣本似然的候選詞作為預測。

  • 二分類任務:將候選詞從0和1變為False和True等更具有語義性的文本,然后使用上述單項選擇任務的方式計算不同候選項補全的樣本似然。

  • 無候選詞任務:使用和GPT-2完全一樣參數設置的beam search方式,選擇F1相似度,BLEU和精確匹配等指標作為評價標準。

論文閱讀 A Survey of Pre-trained Language Models for Processing Scientific Text

????????????????Language Models are Few-Shot Learners

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/82663.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/82663.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/82663.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【網絡分析工具】網絡工具wireshark、TCPdump、iperf使用詳解

這里寫目錄標題 1. wireshark1.1. 過濾包1.2. 常見分析 2. tcpdump3. iperf 1. wireshark **ip.dst eq 10.0.0.21** 是用于網絡流量分析工具(例如 Wireshark 或 tcpdump)的過濾器表達式。 它的作用是篩選出所有目標IP地址為 10.0.0.21 的數據包 IP.add…

Django rest_framework 信號機制生成并使用token

1、在setting.py 中增加設置 DEFAULT_AUTHENTICATION_CLASSES:[rest_framework.authentication.BasicAuthentication,#基本的用戶名密碼驗證rest_framework.authentication.SessionAuthentication,rest_framework.authentication.TokenAuthentication,# token 認證], INSTALLE…

SQL Server To Paimon Demo by Flink standalone cluster mode

需求:使用 Flink CDC 測試 SQL Server 連接 Paimon 操作:啟動 Flink standalone cluster 后,接著啟動 Flink SQL Client,則通過 Flink SQL Client 提交 insert & select job 到該 8081 cluster Flink SQL Client 執行案例 -…

MySQL 從入門到精通(四):備份與恢復實戰——從邏輯到物理,增量備份全解析

數據是企業的核心資產,而數據庫作為數據存儲的 “心臟”,其備份與恢復策略直接關系到業務的連續性。本文將結合 MySQL 的日志體系與備份工具,深入講解邏輯備份、物理備份、增量備份的實戰操作,幫助你構建可靠的數據庫保護方案。 目…

鴻蒙編譯boost整合linux跨平臺應用

openharmony deveco 4.1支持armeabi-v7a deveco 5.0后不支持arm32位系統 boost編譯 使用deveco的寫cmake集成boost boost使用1.88的最新版本,帶cmake工具鏈 https://github.com/boostorg/boost.git boost的源碼都在sub_module中 deveco 4.1的版本sdk最高到9&am…

機器視覺的平板電腦屏幕組件覆膜應用

在現代智能制造業中,平板電腦屏幕組件覆膜工序是確保產品外觀和功能完整性的重要環節。隨著技術的進步,傳統的覆膜方式已經無法滿足高速度、高精度的生產需求。而MasterAlign視覺系統的出現,將傳統覆膜工藝轉變為智能化、自動化的生產流程。在…

android-ndk開發(10): use of undeclared identifier ‘pthread_getname_np‘

1. 報錯描述 使用 pthread 獲取線程名字, 用到 pthread_getname_np 函數。 交叉編譯到 Android NDK 時鏈接報錯 test_pthread.cpp:19:5: error: use of undeclared identifier pthread_getname_np19 | pthread_getname_np(thread_id, thread_name, sizeof(thr…

【前端基礎】6、CSS的文本屬性(text相關)

目錄內容 text-decoration:設置文本裝飾線text-transform:文本中文字的大小寫轉換text-indent:首行縮進text-align:設置文本對齊方式 一、text-decoration:設置文本裝飾線 常見值: None:沒有…

【Ansible】模塊詳解

一、ansible概述 1.1 ansible介紹 Ansible 是一個基于 Python 開發的配置管理和應用部署工具,近年來在自動化管理領域表現突出。它集成了許多傳統運維工具的優點,幾乎可以實現 Pubbet 和 Saltstack 所具備的功能。 1.2 ansible能做什么 批量處理。An…

Git實戰經驗分享:深入掌握git commit --amend的進階技巧

一、工具簡介 git commit --amend是Git版本控制系統的核心補救命令,主要用于修正最近一次提交的元數據。該命令不會產生新的提交記錄,而是通過覆蓋原提交實現版本歷史的整潔性,特別適合在本地倉庫進行提交優化。 二、核心應用場景 提交信息…

軟考 系統架構設計師系列知識點之雜項集萃(56)

接前一篇文章:軟考 系統架構設計師系列知識點之雜項集萃(55) 第91題 商業智能關注如何從業務數據中提取有用的信息,然后采用這些信息指導企業的業務開展。商業智能系統主要包括數據預處理、建立()、數據分…

Spark任務調度流程詳解

1. 核心調度組件 DAGScheduler:負責將Job拆分為Stage,處理Stage間的依賴關系。 TaskScheduler:將Task分配到Executor,監控任務執行。 SchedulerBackend:與集群管理器(如YARN、K8s)通信&#x…

第04章—技術突擊篇:如何根據求職意向進行快速提升與復盤

經過上一講的內容闡述后,咱們定好了一個與自身最匹配的期望薪資,接著又該如何準備呢? 很多人在準備時,通常會選擇背面試八股文,這種做法效率的確很高,畢竟能在“八股文”上出現的題,也絕對是面…

Go語言的逃逸分析是怎么進行的

💝💝💝歡迎來到我的博客,很高興能夠在這里和您見面!希望您在這里可以感受到一份輕松愉快的氛圍,不僅可以獲得有趣的內容和知識,也可以暢所欲言、分享您的想法和見解。 非常期待和您一起在這個小…

ARM 芯片上移植 Ubuntu 操作系統詳細步驟

一、準備工作 (一)硬件準備 ARM 開發板:確保 ARM 開發板的型號與 Ubuntu 官方支持的 ARM 架構兼容,常見的 ARM 架構有 ARMv7、ARMv8 等。例如樹莓派系列開發板,廣泛用于 ARM 系統移植,其采用 ARM 架構。存…

兩臺服務器之前共享文件夾

本文環境 服務器A:ubuntu24.22系統 IP:10.0.8.1 服務器B:ubuntu24.22系統 IP:10.0.8.10 本操作旨在將服務器B的/opt/files目錄共享給服務器A得/opt/files 在 B 服務器上設置共享 安裝 NFS 服務: sudo apt -y install nfs-kernel-server編輯/etc/exports文件&…

超市銷售管理系統 - 需求分析階段報告

1. 系統概述 超市銷售管理系統是為中小型超市設計的信息化管理解決方案,旨在通過信息化手段實現商品管理、銷售處理、庫存管理、會員管理等核心業務流程的數字化,提高超市運營效率和服務質量,同時為管理者提供決策支持數據。 2. 業務需求分…

GPIO控制

GPIO是General Purpose I/O的縮寫,即通用輸入輸出端口,簡單來說就是MCU/CPU可控制的引腳, 這些引腳通常有多種功能,最基本的是高低電平輸入檢測和輸出,部分引腳還會與主控器的片上外設綁定, 如作為串口、I2…

Docker 部署Nexus倉庫 搭建Maven私服倉庫 公司內部倉庫

介紹 Nexus 是廣泛使用的倉庫管理工具,常用于管理 Java 構件(如 JAR、WAR、EAR 文件)。它可以作為一個本地的 Maven 倉庫,用來存儲和管理項目的依賴包和構建產物。支持多種倉庫類型,能夠幫助開發團隊更高效地管理構件…

Android 13 默認打開 使用屏幕鍵盤

原生設置里,系統-語言和輸入法-實體鍵盤-使用屏幕鍵盤 選項, 關閉時,外接物理鍵盤,如USB鍵盤,輸入時不會彈出軟鍵盤。 打開時,外接物理鍵盤,如USB鍵盤,輸入時會彈出軟鍵盤。 這個選…