面試篇 - GPT-1(Generative Pre-Training 1)

GPT-1(Generative Pre-Training 1)

?模型結構

  • Transformer only-decoder:GPT-1模型使用了一個12層的Transformer解碼器。具體細節與標準的Transformer相同,但位置編碼是可訓練的。

  • 注意力機制

    • 原始Transformer的解碼器包含兩種注意力機制:交叉注意力(cross-attention,其中鍵和值來自編碼器,查詢來自解碼器)和掩碼多頭自注意力(mask multi-head attention)。

    • GPT-1模型只使用了掩碼多頭自注意力。

圖示說明

  • 左側圖示:展示了Transformer的架構,包括12層的解碼器、層歸一化(Layer Norm)、前饋網絡(Feed Forward)、掩碼多頭自注意力(Masked Multi Self Attention)以及文本和位置嵌入(Text & Position Embed)。

  • 右側圖示展示了不同任務的輸入轉換和訓練目標。所有結構化的輸入都被轉換為標記序列,然后通過預訓練模型處理,最后通過一個線性-softmax層進行分類。

不同任務的訓練目標

1. 分類(Classification)

輸入格式Start Text Extract

  • 解釋:輸入文本以“Start”標記開始,后面跟著要分類的文本,最后以“Extract”標記結束。

  • 處理流程

    1. 輸入文本經過文本和位置嵌入(Text & Position Embed)。

    2. 嵌入后的文本輸入到Transformer模型中進行處理。

    3. Transformer的輸出經過一個線性層(Linear),輸出分類結果。

2. 蘊含(Entailment)

輸入格式Start Premise Delim Hypothesis Extract

  • 解釋:輸入包含兩個部分,前提(Premise)和假設(Hypothesis),中間用分隔符(Delim)分開,以“Start”標記開始,最后以“Extract”標記結束。

  • 處理流程

    1. 輸入文本經過文本和位置嵌入(Text & Position Embed)。

    2. 嵌入后的文本輸入到Transformer模型中進行處理。

    3. Transformer的輸出經過一個線性層(Linear),輸出蘊含關系的分類結果(例如,前提是否蘊含假設)。

3. 相似性(Similarity)

輸入格式Start Text 1 Delim Text 2 Extract

  • 解釋:輸入包含兩個文本,中間用分隔符(Delim)分開,以“Start”標記開始,最后以“Extract”標記結束。

  • 處理流程

    1. 輸入文本經過文本和位置嵌入(Text & Position Embed)。

    2. 嵌入后的文本輸入到兩個Transformer模型中進行處理(每個文本一個Transformer)。

    3. 兩個Transformer的輸出經過一個線性層(Linear),輸出兩個文本的相似性得分。

4. 多項選擇(Multiple Choice)

輸入格式Start Context Delim Answer 1 Extract

  • 解釋:輸入包含一個上下文(Context)和多個可能的答案(Answer),每個答案之間用分隔符(Delim)分開,以“Start”標記開始,最后以“Extract”標記結束。

  • 處理流程

    1. 輸入文本經過文本和位置嵌入(Text & Position Embed)。

    2. 嵌入后的文本輸入到Transformer模型中進行處理。

    3. Transformer的輸出經過一個線性層(Linear),輸出每個答案的選擇概率。

訓練范式

訓練范式(Training Paradigm)是指在機器學習和深度學習中,用于訓練模型的一系列方法和策略。它定義了模型如何從數據中學習以及如何優化其參數。不同的訓練范式適用于不同的任務和數據類型,常見的訓練范式包括:
詳見上一篇文章

  1. 監督學習(Supervised Learning)

  2. 無監督學習(Unsupervised Learning)

  3. 半監督學習(Semi-supervised Learning)

  4. 自監督學習(Self-supervised Learning)

  5. 強化學習(Reinforcement Learning)

  6. 遷移學習(Transfer Learning)

  7. 多任務學習(Multi-task Learning)
    ?

GPT-1模型的訓練范式

  • 自監督預訓練 + 有監督微調:主要思想是無監督學習。

預訓練的標準語言模型目標函數

  • 目標函數:根據前面K個詞預測下一個詞。

  • 解釋:這是一個自回歸模型,給定前面的K個詞,預測下一個詞的概率。

微調的目標函數

  • 目標函數:用的是完整的輸入序列加標簽,有監督目標函數加無監督目標函數,y是標簽。

  • 解釋:這是一個有監督學習目標函數,給定輸入序列x,預測標簽y的概率。同時加入無監督目標函數L1,以增加模型的泛化性和加速收斂。

輸入形式創新

  • 輸入形式:通過在序列前后添加[Start]和[Extract]特殊標識符來表示開始和結束,序列之間添加必要的[Delim]標識符來表示分隔。

    • 解釋:通過這種方式,可以處理不同的下游任務。例如,分類任務、蘊含任務、相似性任務和多項選擇任務。

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/901446.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/901446.shtml
英文地址,請注明出處:http://en.pswp.cn/news/901446.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ubuntu24.04 cmake 報錯 libldap-2.5.so.0 解決辦法

apt cmake有毛病 換源重新安裝 wget -O - https://apt.kitware.com/keys/kitware-archive-latest.asc 2>/dev/null | sudo apt-key add - sudo apt-add-repository "deb https://apt.kitware.com/ubuntu/ $(lsb_release -cs) main" sudo apt update sudo apt in…

ScholarCopilot:“學術副駕駛“

這里寫目錄標題 引言:學術寫作的痛點與 AI 的曙光ScholarCopilot 的核心武器庫:智能生成與精準引用智能文本生成:不止于“下一句”智能引用管理:讓引用恰到好處 揭秘背后機制:檢索與生成的動態協同快速上手&#xff1a…

vivo X200 Ultra前瞻系列(2):vivo X200 Ultra影像技術溝通會總結

vivo于今日(2025年4月14日)舉辦的“X系列藍圖影像技術溝通會”中,正式發布了vivo X200 Ultra,展示了其在移動影像領域的多項技術突破。以下是本次溝通會的核心內容總結: 1. 硬件革新:蔡司三焦段鏡頭與雙芯架構 蔡司三大定焦大師鏡頭: X200 Ultra采用14mm超廣角(“鷹眼”…

代碼隨想錄第17天:二叉樹

一、二叉搜索樹的最近公共祖先(Leetcode 235) 由于是二叉搜索樹,節點的值有嚴格的順序關系:左子樹的節點值都小于父節點,右子樹的節點值都大于父節點。利用這一點,可以在樹中更高效地找到最低公共祖先。 c…

C++中string庫常用函數超詳細解析與深度實踐

目錄 一、引言 二、基礎準備:頭文件與命名空間 三、string對象的創建與初始化(基礎) 3.1 直接初始化 3.2 動態初始化(空字符串) 3.3 基于字符數組初始化 3.4 重復字符初始化 四、核心函數詳解 4.1 字符串長度相關 4.1.1 …

LanDiff:賦能視頻創作,語言與擴散模型的融合力量

自從 Wan 2.1 發布以來,AI 視頻生成領域似乎進入了一個發展瓶頸期,但這也讓人隱隱感到:“DeepSeek 時刻”即將到來!就在前幾天,浙江大學與月之暗面聯合推出了一款全新的文本到視頻(T2V)生成模型…

【本地圖床搭建】寶塔+Docker+MinIO+PicGo+cpolar:打造本地化“黑科技”圖床方案

寫在前面:本博客僅作記錄學習之用,部分圖片來自網絡,如需引用請注明出處,同時如有侵犯您的權益,請聯系刪除! 文章目錄 前言寶塔安裝DockerMinIO 安裝與設置cploar內網穿透PicGo下載與安裝typora安裝總結互動…

centos-LLM-生物信息-BioGPT-使用1

參考: GitHub - microsoft/BioGPT https://github.com/microsoft/BioGPT BioGPT:用于生物醫學文本生成和挖掘的生成式預訓練轉換器 |生物信息學簡報 |牛津學術 — BioGPT: generative pre-trained transformer for biomedical text generation and mini…

高效爬蟲:一文掌握 Crawlee 的詳細使用(web高效抓取和瀏覽器自動化庫)

更多內容請見: 爬蟲和逆向教程-專欄介紹和目錄 文章目錄 一、Crawlee概述1.1 Crawlee介紹1.2 為什么 Crawlee 是網頁抓取和爬取的首選?1.3 為什么使用 Crawlee 而不是 Scrapy1.4 Crawlee的安裝二、Crawlee的基本使用2.1 BeautifulSoupCrawler的使用方式2.2 ParselCrawler的使…

架構總覽怎么寫,才算工業級?

??系統架構文檔是整個項目最重要的起點,但很多人第一章就“寫穿了”: 不是寫得太細,就是沒有重點。想要寫出高質量、能協作、能傳承的架構文檔,這一篇會告訴你應該怎么做—— ? 架構總覽的終極目標 明確邊界、定義角色、畫清數據流 別講執行細節,別深入函數調用。 ? 架…

優先級隊列(堆二叉樹)底層的實現:

我們繼續來看我們的優先級隊列: 優先級隊列我們說過,他也是一個容器適配器,要依賴我們的容器來存儲數據; 他的第二個參數就是我們的容器,這個容器的默認的缺省值是vector,然后他的第三個參數,我…

GIC驅動程序分析

今天呢,我們就來具體的講一下GIC的驅動源碼啦,這個才是重點來著,我們來看看: GIC中的重要函數和結構體: 沿著中斷的處理流程,GIC涉及這4個重要部分: CPU從異常向量表中調用handle_arch_irq&am…

java操作redis庫,開箱即用

application.yml spring:application:name: demo#Redis相關配置redis:data:# 地址host: localhost# 端口,默認為6379port: 6379# 數據庫索引database: 0# 密碼password:# 連接超時時間timeout: 10slettuce:pool:# 連接池中的最小空閑連接min-idle: 0# 連接池中的最…

Cribl 通過Splunk search collector 來收集數據

今天利用Spliunk search collector 來收集數據啦:還是要先cribl 的官方文檔: Splunk Search Collector | Cribl Docs Splunk Search Collector Cribl Stream supports collecting search results from Splunk queries. The queries can be both simple and complex, as well a…

What Was the “Game Genie“ Cheat Device, and How Did It Work?

什么是“Game Genie”作弊裝置,它是如何工作的? First released in 1991, the Game Genie let players enter special codes that made video games easier or unlocked other functions. Nintendo didnt like it, but many gamers loved it. Heres wha…

位運算題目:連接連續二進制數字

文章目錄 題目標題和出處難度題目描述要求示例數據范圍 解法思路和算法代碼復雜度分析 題目 標題和出處 標題:連接連續二進制數字 出處:1680. 連接連續二進制數字 難度 5 級 題目描述 要求 給定一個整數 n \texttt{n} n,將 1 \text…

第十六屆藍橋杯Java b組(試題C:電池分組)

問題描述: 輸入格式: 輸出格式: 樣例輸入: 2 3 1 2 3 4 1 2 3 4 樣例輸出: YES NO 說明/提示 評測用例規模與約定 對于 30% 的評測用例,1≤T≤10,2≤N≤100,1≤Ai?≤10^3。對于 100…

63. 評論日記

2025年4月14日18:53:30 雷軍這次是真的累了_嗶哩嗶哩_bilibili

電商中的訂單支付(內網穿透)

支付頁面 接口文檔 Operation(summary"獲取訂單信息") GetMapping("auth/{orderId}") public Reuslt<OrderInfo> getOrderInfo(Parameter(name"orderId",description"訂單id",requiredtrue) PathVaariable Long orderId){OrderI…

MySQL表的使用(4)

首先回顧一下之前所學的增刪查改&#xff0c;這些覆蓋了平時使用的80% 我們上節課中學習到了MySQL的約束 其中Primary key 是主鍵約束&#xff0c;我們今天要學習的是外鍵約束 插入一個表 外鍵約束 父表 子表 這條記錄中classid為5時候&#xff0c;不能插入&#xff1b; 刪除…