GPT-1 與 BERT 架構

GPT-1

架構特點

  1. 僅解碼器架構:擯棄了傳統transformer中的編碼器層,而是直接用解碼器和自注意力,同時拋棄掉了交叉多頭注意力層,自注意力通過mask來完成計算。
  2. 注意力塊添加到12個,Attention的輸出維數為762維,FeedForward的升維維數增加到2048維。總參數量達1.5億(0.15B)。
  3. 可學習的位置編碼:位置編碼不再使用固定的公式計算,而是作為神經網絡參數的一部分進行學習。

訓練過程

無監督預訓練

給定一個句子,無監督預訓練做的就是根據之前的token預測下一個token,每個batch里面包含的是該句子的前若干個token組成的輸入,(但是實際實現中不會真的去這樣做切分,而是用注意力掩碼來控制注意力的計算)。輸出是對應的下一個token。

每一個token的注意力嵌入最后通過前饋網絡都能生成下一個token的預測,最終根據每一個token預測計算交叉熵平均損失,從而得到這個輸入的訓練損失。

有監督微調

與預訓練的方法類似,但是存在以下兩個區別:

  • 訓練數據的內容是人為標注的,符合人們對模型的工具定位,要求模型必須按用戶的需求回答
  • 在計算損失部分,不會把prompt部分的自損失計算上,而只會計算人為標注的輸出部分的每個token預測的損失平均值。

GPT-1的缺陷

  • GPT-1使用的Transformer Decoder是單向語言模型,提取信息的能力不如Bert,但生成文本的能力很強
  • GPT-1針對每一個下游任務都需要訓練一個模型,工作量大

BERT

架構特點

  1. BERT編碼器架構所以BERT喪失輸出文本能力
  2. BERT輸入進行嵌入除了常規嵌入位置編碼BERT還會句子序列序列進行編碼

此處我們可以看到兩個特殊標識[CLS][SEP],它們沒有自身語義[CLS]表示序列開頭[SEP]表示句子結尾BERT輸入只會1 - 2 序列

如果輸入兩個序列第二個序列段落編碼1否則段落編碼0.

序列編碼示例

  1. <CLS> my dog is cute <SEP> --> 0 0 0 0 0 0
  2. <CLS> my dog is cute <SEP> he likes play ##ing <SEP> ---> 0 0 0 0 0 0 1 1 1 1 1

訓練過程

BERT預訓練過程包括兩個任務

掩碼語言模型MLM)

15% 概率隨機句子某個token替換 [MASK] , 隨后模型預測位置對應token什么這樣可以模型更好捕捉語義

  • 存在問題模型過于關注[MASK]這個token但是下游任務并不會出現[MASK],所以可能出現過擬合現象
  • 解決方案選擇token之后三種選擇
    • 替換[MASK] token
    • 替換其他隨機token
    • 不替換

由于模型不知道句子對應token是否token所以模型嘗試根據句子語義找到token

鄰接序列預測NSP)

輸入兩個序列模型判斷兩個序列是否語義相關聯或者后面序列是否語料前面序列臨近

  • 通過CLS向量信息進行二分類因為CLS本身沒有語義信息內部信息只能句子整體信息

舉例

Input1=[CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]Label1=IsNextInput2=[CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]Label2=NotNext

應用場景

句子分類
句子情感預測
語句問答
標注標注句子出現每一個token標簽

缺陷

BERT失去了文本生成的能力,換來了更強的信息提取能力

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/85774.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/85774.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/85774.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Day04_C語言基礎數據結構重點復習筆記20250618

1.什么是計算機的大小端存儲&#xff1f; 答&#xff1a;大端是數據的高位字節存儲在低地址&#xff0c;低位字節存儲在高地址&#xff0c;網絡協議&#xff08;如TCP/IP&#xff09;通常采用大端序&#xff08;稱為“網絡字節序”&#xff09;。例如&#xff1a;32位整數 0x12…

基于OpenSSL實現AES-CBC 128算法的 SeedKey DLL的生成與使用

&#x1f345; 我是螞蟻小兵&#xff0c;專注于車載診斷領域&#xff0c;尤其擅長于對CANoe工具的使用&#x1f345; 尋找組織 &#xff0c;答疑解惑&#xff0c;摸魚聊天&#xff0c;博客源碼&#xff0c;點擊加入&#x1f449;【相親相愛一家人】&#x1f345; 玩轉CANoe&…

進程間通信、線程間通信

進程間通信、線程間通信 進程間通行&#xff08;Inter-Process Communication&#xff0c; IPC&#xff09;和線程間通信&#xff08;Thread Communication&#xff09;的方式不完全相同&#xff0c;因為進程和線程的運行環境和特性不同 進程和線程的本質區別 進程 進程是操…

【FPGA學習】FPGA入門學習即數字邏輯復習

前言&#xff1a;最近開始學習FPGA了&#xff0c;希望通過博客記錄下每一次學習的過程&#xff0c;與大家共勉。 目錄 一、組合邏輯電路的設計&#xff08;工程學習引入&#xff09; 二、3-8譯碼器設計、下載和功能演示&#xff08;在的8段數碼管顯示&#xff09; 2.1 Logs…

ffmpeg python rgba圖片合成 4444格式mov視頻,保留透明通道

def convert_pngs_to_mov(input_pattern, output_path, frame_rate30):"""將BGRA四通道PNG序列轉換為ProRes 4444編碼的MOV視頻&#xff08;保留透明通道&#xff09;參數:input_pattern: PNG序列路徑模式&#xff08;如&#xff1a;"/path/to/frames/fram…

Java 實現 PDF 轉圖片功能:實戰教程 + 場景解析

作者:云起川南|專注 Java 實戰與自動化集成 在 PDF 文檔處理的各類業務場景中,“將 PDF 頁面轉為圖片”是一個高頻、剛需的功能,廣泛應用于 預覽展示、文件歸檔、圖片加密水印、OCR 文本識別 等系統中。 本文將帶你一步一步實戰如何使用 Java 實現 PDF 轉圖片 功能,使用開…

面試題-有個對象key全部是string,值全部是number要定義他,不使用interface和type如何定義

在 TypeScript 里&#xff0c;若要定義一個鍵為string類型、值為number類型的對象&#xff0c;并且不使用interface和type&#xff0c;可以采用以下幾種方式&#xff1a; 1. 內聯類型注解&#xff08;Inline Type Annotation&#xff09; 直接在變量聲明時使用索引簽名進行類…

領域驅動設計(DDD)【3】之事件風暴

文章目錄 說明一 事件風暴理論知識1.1 事件風暴的核心目標1.2事件風暴的關鍵步驟1.2.1 準備工作1.2.2 核心流程1.2.3 事件風暴的輸出 1.3 事件風暴的優勢1.4 常見問題Q1&#xff1a;事件風暴適合所有項目嗎&#xff1f;Q2&#xff1a;事件風暴后如何落地&#xff1f;Q3&#xf…

Vue3中監聽 Ref 類型的數字數組

在 Vue 3 中&#xff0c;監聽一個 Ref 類型的數字數組&#xff08;如 ref<number[]>([])&#xff09;時&#xff0c;根據需求的不同&#xff0c;有幾種監聽方式&#xff1a; 1. 監聽整個數組的引用變化 當整個數組被重新賦值時觸發&#xff1a; typescript 復制 下載…

PoolThreadCache 類的結構和源碼實現

PoolThreadCache 在 Netty 的內存池中扮演著線程本地緩存的角色。它的主要目的是減少線程在分配內存時對全局 PoolArena 的競爭&#xff0c;通過緩存一部分最近釋放的內存塊&#xff0c;使得同一線程后續申請相同規格的內存時能夠快速獲取&#xff0c;從而提高分配效率。 下面…

Linux中的阻塞信號與信號原理

在Linux操作系統中&#xff0c;信號&#xff08;Signal&#xff09;是進程間通信和進程控制的核心機制之一。信號是一種異步通知機制&#xff0c;可以向進程發送異步事件通知&#xff0c;以便進程能夠處理系統級別的事件。本文將詳細探討Linux中的信號原理&#xff0c;重點講解…

QT學習教程(三十五)

事件處理&#xff08;- Event Processingn&#xff09; 事件是視窗系統或者Qt 本身在各種不同的情況下產生的。當用戶點擊或者釋放鼠標&#xff0c;鍵盤時&#xff0c;一個鼠標事件或者鍵盤事件就產生了。當窗口第一次顯示時&#xff0c;一個繪制事件會產生告訴新可見的窗口繪…

【Dify 案例】【MCP實戰】【三】【超級美食家】

接上次的超級助理,我們這一期給出一個超級美食家 首先:我的MCP要申請一個key ` 我們來看看這個MCP服務怎么使用呢。`https://modelscope.cn/mcp/servers/@worryzyy/howtocook-mcp插件里面需要配置 {"mcpServers":{"amap-amap-sse":{"url":&qu…

4.文件管理(文本、日志、Excel表)

目錄 1.文本 2.日志 3.Excel表 1.文本 using System.Text;namespace (自己創建的一個類) {/// <summary>/// 配置文件*.ini讀寫器。/// </summary>public class IniFile{[System.Runtime.InteropServices.DllImport("kernel32")]private static ex…

Java 包裝類詳解

什么是包裝類 Java包裝類&#xff08;Wrapper Classes&#xff09;是將8種基本數據類型封裝成對象的類&#xff0c;位于java.lang包中。每個基本數據類型都有對應的包裝類&#xff1a; byte → Byteshort → Shortint → Integerlong → Longfloat → Floatdouble → Doublec…

阿里云ACP認證-數據倉庫

數據倉庫 Kappa架構&#xff1a;將實時和離線代碼統一&#xff08;優化lambda架構&#xff09;&#xff0c;但是不好修正數據&#xff0c;開發周期長&#xff0c;成本浪費&#xff0c;對于歷史數據的高吞吐量力不從心 原一代數據倉庫&#xff1a; 離線&#xff1a;hivemaxcom…

WebRTC(五):TURN協議

TURN&#xff08;Traversal Using Relays around NAT&#xff09;協議是一個網絡協議&#xff0c;旨在解決 NAT&#xff08;網絡地址轉換&#xff09;和防火墻 環境下的 UDP/TCP通信問題。它通常與 STUN 和 ICE 協議一起使用&#xff0c;廣泛應用于 WebRTC、SIP 和視頻會議等實…

Python 的內置函數 hasattr

Python 內建函數列表 > Python 的內置函數 hasattr Python 的內置函數 hasattr() 用于檢查一個對象是否具有指定的屬性或方法。該函數的語法為&#xff1a; hasattr(object, name)參數說明&#xff1a; object&#xff1a;要檢查的對象&#xff0c;可以是任何 Python 對象…

docker使用技巧之把擴展卷命名變成有意義

背景 之前使用別人的鏡像之后&#xff0c;啟動docker后發出現了一堆看不懂名稱的擴展卷 eg&#xff1a;集群查看 擴展卷查看 這個時候如果有很多集群需要清理擴展卷就很麻煩&#xff0c;不知道是哪個集群的 操作步驟 可以實現的分析&#xff1a;這個擴展卷的信息應該是和…

《博物通書》《博物新編》與滿清歷史篡改

《博物新編》作為近代西方科技輸入中國的首部著作&#xff0c;其問世猶如一顆投入平靜湖面的巨石&#xff0c;在 19 世紀中期的中國激起層層漣漪&#xff0c;對中國近代科學發展產生了多維度、深層次的影響。它不僅是知識傳播的載體&#xff0c;更是推動中國科學從傳統走向近代…