大語言模型(LLM)按架構分類

大語言模型(LLM)按架構分類的深度解析


1. 僅編碼器架構(Encoder-Only)
原理
  • 雙向注意力機制:通過Transformer編碼器同時捕捉上下文所有位置的依賴關系
    # 偽代碼示例:BERT的MLM任務
    masked_input = "The [MASK] sat on the mat"
    output = encoder(masked_input)  # 預測[MASK]="cat"
    
  • 預訓練任務
    • 掩碼語言建模(MLM):隨機遮蓋15%的單詞進行預測
    • 下一句預測(NSP):判斷兩個句子是否連續(后續模型如RoBERTa已移除)
使用場景
  • 理解型任務
    • 文本分類(如情感分析)
    • 命名實體識別(NER)
    • 抽取式問答(如SQuAD)
  • 典型應用
    • Google搜索的BERT集成
    • 金融文檔實體抽取
代表模型
  • BERT:首個大規模Encoder-Only預訓練模型
  • RoBERTa:優化訓練策略(移除NSP,更大batch size)
  • ALBERT:參數共享技術減少內存占用

2. 僅解碼器架構(Decoder-Only)
原理
  • 自回歸生成:從左到右逐token預測,依賴前文上下文
    # GPT生成示例(偽代碼)
    input = "The cat sat"
    for _ in range(max_len):next_token = decoder(input)[-1]  # 預測下一個tokeninput += next_token
    
  • 注意力機制:因果掩碼(Causal Mask)確保不泄露未來信息
使用場景
  • 生成型任務
    • 開放域對話(如ChatGPT)
    • 創意寫作(故事/詩歌生成)
    • 代碼補全(如GitHub Copilot)
  • 典型應用
    • OpenAI的ChatGPT系列
    • Meta的Llama開源模型
代表模型
  • GPT系列:從GPT-1到GPT-4的演進
  • Llama 2:開源可商用的Decoder-Only模型
  • PaLM:Google的大規模純解碼器模型

3. 編碼器-解碼器架構(Encoder-Decoder)
原理
  • 兩階段處理
    1. 編碼器壓縮輸入為上下文表示
    2. 解碼器基于該表示自回歸生成輸出
    # T5翻譯示例(偽代碼)
    encoder_output = encoder("Hello world")  # 編碼
    translation = decoder(encoder_output, start_token="<translate>")  # 生成"你好世界"
    
  • 注意力橋接:交叉注意力(Cross-Attention)連接編碼器與解碼器
使用場景
  • 序列到序列任務
    • 機器翻譯(如英譯中)
    • 文本摘要(如新聞簡報生成)
    • 語義解析(自然語言轉SQL)
  • 典型應用
    • Google的T5文本到文本統一框架
    • 客服系統的多輪對話管理
代表模型
  • T5:將所有任務統一為text-to-text格式
  • BART:去噪自編碼預訓練,擅長生成任務
  • Flan-T5:指令微調增強的多任務版本

架構對比圖譜
MLM/NSP
自回歸
Seq2Seq
輸入文本
Encoder-Only
Decoder-Only
Encoder-Decoder
理解任務
生成任務
轉換任務
分類/NER/QA
對話/創作
翻譯/摘要
技術指標對比
架構類型參數量典型值訓練目標硬件需求(訓練)
Encoder-Only110M-340MMLM8-16 GPUs
Decoder-Only7B-70B下一個詞預測數百-數千GPUs
Encoder-Decoder3B-11B去噪自編碼32-256 GPUs

選型建議
  1. 選擇Encoder-Only當

    • 需要高精度文本理解(如法律合同分析)
    • 硬件資源有限(可選用ALBERT等輕量版)
  2. 選擇Decoder-Only當

    • 需求開放域生成能力(如營銷文案創作)
    • 追求零樣本/小樣本學習(如GPT-3風格應用)
  3. 選擇Encoder-Decoder當

    • 處理輸入輸出長度差異大的任務(如長文檔摘要)
    • 需要嚴格的結構化輸出(如自然語言轉代碼)

:當前趨勢顯示Decoder-Only架構(如GPT-4、Llama 2)通過指令微調也能實現部分理解任務能力,但專業場景仍推薦專用架構。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/90048.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/90048.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/90048.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MySQL(120)如何進行數據脫敏?

數據脫敏&#xff08;Data Masking&#xff09;是指通過某種方式對敏感數據進行變形&#xff0c;使其在使用過程中無法識別原始數據&#xff0c;從而保護數據隱私。數據脫敏通常應用在開發、測試和數據分析等場景中。下面我們詳細介紹如何在Java應用程序中進行數據脫敏&#xf…

使用 Dockerfile 構建基于 .NET9 的跨平臺基礎鏡像

官方基礎鏡像準備 微軟官方 dotnet sdk 基礎鏡像&#xff1a; docker pull mcr.microsoft.com/dotnet/sdk:9.0拉取 ubuntu 鏡像&#xff1a; docker pull ubuntu:24.04更多資源請參考&#xff1a; dotnet sdk images&#xff0c;https://mcr.microsoft.com/en-us/artifact/mar/…

C++ : 線程庫

C : 線程庫一、線程thread1.1 thread類1.1.1 thread對象構造函數1.1.2 thread類的成員函數1.1.3 線程函數的參數問題1.2 this_thread 命名空間域1.2.1 chrono二、mutex互斥量庫2.1 mutex的四種類型2.1.1 mutex 互斥鎖2.2.2 timed_mutex 時間鎖2.2.3 recursive_muetx 遞歸鎖2.2.…

idea的使用小技巧,個人向

idea的使用小技巧&#xff0c;個人向 一、前言二、過程1、顯示內存的使用情況2、去掉xml文件中的黃色背景3、顯示所有打開文件4、顯示工具欄到菜單下面5、使用JDK8 一、前言 每次重裝idea都需要重新設置一下&#xff0c;這里做個記錄。 這些技巧只是個人感覺的好用 演示用的…

debian及衍生發行版apt包管理常見操作

好的&#xff0c;這是 Debian 及其衍生版&#xff08;如 Ubuntu&#xff09;使用的 apt 包管理器的常用命令速查表。 一點說明&#xff1a;apt 是新一代的命令行工具&#xff0c;整合了 apt-get 和 apt-cache 的常用功能&#xff0c;并提供了更友好的交互體驗。本表主要使用現…

vue調用函數

好的&#xff0c;我們來講解如何在 Vue 模板中調用函數。您提供的代碼是一個非常棒的、很實用的例子。 在 Vue 模板中&#xff0c;你可以在兩個主要地方調用函數&#xff1a; 文本插值中&#xff1a;像 {{ formatDate(date) }} 這樣&#xff0c;函數的返回值會作為文本被渲染到…

前端常用構建工具介紹及對比

打包構建工具是現代軟件開發中必不可少的,它們幫助開發者自動化構建、打包、部署等流程,提升開發效率。不過,不同時期構建工具略有差異。 每個構建工具都有其擅長的領域,我們需要知道其優勢,才能在我們實際開發中選擇合適的構建工具進行構建處理。 1. Gulp Gulp 是一個…

Web后端開發-SpringBootWeb入門、Http協議、Tomcat

文章目錄Web后端開發簡介SpringBootWeb入門HTTP協議HTTP-概述HTTP-請求協議HTTP-響應協議HTTP-協議解析Web服務器-Tomcat簡介基本使用SpringBootWeb入門程序解析Web后端開發簡介 SpringBootWeb入門 package com.wuxuan.javaweb_wushuang.controller;import org.springframework…

物聯網通信技術全景剖析:從LoRa到5G的深度對比與選型指南

物聯網通信技術全景剖析&#xff1a;從LoRa到5G的深度對比與選型指南在萬物互聯時代&#xff0c;選擇合適的通信技術如同為設備構建“神經網絡”。本文將深入解析七大主流物聯網通信技術&#xff0c;助您在技術選型中精準決策。一、低功耗廣域網&#xff08;LPWAN&#xff09;技…

俄羅斯方塊AI深度解析:從算法原理到實現細節

俄羅斯方塊AI深度解析:從算法原理到實現細節 前言 俄羅斯方塊,這個誕生于1984年的經典游戲,至今仍然是人工智能研究領域的熱門課題。當簡單的幾何形狀在網格中不斷下落時,看似簡單的規則背后卻隱藏著復雜的策略決策問題。本文將深入剖析一個基于Python實現的俄羅斯方塊AI…

Spring Boot 框架創建一個簡單的后端接口,并介紹如何使用 Apifox 連接該接口

目錄 一、配置 二、使用 IntelliJ IDEA 創建 Spring Boot 項目 1.打開 IntelliJ IDEA&#xff0c;選擇 File > New > Project 2.在左側面板選擇 Spring Initializr&#xff0c;項目名稱設置為HelloWorldAPI 3.點擊 Create 完成項目創建 三、創建控制器類 四、運行項…

CICD[導航]、docker+gitlab+harbor+jenkins從安裝到部署

一、安裝 CICD[軟件安裝]&#xff1a;docker安裝gitlab-CSDN博客 CICD[軟件安裝]&#xff1a;ubuntu安裝jenkins-CSDN博客 CICD[軟件安裝]&#xff1a;ubuntu安裝私有鏡像倉庫-Harbor-CSDN博客 CICD[軟件安裝]&#xff1a;ubuntu24安裝Docker-CSDN博客 二、鏡像執行 CICD[…

深度學習圖像分類數據集—蘑菇識別分類

該數據集為圖像分類數據集&#xff0c;適用于ResNet、VGG等卷積神經網絡&#xff0c;SENet、CBAM等注意力機制相關算法&#xff0c;Vision Transformer等Transformer相關算法。 數據集信息介紹&#xff1a;蘑菇識別分類&#xff1a;[Agaricus, Amanita, Boletus, Cortinarius, …

iOS 多線程導致接口亂序?抓包還原 + 請求調度優化實戰

在一次性能優化過程中&#xff0c;我們將 iOS App 內多處請求改為并行處理&#xff0c;以提高頁面加載速度。但上線后卻收到部分用戶反饋&#xff1a;進入頁面后數據加載錯亂&#xff0c;有時展示前一次頁面內容&#xff0c;有時同一個接口請求重復返回不同內容。 日志僅顯示正…

PDFBox 在 Linux 報 “No glyph for U+535A (博)” —— 一次子集化踩坑與完整排查清單

PDFBox 在 Linux 報 “No glyph for U535A (博)” —— 一次子集化踩坑與完整排查清單關鍵詞&#xff1a;PDFBox、PDType0Font、子集嵌入&#xff08;subset embedding&#xff09;、SimHei、思源黑體、字體回退1. 背景業務場景 后端使用 Apache PDFBox 填充含 AcroForm 的中文…

網安系列【8】之暴力破解入門

文章目錄 引用資料一 什么是暴力破解&#xff1f;二 暴力破解的工作原理三 暴力破解的類型3.1 傳統暴力破解3.2 字典攻擊3.3 混合攻擊3.4 彩虹表攻擊 四 暴力破解實戰演示4.1 環境和工具4.2 破解操作 五 防御暴力破解的策略六 暴力破解的相關法律七 延伸學習總結 引用資料 Bur…

使用tensorflow的線性回歸的例子(四)

與經典線性回歸比較 import matplotlib.pyplot as plt %matplotlib inline import tensorflow as tf import numpy as np from sklearn.linear_model import LinearRegression #from sklearn.datasets.samples_generator import make_regression Xdata np.array([4.0, …

服務器中故障轉移機制是指什么意思?

在企業服務器和數據中心當中&#xff0c;電源冗余機制和故障轉移機制是保障系統高可用性和穩定性的重要組成部分&#xff0c;電源故障轉移系統可以幫助企業有效減少服務器因為硬件故障導致業務中斷的情況&#xff0c;本文就來詳細了解一下服務器中故障轉移機制。服務器中的故障…

rook-ceph的osd沒有啟動rook-ceph-osd-prepare狀態異常處理

rook-ceph搭建好ceph之后&#xff0c;查看ceph集群狀態&#xff0c;發現三節點只有兩個osd狀態正常注&#xff1a;這里是已經恢復后的截圖。 使用kubectl get pod -n rook-ceph查看pod都是處于運行狀態 rook-ceph-osd-prepare也都是Completed沒問題&#xff0c;實際使用kubectl…

ubuntu手動編譯VTK9.3 Generating qmltypes file 失敗

?在Ubuntu上手動編譯VTK 9.3時&#xff0c;可能會遇到 Generating qmltypes file失敗的問題。這個問題通常與VTK在處理Qt依賴時發生的錯誤有關。以下是解決該問題的詳細步驟和相關解釋。一、確保系統依賴正確安裝在編譯VTK之前&#xff0c;需要確保所有依賴項已經正確安裝&…