大語言模型（LLM）按架構分類

大語言模型（LLM）按架構分類

diannao/2025/7/8 0:48:47/文章來源:https://blog.csdn.net/jerwey/article/details/149090491

大語言模型（LLM）按架構分類的深度解析

1. 僅編碼器架構（Encoder-Only）

原理

雙向注意力機制：通過Transformer編碼器同時捕捉上下文所有位置的依賴關系

# 偽代碼示例：BERT的MLM任務
masked_input = "The [MASK] sat on the mat"
output = encoder(masked_input)  # 預測[MASK]="cat"

預訓練任務：
- 掩碼語言建模（MLM）：隨機遮蓋15%的單詞進行預測
- 下一句預測（NSP）：判斷兩個句子是否連續（后續模型如RoBERTa已移除）

使用場景

理解型任務：
- 文本分類（如情感分析）
- 命名實體識別（NER）
- 抽取式問答（如SQuAD）
典型應用：
- Google搜索的BERT集成
- 金融文檔實體抽取

代表模型

BERT：首個大規模Encoder-Only預訓練模型
RoBERTa：優化訓練策略（移除NSP，更大batch size）
ALBERT：參數共享技術減少內存占用

2. 僅解碼器架構（Decoder-Only）

原理

自回歸生成：從左到右逐token預測，依賴前文上下文

# GPT生成示例（偽代碼）
input = "The cat sat"
for _ in range(max_len):next_token = decoder(input)[-1]  # 預測下一個tokeninput += next_token

注意力機制：因果掩碼（Causal Mask）確保不泄露未來信息

使用場景

生成型任務：
- 開放域對話（如ChatGPT）
- 創意寫作（故事/詩歌生成）
- 代碼補全（如GitHub Copilot）
典型應用：
- OpenAI的ChatGPT系列
- Meta的Llama開源模型

代表模型

GPT系列：從GPT-1到GPT-4的演進
Llama 2：開源可商用的Decoder-Only模型
PaLM：Google的大規模純解碼器模型

3. 編碼器-解碼器架構（Encoder-Decoder）

原理

兩階段處理：

編碼器壓縮輸入為上下文表示
解碼器基于該表示自回歸生成輸出

# T5翻譯示例（偽代碼）
encoder_output = encoder("Hello world")  # 編碼
translation = decoder(encoder_output, start_token="<translate>")  # 生成"你好世界"

注意力橋接：交叉注意力（Cross-Attention）連接編碼器與解碼器

使用場景

序列到序列任務：
- 機器翻譯（如英譯中）
- 文本摘要（如新聞簡報生成）
- 語義解析（自然語言轉SQL）
典型應用：
- Google的T5文本到文本統一框架
- 客服系統的多輪對話管理

代表模型

T5：將所有任務統一為text-to-text格式
BART：去噪自編碼預訓練，擅長生成任務
Flan-T5：指令微調增強的多任務版本

架構對比圖譜

技術指標對比

架構類型	參數量典型值	訓練目標	硬件需求（訓練）
Encoder-Only	110M-340M	MLM	8-16 GPUs
Decoder-Only	7B-70B	下一個詞預測	數百-數千GPUs
Encoder-Decoder	3B-11B	去噪自編碼	32-256 GPUs

選型建議

選擇Encoder-Only當：
- 需要高精度文本理解（如法律合同分析）
- 硬件資源有限（可選用ALBERT等輕量版）
選擇Decoder-Only當：
- 需求開放域生成能力（如營銷文案創作）
- 追求零樣本/小樣本學習（如GPT-3風格應用）
選擇Encoder-Decoder當：
- 處理輸入輸出長度差異大的任務（如長文檔摘要）
- 需要嚴格的結構化輸出（如自然語言轉代碼）

注：當前趨勢顯示Decoder-Only架構（如GPT-4、Llama 2）通過指令微調也能實現部分理解任務能力，但專業場景仍推薦專用架構。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/90048.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/90048.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/90048.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

MySQL(120)如何進行數據脫敏？

MySQL(120)如何進行數據脫敏？

數據脫敏（Data Masking）是指通過某種方式對敏感數據進行變形，使其在使用過程中無法識別原始數據，從而保護數據隱私。數據脫敏通常應用在開發、測試和數據分析等場景中。下面我們詳細介紹如何在Java應用程序中進行數據脫敏&#xf…

閱讀更多...

使用 Dockerfile 構建基于 .NET9 的跨平臺基礎鏡像

使用 Dockerfile 構建基于 .NET9 的跨平臺基礎鏡像

官方基礎鏡像準備微軟官方 dotnet sdk 基礎鏡像： docker pull mcr.microsoft.com/dotnet/sdk:9.0拉取 ubuntu 鏡像： docker pull ubuntu:24.04更多資源請參考： dotnet sdk images，https://mcr.microsoft.com/en-us/artifact/mar/…

閱讀更多...

C++ : 線程庫

C++ : 線程庫

C : 線程庫一、線程thread1.1 thread類1.1.1 thread對象構造函數1.1.2 thread類的成員函數1.1.3 線程函數的參數問題1.2 this_thread 命名空間域1.2.1 chrono二、mutex互斥量庫2.1 mutex的四種類型2.1.1 mutex 互斥鎖2.2.2 timed_mutex 時間鎖2.2.3 recursive_muetx 遞歸鎖2.2.…

閱讀更多...

idea的使用小技巧，個人向

idea的使用小技巧，個人向

idea的使用小技巧，個人向一、前言二、過程1、顯示內存的使用情況2、去掉xml文件中的黃色背景3、顯示所有打開文件4、顯示工具欄到菜單下面5、使用JDK8 一、前言每次重裝idea都需要重新設置一下，這里做個記錄。這些技巧只是個人感覺的好用演示用的…

閱讀更多...

debian及衍生發行版apt包管理常見操作

debian及衍生發行版apt包管理常見操作

好的，這是 Debian 及其衍生版（如 Ubuntu）使用的 apt 包管理器的常用命令速查表。一點說明：apt 是新一代的命令行工具，整合了 apt-get 和 apt-cache 的常用功能，并提供了更友好的交互體驗。本表主要使用現…

閱讀更多...

vue調用函數

vue調用函數

好的，我們來講解如何在 Vue 模板中調用函數。您提供的代碼是一個非常棒的、很實用的例子。在 Vue 模板中，你可以在兩個主要地方調用函數： 文本插值中：像 {{ formatDate(date) }} 這樣，函數的返回值會作為文本被渲染到…

閱讀更多...

前端常用構建工具介紹及對比

前端常用構建工具介紹及對比

打包構建工具是現代軟件開發中必不可少的，它們幫助開發者自動化構建、打包、部署等流程，提升開發效率。不過，不同時期構建工具略有差異。每個構建工具都有其擅長的領域，我們需要知道其優勢，才能在我們實際開發中選擇合適的構建工具進行構建處理。 1. Gulp Gulp 是一個…

閱讀更多...

Web后端開發-SpringBootWeb入門、Http協議、Tomcat

Web后端開發-SpringBootWeb入門、Http協議、Tomcat

文章目錄Web后端開發簡介SpringBootWeb入門HTTP協議HTTP-概述HTTP-請求協議HTTP-響應協議HTTP-協議解析Web服務器-Tomcat簡介基本使用SpringBootWeb入門程序解析Web后端開發簡介 SpringBootWeb入門 package com.wuxuan.javaweb_wushuang.controller;import org.springframework…

閱讀更多...

物聯網通信技術全景剖析：從LoRa到5G的深度對比與選型指南

物聯網通信技術全景剖析：從LoRa到5G的深度對比與選型指南

物聯網通信技術全景剖析：從LoRa到5G的深度對比與選型指南在萬物互聯時代，選擇合適的通信技術如同為設備構建“神經網絡”。本文將深入解析七大主流物聯網通信技術，助您在技術選型中精準決策。一、低功耗廣域網（LPWAN）技…

閱讀更多...

俄羅斯方塊AI深度解析：從算法原理到實現細節

俄羅斯方塊AI深度解析：從算法原理到實現細節

俄羅斯方塊AI深度解析：從算法原理到實現細節前言俄羅斯方塊，這個誕生于1984年的經典游戲，至今仍然是人工智能研究領域的熱門課題。當簡單的幾何形狀在網格中不斷下落時，看似簡單的規則背后卻隱藏著復雜的策略決策問題。本文將深入剖析一個基于Python實現的俄羅斯方塊AI…

閱讀更多...

Spring Boot 框架創建一個簡單的后端接口，并介紹如何使用 Apifox 連接該接口

Spring Boot 框架創建一個簡單的后端接口，并介紹如何使用 Apifox 連接該接口

目錄一、配置二、使用 IntelliJ IDEA 創建 Spring Boot 項目 1.打開 IntelliJ IDEA，選擇 File > New > Project 2.在左側面板選擇 Spring Initializr，項目名稱設置為HelloWorldAPI 3.點擊 Create 完成項目創建三、創建控制器類四、運行項…

閱讀更多...

CICD[導航]、docker+gitlab+harbor+jenkins從安裝到部署

CICD[導航]、docker+gitlab+harbor+jenkins從安裝到部署

一、安裝 CICD[軟件安裝]：docker安裝gitlab-CSDN博客 CICD[軟件安裝]：ubuntu安裝jenkins-CSDN博客 CICD[軟件安裝]：ubuntu安裝私有鏡像倉庫-Harbor-CSDN博客 CICD[軟件安裝]：ubuntu24安裝Docker-CSDN博客二、鏡像執行 CICD[…

閱讀更多...

深度學習圖像分類數據集—蘑菇識別分類

深度學習圖像分類數據集—蘑菇識別分類

該數據集為圖像分類數據集，適用于ResNet、VGG等卷積神經網絡，SENet、CBAM等注意力機制相關算法，Vision Transformer等Transformer相關算法。數據集信息介紹：蘑菇識別分類：[Agaricus, Amanita, Boletus, Cortinarius, …

閱讀更多...

iOS 多線程導致接口亂序？抓包還原 + 請求調度優化實戰

iOS 多線程導致接口亂序？抓包還原 + 請求調度優化實戰

在一次性能優化過程中，我們將 iOS App 內多處請求改為并行處理，以提高頁面加載速度。但上線后卻收到部分用戶反饋：進入頁面后數據加載錯亂，有時展示前一次頁面內容，有時同一個接口請求重復返回不同內容。日志僅顯示正…

閱讀更多...

PDFBox 在 Linux 報 “No glyph for U+535A (博)” —— 一次子集化踩坑與完整排查清單

PDFBox 在 Linux 報 “No glyph for U535A (博)” —— 一次子集化踩坑與完整排查清單關鍵詞：PDFBox、PDType0Font、子集嵌入（subset embedding）、SimHei、思源黑體、字體回退1. 背景業務場景后端使用 Apache PDFBox 填充含 AcroForm 的中文…

閱讀更多...

網安系列【8】之暴力破解入門

網安系列【8】之暴力破解入門

文章目錄引用資料一什么是暴力破解？二暴力破解的工作原理三暴力破解的類型3.1 傳統暴力破解3.2 字典攻擊3.3 混合攻擊3.4 彩虹表攻擊四暴力破解實戰演示4.1 環境和工具4.2 破解操作五防御暴力破解的策略六暴力破解的相關法律七延伸學習總結引用資料 Bur…

閱讀更多...

使用tensorflow的線性回歸的例子（四）

使用tensorflow的線性回歸的例子（四）

與經典線性回歸比較 import matplotlib.pyplot as plt %matplotlib inline import tensorflow as tf import numpy as np from sklearn.linear_model import LinearRegression #from sklearn.datasets.samples_generator import make_regression Xdata np.array([4.0, …

閱讀更多...

服務器中故障轉移機制是指什么意思？

服務器中故障轉移機制是指什么意思？

在企業服務器和數據中心當中，電源冗余機制和故障轉移機制是保障系統高可用性和穩定性的重要組成部分，電源故障轉移系統可以幫助企業有效減少服務器因為硬件故障導致業務中斷的情況，本文就來詳細了解一下服務器中故障轉移機制。服務器中的故障…

閱讀更多...

rook-ceph的osd沒有啟動rook-ceph-osd-prepare狀態異常處理

rook-ceph的osd沒有啟動rook-ceph-osd-prepare狀態異常處理

rook-ceph搭建好ceph之后，查看ceph集群狀態，發現三節點只有兩個osd狀態正常注：這里是已經恢復后的截圖。使用kubectl get pod -n rook-ceph查看pod都是處于運行狀態 rook-ceph-osd-prepare也都是Completed沒問題，實際使用kubectl…

閱讀更多...

ubuntu手動編譯VTK9.3 Generating qmltypes file 失敗

ubuntu手動編譯VTK9.3 Generating qmltypes file 失敗

?在Ubuntu上手動編譯VTK 9.3時，可能會遇到 Generating qmltypes file失敗的問題。這個問題通常與VTK在處理Qt依賴時發生的錯誤有關。以下是解決該問題的詳細步驟和相關解釋。一、確保系統依賴正確安裝在編譯VTK之前，需要確保所有依賴項已經正確安裝&…

閱讀更多...

最新文章