大語言模型 (LLM) 與多模態大模型 (MLM)

文章目錄

  • 概述:從“模型”到“大”模型
  • 1、大語言模型 (Large Language Model, LLM)
    • 1.1 定義與概述
      • 關鍵特征:
    • 1.2 核心技術與架構
      • Transformer架構
        • 自注意力機制 (Self-Attention)
    • 1.3 訓練過程
    • 1.4 工作原理
  • 2. 多模態大模型 (Multimodal Large Model, MLM)
    • 2.1 定義
    • 2.2 核心技術與架構
    • 2.3 能力與應用
    • 2.4 圖示闡釋:MLM的工作原理 (以視覺問答為例)


概述:從“模型”到“大”模型

在深入探討之前,我們需理解兩個核心概念:

  • 模型 (Model):在人工智能中,模型是一個從數據中學習而來的數學函數或程序,用于處理特定任務(如圖像分類、文本翻譯)。它由參數 (Parameters) 組成,這些參數是在訓練過程中調整的數值,決定了模型的行為。
  • 大模型 (Large Model):通常指參數規模巨大(達到數十億甚至萬億級別)、訓練數據量海量、需要巨大計算資源訓練的模型。其“大”不僅指尺寸,更意味著一種能力的涌現 (Emergent Ability)——即當模型規模超過某個臨界點后,它會展現出小模型所不具備的能力,如強大的泛化性、推理能力和上下文學習等。

三者關系可通過以下結構圖理解:

基礎與核心
MLM 實現方式
融合模塊
Transformer
多模態編碼器
解碼器
LLM作為大腦
LLM 核心架構
自回歸生成
預測下一個詞
Transformer
解碼器架構
大模型
Large Model

1、大語言模型 (Large Language Model, LLM)

1.1 定義與概述

大語言模型(LLM)是一種專門針對文本數據訓練的大規模人工智能模型。其核心任務是理解人類語言并生成人類語言

關鍵特征:

  • 大規模參數:參數量通常達到數十億甚至萬億級別
  • 海量訓練數據:使用互聯網規模的文本數據進行訓練
  • 自監督學習:通過預測下一個詞等任務進行預訓練
  • 能力涌現:當規模超過臨界點時,展現出小模型不具備的新能力

1.2 核心技術與架構

Transformer架構

LLM幾乎都基于Google在2017年提出的Transformer架構,其核心組件包括:

自注意力機制 (Self-Attention)
# 簡化的自注意力計算概念
def self_attention(query, key, value):scores = query @ key.T  # 計算注意力分數weights = softmax(scores)  # 標準化為注意力權重return weights @ value  # 加權求和

主要組件:

  • 編碼器-解碼器結構:原始Transformer的完整架構
  • 僅解碼器結構:GPT系列采用的簡化架構
  • 位置編碼:為模型提供詞匯位置信息
  • 層歸一化:穩定訓練過程
  • 前饋神經網絡:處理注意力輸出

1.3 訓練過程

預訓練階段

海量文本數據
自監督學習
掩碼語言建模
下一句預測
自回歸生成
預訓練模型

微調階段

  • 指令微調:讓模型遵循人類指令
  • 人類反饋強化學習:基于人類偏好優化模型輸出
  • 多任務學習:在多個NLP任務上同時訓練

1.4 工作原理

LLM基于概率生成文本的過程如下:

自回歸反饋
輸入提示
人工智能是
Token化
與編碼
模型前向傳播
萬億參數計算
輸出概率分布
詞匯表上的softmax
采樣策略
選擇下一個token
生成結果
人工智能是未來

此過程會不斷循環(自回歸),直到生成一個完整的句子或段落。模型的“知識”就蘊含在那些決定概率分布的萬億級參數中。

2. 多模態大模型 (Multimodal Large Model, MLM)

2.1 定義

多模態大模型是能夠同時理解、處理和關聯多種類型信息(模態) 的大模型。這些模態包括文本、圖像、音頻、視頻等。其目標是實現不同模態信息間的統一理解和生成,讓AI更接近人類感知世界的方式。

2.2 核心技術與架構

實現多模態的關鍵在于將不同模態的信息映射到同一個語義空間。通常包含以下幾個組件:

1.編碼器 (Encoders):

  • 圖像編碼器:如ViT (Vision Transformer),將圖像切塊并編碼為一系列向量。
  • 文本編碼器:通常就是一個現成的LLM的編碼部分,將文本編碼為向量。
  • 音頻/視頻編碼器:將音頻頻譜圖或視頻幀編碼為向量序列。

2.融合模塊 (Fusion Module):核心挑戰。接收不同編碼器產生的向量序列,并通過跨模態注意力機制等技術,讓它們進行“交流”,實現對齊和融合。Transformer通常是實現融合的優選架構。

3.解碼器 (Decoder):根據融合后的信息,生成目標輸出(如文本回答、圖像等)。通常使用LLM作為文本解碼器。

2.3 能力與應用

能力:圖像描述、視覺問答、文本生成圖像/視頻、音頻生成、跨模態檢索等。

代表性模型:GPT-4V (視覺問答)、Gemini 1.5 (原生多模態)、CLIP (圖文對比學習)、Stable Diffusion (文生圖,雖不算傳統大模型但原理相關) 等。

2.4 圖示闡釋:MLM的工作原理 (以視覺問答為例)

下圖以“這張圖片里有什么動物?”為例,展示了多模態大模型的工作流程:

圖像
圖像編碼器
如ViT
特征向量序列
文本問題
文本編碼器
特征向量序列
融合模塊
跨模態Transformer
融合后的多模態表示
LLM解碼器
作為大腦
生成文本回答
一只貓和一只狗

關鍵在于融合模塊,它學會了將圖像的視覺特征(“貓的紋理”、“狗的形態”)與文本的語義特征(“動物”)在同一個高維空間里關聯起來,從而使LLM“大腦”能夠基于視覺信息進行推理和回答。

特征大語言模型 (LLM)多模態大模型 (MLM)
核心定義專注于文本的單模態大模型能處理多種模態信息的大模型
處理模態文本 ONLY文本、圖像、音頻、視頻等
技術基礎Transformer架構、自監督學習LLM為基礎,加上多模態編碼器與融合器
關鍵能力文本生成、對話、摘要跨模態理解與生成(如圖文互答)
代表模型GPT-4, LLaMA 2, PaLM 2GPT-4V, Gemini, CLIP

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/97616.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/97616.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/97616.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

HTML應用指南:利用GET請求獲取全國招商銀行網點位置信息

招商銀行(China Merchants Bank, CMB)作為中國領先的股份制商業銀行,始終堅持“以客戶為中心”的服務理念,致力于為個人客戶、企業客戶及機構客戶提供專業、高效、便捷的綜合金融服務。依托“輕型銀行”戰略與“金融科技銀行”建設…

JVM性能監控工具的使用

了解JVM性能監控工具并能熟練使用,是Java開發者進階的必備技能。下面本文將為你介紹一些主流的JVM性能監控工具及其使用方法,并通過一些場景案例來分析如何應用這些工具解決實際問題。 🛠? JVM性能監控與調優工具指南 ? 工具概覽 以下是幾款…

【工作】一些找工作需要了解避雷的知識

面試前 1.公司的具體情況 公司全稱,辦公地點,涉及崗位 要求hr做個簡單的公司介紹 2.崗位職責/業務方向 工作內容、公司業務 3.薪資待遇,構成,底薪,五險一金 問一下工資范圍 底薪 (有責,無…

五、練習2:Git分支操作

練習2:Git分支操作 練習目標 掌握Git分支的創建、切換、合并等操作,理解分支在開發中的作用。 練習步驟 步驟1:準備基礎倉庫 # 創建練習目錄 mkdir branch-practice cd branch-practice# 初始化倉庫 git init# 創建初始文件 echo "# 分支…

【筆記】算法設計:異或空間線性基

Content1.什么是異或(定義和性質)2.異或空間線性基的構造方法3.異或空間線性基的應用4.算法設計例舉5.小結說明算法設計應用之前,首先明確異或空間線性基:一種數據結構。用于處理異或關系(運算)下的向量空間…

Filebeat采集數據與日志分析實戰

🌟Filebeat采集數據的原理 Filebeat默認按行采集數據,如果數據沒有換行,則該條數據無法采集到 屬于有狀態服務,可以記錄上一次采集數據的位置點信息 修改配置文件 vim /etc/filebeat/config/03-log-to-console.yaml filebeat.inp…

Fluent Bit針對kafka心跳重連機制詳解(下)

#作者:程宏斌 文章目錄disconnectreconnect接上篇:https://blog.csdn.net/qq_40477248/article/details/150957571?spm1001.2014.3001.5501disconnect 斷開連接的情況主要是兩種: 連接或傳輸過程中有錯誤發生 超時, 比如空閑時間超時 ** * Close and …

React 第七十一節 Router中generatePath的使用詳解及注意事項

前言 generatePath 是 React Router 的一個實用工具函數,用于根據路徑模式和參數對象生成實際的 URL 路徑。它在需要動態構建鏈接的場景中非常有用,比如生成導航鏈接或重定向路徑。 1、基本用法和注意事項 import { generatePath } from react-router-do…

Python 爬蟲案例:爬取豆瓣電影 Top250 數據

一、案例背景與目標 豆瓣電影 Top250 是國內權威的電影評分榜單之一,包含電影名稱、評分、評價人數、導演、主演、上映年份、國家 / 地區、類型等關鍵信息。本案例將使用 Python 編寫爬蟲,實現以下目標: 自動請求豆瓣電影 Top250 的 10 個分…

SPA安全警示:OAuth2.0致命漏洞

OAuth2.0在SPA應用中的安全陷阱SPA(單頁應用)通常采用隱式授權(Implicit Flow)或PKCE(Proof Key for Code Exchange)授權模式,但存在以下安全隱患:隱式授權模式的漏洞訪問令牌直接暴…

table表格字段明細展示

文章目錄1、字段渲染2、異步請求展示明細3、hover展示問題3.1 基本邏輯3.2 hover時長判斷3.3 renderhover表格字段明細展示,屬于比較小的需求,但是也有一定交互細節,本文選取部分場景。 1、字段渲染 render和渲染組件是有區別的。render常見為…

主網上線后生態極速擴張的 Berachain 生態,有哪些值得關注的項目?

Berachain 是典型的將 DeFi 思維嵌入到共識機制中的 Layer1,其核心是 PoL(Proof of Liquidity)共識。PoL 要求驗證者在獲得區塊獎勵前,必須將流動性導入白名單協議,并由市場決定資金流向。這樣,驗證者的權重…

claude-code對比GitHub-Copilot

Claude Code 文檔日期:2025 年 08 月 20 日 定位 項目級開發助手,專注于全局視野和復雜任務的處理。 特點 超長上下文支持:支持 200k 超長上下文,適合處理復雜項目。豐富的自定義命令:提供靈活的命令配置,滿…

Roo Code自定義Mode(模式)

什么是自定義模式? 簡單來說,自定義模式就像是給Roo Code穿上不同的"職業裝"。你可以創建針對特定任務或工作流程量身定制的模式,讓Roo在不同場景下表現出專業的行為。 這些模式分為兩種類型:全局模式(在所有…

Next.js渲染模式:SSR、SSG與ISR揭秘

Next.js 核心渲染模式深度解析:SSR、SSG 與 ISR 在構建現代 Web 應用時,性能和用戶體驗是至關重要的考量。Next.js 作為 React 生態中一個備受推崇的框架,其強大的服務端渲染(SSR)、靜態站點生成(SSG&#…

Veo Videos Generation API 對接說明

本文介紹了如何對接 Veo Videos Generation API,通過輸入自定義參數生成Veo官方視頻。 下面將詳細闡述 Veo Videos Generation API 的對接流程。 申請流程 使用 API 前,需前往 Veo Videos Generation API 頁面申請服務。進入頁面后,點擊「…

YOLO 目標檢測:YOLOv3網絡結構、特征輸出、FPN、多尺度預測

文章目錄一、YOLOV31、網絡結構1.1 整體結構1.2 主干網絡1.3 特征輸出1.4 特征融合FPN(Feature Pyramid Networks)FPN 融合上采樣融合2、多尺度預測3、損失函數4、性能對比一、YOLOV3 YOLOv3(You Only Look Once v3)是YOLO系列中…

【GIS圖像處理】有哪些SOTA方法可以用于將1.5米分辨率遙感圖像超分辨率至0.8米精度的?

針對將1.5米分辨率遙感圖像超分辨率至0.8米的需求,當前主流方法可分為以下幾類,結合最新研究進展和實際應用場景,具體技術方案及SOTA方法如下: 一、基于Transformer的高效建模 1. Top-k標記選擇Transformer(TTST) 核心機制:通過動態選擇前k個關鍵標記(token),消除冗…

【電力電子】逆變器控制策略:PQ Droop下垂控制、電壓電流雙環控制與SPWM調制

逆變器中的 PQ Droop 控制。 1. PQ Droop 控制的定義 PQ Droop(有時也稱為功率下垂控制,Power Droop Control)是微電網、并聯系統或逆變器并網運行中常用的一種分布式功率控制方法。 P-Droop(有功下垂):通過調節逆變器輸出頻率與有功功率之間的關系實現功率分配。 Q-Dro…

【LeetCode 熱題 100】5. 最長回文子串——中心擴散法

Problem: 5. 最長回文子串 文章目錄整體思路完整代碼時空復雜度時間復雜度:O(N^2)空間復雜度:O(1)整體思路 這段代碼旨在解決經典的 “最長回文子串” (Longest Palindromic Substring) 問題。問題要求在一個給定的字符串 S 中,找到一個最長…