【第二十四周】從大語言模型到多模態大模型的發展

摘要

大語言模型（Large Language Model, LLM）是指一類基于深度學習的人工智能系統，它們被設計用來理解和生成自然語言。這些模型通常是在大量的文本數據上進行訓練的，通過學習文本中的模式和結構，它們能夠執行各種各樣的自然語言處理任務，如文本生成、問答、翻譯、摘要等。隨著BERT、GPT系列、PaLM系列、LLaMA系列、PanGu系列等大型語言模型不斷發展和成熟，在各種任務的文本理解和生成方面表現出強大的能力。與此同時，計算機視覺領域中的跨模態模型（Cross-modal Model）也出現了，比如CLIP和Stable Diffusion。此外，在LLM基礎上發展起來的多模態大模型(Large Multimodal Models, lmm)也取得了重大進展和突破，逐漸形成了通用通用人工智能(Artificial General Intelligence, AGI)的雛形。

Abstract

Large Language Model (LLM) refers to a class of artificial intelligence systems based on deep learning, designed to understand and generate natural language. These models are typically trained on vast amounts of text data, learning the patterns and structures within the text, which enables them to perform a wide variety of natural language processing tasks such as text generation, question answering, translation, summarization, and more. With the continuous development and maturation of large language models like BERT, the GPT series, PaLM series, LLaMA series, and PanGu series, they have demonstrated powerful capabilities in text understanding and generation across various tasks. Meanwhile, cross-modal models (Cross-modal Model) in the field of computer vision have also emerged, such as CLIP and Stable Diffusion. Additionally, significant progress and breakthroughs have been made in large multimodal models built upon the foundation of LLMs, gradually forming the prototype of general artificial intelligence.

1.大語言模型

1.1.LLM的結構

大語言模型的結構主要有三種：

第一種是編碼器-解碼器（Encoder-Decoder）。這種結構起源于 RNN 和 LSTM，首先由 Transformer
運用到大語言模型中。Encoder-Decoder架構的編碼器負責將輸入序列編碼為固定長度的上下文向量，解碼器則根據這個上下文向量生成輸出序列。在Transformer模型中，編碼器使用雙向注意力機制，解碼器使用單向注意力機制，但解碼器可以關注編碼器輸出的上下文信息。這種機制確保了模型能夠同時處理輸入和輸出的復雜關系。這種結構通常用于序列到序列（Seq2Seq）任務，如機器翻譯、文本摘要等，能夠同時處理輸入和輸出序列，實現復雜的序列轉換任務。
第二種結構是僅有編碼器（Encoder-Only），也被稱為單向架構，僅包含編碼器部分，沒有解碼器。它主要適用于理解任務，如文本分類、情感分析等。這種結構側重于編碼器側，它通常使用雙向自注意機制獲取上下文語言表示，主要用于涉及只需要輸入處理的單向任務的場景，例如文本分類和情感分析。這類的代表性模型包括BERT、RoBERTa和ALBERT。在BERT模型中，采用雙向注意力機制，能夠同時關注序列中的前后詞語，從而獲得更全面的上下文理解。此外，BERT還使用掩碼語言模型（Masked
Language Model, MLM）進行訓練，提高了模型的泛化能力。
第三種結構是僅有解碼器（Decoder-Only）。此結構關注序列中后續輸出token的預測。它還可以分為兩種變體：因果解碼器（Causal Decoder）和前綴解碼器(Prefix Decoder)，其區別在于所使用的注意機制。因果解碼器完全依賴于之前的token來預測下一個token。而前綴解碼器（也稱非因果解碼器）可以看做是Encoder-Decoder模型的變體，在輸入部分采用雙向注意力機制，這意味著模型在處理輸入序列時，任意兩個token都可以相互看見。而在輸出部分，前綴解碼器則采用單向注意力，即待生成的token可以看到Encoder側所有token（包括上下文）和Decoder側已經生成的token，但不能看未來尚未產生的token。這種模型架構允許模型在生成文本時同時考慮前綴信息和單向生成的特性，適用于需要同時理解上下文和生成文本的任務。只有解碼器的架構框架特別適合于文本生成任務，并且構成了當前大型語言模型中的流行選擇，如GPT系列。

1.2.LLM的預訓練

預訓練是大型語言模型訓練中最重要的步驟之一，它指的是在擁有大量文本數據的語料庫上進行的一個初始訓練階段。這個過程旨在讓模型學習到語言的基本模式、結構和特征，而不需要針對特定任務進行專門訓練。預訓練的目標是使模型獲得通用的語言理解能力，能夠捕捉到詞匯、語法、語義等層次上的規律，并形成對語言的一種內在表示。

常見的預訓練目標包括以下三種主要策略:

自回歸語言建模(Autoregressive Language Modeling，ALM):
自回歸模型是一種基于先前單詞預測下一個單詞的概率分布的語言模型。這種模型以序列的方式工作，即它在生成文本時一次只考慮一個詞，并且該詞的生成依賴于之前的詞。最著名的例子是傳統的RNN、LSTM和GRU等循環神經網絡，以及像GPT系列這樣的Transformer解碼器模型。這種方法采用的是因果（或稱為單向）注意力機制，即在預測每個位置的詞時，只能看到該位置之前的詞，而不能看到之后的詞。在訓練過程中，模型試圖最大化給定前文條件下預測下一個詞的對數似然。這意味著它學習到如何根據前面的上下文來預測后續的詞匯，這使得它擅長理解語言中的因果關系或順序性信息。
前綴語言建模(Prefix Language Modeling，PLM):
前綴語言模型是一種特殊的自回歸模型，它不僅使用過去的上下文（即句子的開頭部分），還可以利用未來的某些部分作為條件輸入。然而，這里的“未來”并不是指整個后續的句子，而是僅限于當前詞之前的一小段文本。在這種策略中，模型不僅需要根據過去的上下文預測未來的內容，還需要能夠處理輸入序列的一部分作為“前綴”，然后基于這個前綴生成后續內容。這種方式允許模型更好地適應對話系統等應用場景，在這些場景中，模型可能需要根據對話歷史生成回復。這種方法結合了雙向和單向的特性，既可以讓模型利用已知的前綴信息，又保持了生成過程中的連貫性和邏輯性。比如UniLM。
掩碼語言建模(Masked Language Modeling，MLM):
掩碼語言建模是一種非自回歸的方法，它通過隨機遮蔽輸入文本中的某些單詞，然后讓模型嘗試預測這些被遮蔽掉的詞是什么。這種方法打破了傳統的從左到右或從右到左的生成方式，使模型能夠在訓練期間同時看到左右兩邊的上下文信息。BERT是一個采用掩碼語言建模的經典例子。在BERT的預訓練階段，大約15%的詞會被隨機替換為特殊標記MASK，然后模型的任務就是基于周圍的上下文來預測這些被遮蓋住的詞。這種方法有助于模型學習到更加豐富的語義表示，因為它是基于雙向上下文進行預測的。MLM使模型能夠從雙向上下文中學習，因為它同時考慮序列中的前上下文和后上下文。與ALM和PLM相比，MLM在保持并行化效率的同時，為模型提供了對上下文更全面的理解。

1.3.LLM的全量微調（Full Fine-Tuning）

全量微調是指一個大語言模型適應特定下游任務的過程，包括了使用特定任務的數據更新預訓練模型的所有參數，這是大模型遷移學習的具體體現。例如，GPT最初在一個龐大的語料庫上進行預訓練，隨后在12個不同的NLP下游任務上進行全量微調。在這個微調階段之后，GPT變體在這些目標任務中的9個上實現了最先進的性能。對于處理下游NLP任務的大語言模型來說，全量微調是目前最流行的方法。然而，全量微調的一個重要缺陷是隨著大語言模型的規模不斷升級，參數的數量也不斷增長，最后導致計算的消耗無法承受。

1.4.LLM的參數高效微調（?Parameter-Efficient Fine-Tuning）

與全量微調不同，參數高效微調是一種旨在以最少的參數更新和計算資源實現預訓練模型微調的方法。參數高效調優的主流方法包括:

適配器調優（Adapter Tuning）：Adapter
Tuning的基本思想是在預訓練模型的中間層中插入輕量級的適配器（Adapter），以便在微調特定任務時僅修改少量的參數。這樣做的好處是，我們可以在不顯著增加模型參數數量的情況下，提高模型的表現。由于維度較低，適配器可以在保留原始模型權重的同時，專門針對這些新添加的參數進行微調，從而確保了微調的可行性并保持了計算效率。
低秩自適應(Low-Rank Adaptation，LoRA) :
LoRA背后的核心思想是通過將某些權重矩陣分解為兩個更小的矩陣（即低秩近似）來進行微調，只對這兩個較小矩陣進行更新就可以有效地修改整個模型的行為，從而顯著減少所需參數的數量，同時保持與全量微調相當的性能。
量化低秩自適應(Quantized Low-Rank
Adaptation,，QLoRA):在LoRA的基礎上，QLoRA集成了量化。它引入量化運算，進一步壓縮可訓練參數的空間。QLoRA在資源受限環境中部署和更新深度學習模型的場景中尤其具有優勢，例如邊緣設備。

1.5.LLM的提示工程（Prompt-Engineering）

提示工程將提示作為可學習的參數，而不需要更新預訓練模型的參數。通過只優化極小數量的參數，提示工程可以提高預訓練模型在各種下游任務中的性能，同時接近完全量微調的功效。

Prefix-Tuning：Prefix
Tuning通過在預訓練模型的輸入層之前添加一系列可訓練的連續向量（即前綴Prefix），這些前綴作為額外的輸入與原始輸入一起被模型處理。通過優化這些前綴的參數，模型可以學會生成適應新任務輸出的提示，而無需改變模型的主要參數。在訓練過程中，只有前綴向量的參數是可訓練的，預訓練模型的參數被凍結。
P-Tuning：P-Tuning通過在模型的輸入中加入一小段可訓練的模板，使得模型能夠針對特定任務進行調整，而不需要對整個模型進行全量微調。它能夠將離散提示映射到可訓練的連續提示的嵌入中，利用LSTM和MLP來構造提示編碼器。與前綴調優不同，P-Tuning在輸入層的任意位置插入提示token。這些token通過提示編碼器依次轉換為隱藏狀態，并與輸入嵌入一起聯合訓練。然而，為了實現更佳的性能效果，必須在整體模型調優過程中同步優化提示嵌入。
Prompt-Tuning：Prompt-Tuning 可以被視為 P-Tuning和Prefix Tuning的簡化版本，
核心思想是在預訓練模型中引入任務特定的指令（Prompt），這些指令可以是文本片段、圖像、語音流等，用于為模型提供特定任務的上下文。這種方法旨在降低預訓練模型與下游任務之間的語義差異，并復用預訓練模型強大的表達能力。Prompt
Tuning將一系列提示與輸入序列連接起來，形成模型的輸入。嵌入的提示和輸入嵌入共同構成一個參數矩陣，該矩陣由模型處理，其中只有提示的參數被更新，而預訓練模型的原始權重保持不變。這種方法表現出高度的參數更新效率，并隨著模型參數數量的增長變得越來越有競爭力。即使在模型參數超過數十億的情況下，它也能夠達到與全量微調相當的性能。通過
Prompt-Tuning，單個預訓練模型可以通過為每個下游任務訓練不同的提示參數，高效地重新用于多個下游任務。
上下文學習：GPT-3的少樣本性能突顯了上下文學習的潛力，使語言模型能夠在沒有額外模型調優的情況下，僅依賴少數示范樣例掌握下游任務。上下文學習被分解為兩個不同的階段，即訓練階段和推理階段。在訓練階段，模型通過預訓練目標獲得上下文學習的能力。在推理階段，通過精心設計示例和選擇適當的評估機制，展示了模型的上下文學習能力。
思維鏈：思維鏈概念的本質在于通過向模型提供適度的范例集合來模仿人類解決復雜問題的認知過程。解決方案被分解成一系列用自然語言表達的中間推理步驟，同時清晰地描繪了從查詢到解決的邏輯軌跡。

prompt tuning、P-tuning和prefix tuning的結構如下所示：
在這里插入圖片描述

1.6.目前比較具有代表性的幾個大語言模型

在這里插入圖片描述
Transformer(2017)：Transformer是在2017年由谷歌的研究人員提出的一種模型。Transformer一個最大的特點就是引入了注意力機制，革新了自然語言處理（NLP）領域，并且迅速成為許多先進AI應用的核心組件，如機器翻譯、文本生成、問答系統等。此外，將多頭注意機制合并到Transformer架構中允許所得到的模型同時使用幾個獨立的自注意頭，從而促進并行學習大量不同的注意子空間。
Transformer 的核心原理其實就是以下這條公式：
在這里插入圖片描述

T5(2019): T5是由谷歌研究院開發的一種基于Transformer架構的模型，專門設計用于各種文本到文本的任務，采用了編碼器-解碼器框架。與BERT和GPT等其他流行的預訓練語言模型不同，T5將所有自然語言處理任務統一為文本到文本的形式，這使得它能夠更加靈活地處理廣泛的任務類型。
在這里插入圖片描述
GPT-3(2020)：GPT-3是由OpenAI開發的第三代生成式預訓練Transformer模型，采用了Transformer-Decoder架構。它代表了自然語言處理領域的一個重大進展，因其龐大的規模和出色的文本生成能力而廣受關注。

CPM-2 (2021): CPM-2與其前身基于純解碼器架構的CPM不同，采用了傳統Transformer模型的編碼器-解碼器框架。CPM-2由兩個不同的版本組成:標準的CPM-2版本擁有110億個參數，而其混合專家(MoE)版本擁有前所未有的規模，擁有1980億個參數。CPM-2的核心創新在于其具有成本效益的設計;它采用知識繼承策略，利用預訓練語言模型的現有知識，促進CPM-2的訓練過程。此外，它利用了提示調諧，與微調相比，這種方法只需要更新模型參數的0.01%，但仍然能夠達到與完全微調相當的性能。

PaLM (2022): PaLM是具有多種參數尺度的純解碼器Transformer語言模型，包括80億、620億和5400億參數的模型。該模型是在一個龐大的數據集上進行預訓練的，總計7800億個token，其中一半這些數據由社交媒體對話組成，27%來自網頁內容，其余部分包括書籍和代碼等來源。PaLM的創新之處在于其利用Pathways系統進行大規模預訓練，促進了TPU v4集群內多個pod的協同計算，實現了模型參數的同步更新，實現了高效并行處理，顯著降低了時間成本。在評估方面，在BIG-bench上進行的實驗表明，具有5400億個參數的PaLM版本在短時學習能力上超過了最先進的模型，如GPT-3、Gopher和Chinchilla。此外，該模型在大多數被評估任務上的表現超過了人類的平均水平。

OPT (2022): OPT模型經歷了GPT-3 175B的全尺寸復制。采用相同的純解碼器架構，并保持相同的最大參數數量1750億。重要的是，該團隊已經向開源社區完整地發布了OPT模型權重、代碼和訓練日志。OPT使用的預訓練語料庫完全由可公開訪問的數據組成，總計約180億個token。它集成了RoBERTa、the Pile和PushShift.io Reddit語料庫。OPT和GPT-3在16個數據集上進行了比較，包括零樣本、多樣本和對話實驗。結果表明，OPT的性能與GPT-3大致相當。此外，該團隊還分析了OPT的局限性，例如它對說明性指令的次優響應以及產生有害或歧視性內容的可能性。

LLaMA(2023):：LLaMA是由Meta AI開發的一系列大型語言模型，采用了純解碼器的transformer架構，利用了自注意力機制來捕捉文本中的長距離依賴關系。此外，它還采用了多種優化技術以提高訓練速度和推理效率。LLaMA展示了出色的零樣本、少樣本學習能力，可以在沒有或僅有少量額外訓練的情況下完成各種復雜的NLP任務。例如，它可以進行高質量的文本摘要、對話生成、代碼編寫等。

PanGu-Σ(2023):：PanGu-Σ 是由華為研發的大型預訓練語言模型，它代表了中國企業在自然語言處理領域的重要進展。PanGu-Σ 擁有超過2000億個參數，這使得它成為全球已知的最大規模之一的語言模型之一。這種龐大的參數量有助于提高模型在復雜任務上的表現，如多步推理、長文本生成等。PanGu-Σ 特別注重對中文的支持，使用了大量的中文語料庫進行預訓練，包括但不限于新聞、書籍、維基百科等內容。這使得它在處理中文相關的任務時表現出色，例如中文文本生成、問答系統、機器翻譯等。

在這里插入圖片描述

2.多模態大模型

隨著大語言模型的興起，多模態大模型（Large Multimodal Models，lmm）成為一個熱門的研究課題，多模態大模型是指能夠處理和理解來自多種不同數據類型或模態（如文本、圖像、音頻、視頻等）的大型預訓練模型。這些模型利用LLM作為中心樞紐來處理多模態任務，從單一的文本模態擴展到包括圖像、音頻和視頻等模態，通過整合不同模態的信息，提供了比單一模態模型更豐富和全面的數據表示，從而能夠在多種任務中得到出色的表現。

2.1.LMM的結構

多模態大模型通常由以下五個部分組成，分別是多模態編碼器、輸入模態對齊器、預訓練的LLM主干、輸出模態對齊器和多模態解碼器。

多模態編碼器旨在從多種輸入模態（如文本、圖像、視頻和音頻）中提取特征。在lmm的背景下，預訓練編碼器通常使用其參數凍結，以利用其特征提取能力。

輸入模態對齊器負責將由多模態編碼器提取的來自不同模態的特征向量對齊到文本特征空間，然后將它們轉換為與LLM兼容的特征表示。在這種情況下使用的主要輸入模態對齊器包括線性映射器、多層感知機(MLP)、Querying-Transformer、Prompting-Transformer、多尺度查詢Transformer和交叉注意層。

上游LMM使用預訓練或微調的LLM作為主干，這是LMM架構的核心。上游LLM主干接收對齊的多模態輸入，利用其在文本特征空間中的理解、推理和生成能力來生成文本輸出或指令token。這些指令token響應用戶提供的提示，并用于引導其他組件執行更復雜的跨模態任務。

輸出模態對齊器與輸入模態對齊器相比，輸出模態對齊器將上游LLM主干產生的指令token映射為與解碼為目標非語言模態兼容的特征表示。常用的輸出模態對齊器包括線性對齊器、多層感知機(MLP)和帶Encoder-Decoder結構的Transformer。

多模態解碼器是指對經過輸出模態對齊器后處理的特征進行解碼的組件。其目的是生成各種目標模態的輸出，不同的多模態內容類型采用不同的解碼器選項。

2.2.LMM的訓練

LMM的訓練不包含多模態編碼器、上游LLM骨干和多模態解碼器這些預訓練組件，而僅需要分別訓練輸入模態對齊器和輸出模態對齊器。LMM的訓練目標有兩個，第一是通過輸入模態對齊器將多模態輸入對齊到文本特征空間中，第二是通過訓練輸出模態對齊器將指令 token 映射回生成器可理解的特征來確保多模態輸出的質量。

2.3.LMM的指令調優

在這里插入圖片描述

指令調優最初是在FLAN中引入的一種訓練技術，涉及使用包含特定格式指令的小型專業化數據集對預訓練的大語言模型進行精煉。該技術旨在以減少的數據集規模和更少的參數更新，實現微調和提示的效果，從而增強模型理解人類指令的能力，并提高其零樣本性能。

許多單模態大語言模型（如 GPT-3 、InstructGPT 、T0 ）上的指令調優的成功也可以擴展到多模態領域。目前，多模態指令調優數據集主要采用三種構建形式：數據集適配、自我指令合成以及兩者的結合。

數據集適配（dataset Adaptation）：數據集適配以低成本和高速度的特點調整現有大規模標注數據集的格式，從而創建合適的指令數據。這種方法已被 MiniGPT-4和 InstructBLIP 等模型采用。然而，它依賴于人工干預，并且通過直接采用或淺層次修改原始注釋的方法缺乏新穎性，這使得其在廣泛推廣到新場景時可能存在缺陷。
自我指令合成（Self-Instruction Synthesis）：自我指令合成利用了大語言模型（LLM）的理解和生成能力，通過少量手動標注的模板樣本指導像 GPT-4 這樣的大型語言模型重構現有的標注數據集，以創建指令數據。Shikra、VideoChat和 LLaVAR 等模型采用了這種方法。它具有靈活的數據生成機制，確保了指令數據的多樣性和對現實世界情境的泛化能力。然而，依賴于 LLM 的LMM也引入了與這些模型相關的固有幻覺問題。

2.4.LMM的提示工程

在大模型中，提示工程為了避免更新模型參數，通過使用提示token來優化大模型的性能。而在多模態大模型中，提示工程將大語言模型的上下文學習和思維鏈演變為多模態上下文學習和多模態思維鏈范式。

多模態上下文學習：大語言模型利用上下文學習技術，使他們能夠在推理階段實現與微調相當的幾次性能，這僅僅依賴于下游任務的少量演示。而在多模態大模型中，通過提供跨模態的演示，將上下文學習擴展到多模態上下文學習時，可以提高性能。
多模態思維鏈：思維鏈的概念最初是作為大語言模型中一種處理復雜推理任務的技術而出現的。它促使語言模型將復雜問題分解為一系列子問題并迭代求解，從而顯著提高LLM的性能。一些研究將單模態 CoT 推廣到了多模態 CoT（M-CoT），可以根據不同的提示范式分類，如零樣本 M-CoT、少樣本M-CoT 和微調 M-CoT。在零樣本 M-CoT下，不使用任何示例來引導 LMM 進行 CoT 過程；相反，在推理階段通過簡單的文本指令觸發模型的推理能力。少樣本 M-CoT類似于上下文學習，提供少量詳細說明中間推理步驟的示例。而微調M-CoT需要使用特定數據集對 LMM 的推理能力進行微調。通常，前兩種方法更適用于較大的 LLM，而后一種方法常用于較小的模型。關于模態對齊，M-CoT 可進一步分為翻譯映射和可學習映射。翻譯映射指的是將非文本模態輸入直接轉換為文本描述，通過“翻譯”有效地將非文本模態信息傳遞給文本模態，然后再參與 CoT 推理。不過這個過程不可避免地會丟失一些模態特定的信息。而可學習映射構建一個可訓練的模型，將其他模態的特征整合到文本特征空間中，形成聯合嵌入，這將作為輸入供 LLM 進行 CoT 推理。

2.5.LMM的分類

2.5.1.Image+Text to Text

在這里插入圖片描述

“圖像+文本到文本”模型也被稱為圖像理解模型，構成了LMM領域內研究最廣泛的一類模型。在目前主流的圖像理解模型中，CLIP-ViT是目前采用最廣泛的視覺編碼器，緊隨其后的是Eva-CLIP-ViT。這些編碼器明顯優于其他類型的視覺編碼器。這種優勢可能源于CLIP采用的對比學習范式，再加上它的4億個高質量圖像-文本對，這兩者共同賦予了它強大的視覺特征提取能力。

此外，線性映射器和交叉注意層經常被用作多模態對齊器，這可能是因為與P-former等對齊器相比，它們的結構簡單且性能效率高。還有一種方法是采用自定義的模態對齊器設計。例如，mPLUGOwl2引入了一種模態自適應模塊，旨在準確計算和比較共享語義空間內不同模態之間的相似性。與此同時，MobileVLM系列使用了輕量級下采樣投影器（LDP），與Q-former不同，它在架構輕量級的同時保持了視覺特征的空間位置信息。

對于上游LLM的偏好，Vicuna已經超過了LLaMA系列成為了主流選擇。Vicuna作為一種衍生模型，在ShareGPT.com的監督數據上進行微調，與LLaMA相比，表現出更優越的性能。這一現象闡明了圖像理解模型領域內的一種技術偏好，即傾向于結合輕量級、低訓練成本和高質量對話的LLM。

2.5.2.Video+Text to Text

在這里插入圖片描述

與圖像理解模型相比，用于視頻理解的“視頻+文本到文本”模型的數量相對較少。由于在處理視頻和圖像方面具有相似性，視頻理解模型也具有理解圖像的能力。

在圖像生成模型的背景下，CLIP ViT通常作為視覺編碼器組件的普遍選擇，Stable Diffusion模型主要用作視覺生成器。此外，上游大語言模型主干的選擇呈現出更高程度的多樣性，從Vicuna到LLaMA，甚至延伸到基于web的ChatGPT。這些模型的特點是實現方法更加多樣化。例如在Visual-ChatGPT和DiffusionGPT中，模型結構并不是端到端設計，而是整合ChatGPT來細化提示優化。

2.5.3.Image+Text to Text+Image

在這里插入圖片描述

“Image+Text to Text+Image”類別中的模型不應被視為單純的圖像生成模型，而應該被視為圖像編輯模型和生成模型。這類模型被賦予了對輸入圖像執行各種操作的能力，包括提取、注釋和分割，這導致它們被歸類為圖像處理模型。例如，CogCoM能夠執行裁剪和放大操作以獲取詳細的本地視覺內容，并且可以通過OCR識別圖像中的文本信息，同時基于視覺輸入進行推理。雖然圖像編輯并不等同于圖像生成，但它確實體現了LMM理解和操縱視覺輸入數據的能力。

2.5.4.Video+Text to Text+Video

在這里插入圖片描述

“視頻+文本到文本+視頻”模型可以概念化為視頻生成模型，例如CoDi-2、ModaVerse和NExT-GPT等模型體現了能夠理解或生成文本、音頻、圖像和視頻內容的“任意到任意”大型多模態模型。

在所使用的組件中，ImageBind是最常用的視覺編碼器，而LLaMA 2代表了上游LLM主干的普遍選擇。對于視頻生成器，主流的選擇是HuggingFace的ZeroScope系列開源模型，這是阿里巴巴DAMO研究院開發的視頻生成模型。該模型自動生成與用戶提供的文本描述一致的視頻，融合了視覺元素（場景）、音頻元素（音樂和音效）和字幕。此外，HuggingGPT采用了Visual-ChatGPT的設計理念，采用ChatGPT作為其上游LLM主干，對用戶提示進行理解、處理和細化。此外，它利用社區內各種現有外部模型的功能來促進多模態輸入-輸出交互。

目前，無論是基于LMM、Latent Diffusion models，還是基于gan，視頻生成模型都只能生成幾秒的視頻，并且在邏輯一致性和真實性方面都還存在不足。在此背景下，OpenAI于2024年2月推出了Sora模型，該模型通過理解文本描述，不僅可以生成長達一分鐘的高清視頻內容，而且還遵守現實世界的物理定律并保持邏輯連續性。但是，Sora模型的技術細節和內部工作原理都沒有公開披露，真實性仍然存疑。

4.總結

本文簡單回顧了從單模態大語言模型到多模態的發展軌跡，分別從兩者的結構、訓練、調優和提示工程等方面進行了詳細的介紹。大語言模型（LLM）的發展從基于文本的單一模態處理迅速擴展至多模態領域，催生了能夠理解和生成多種數據類型（如文本、圖像、音頻、視頻等）的大型多模態模型（LMM）。多模態大模型進一步推動了這一趨勢，通過整合不同模態的信息，實現了比單一模態模型更豐富全面的數據表示。在應用層面，LMM不僅限于“圖像+文本到文本”類別的圖像理解，還包括“視頻+文本到文本”、“圖像+文本到文本+圖像”和“視頻+文本到文本+視頻”的模型，展示了其在圖像編輯、視頻生成等領域的潛力。盡管當前的視頻生成模型在長度和邏輯一致性上仍存在局限，但諸如Sora這樣的新模型已經展現出突破性的進展，預示著未來多模態模型將在通用人工智能（AGI）發展中扮演重要角色。