大語言模型介紹

隨著2022年底 ChatGPT 再一次刷新 NLP 的能力上限,大語言模型(Large Language Model,LLM)開始接替傳統的預訓練語言模型(Pre-trained Language Model,PLM) 成為 NLP 的主流方向,基于 LLM 的全新研究范式也正在刷新被 BERT 發揚光大的預訓練-微調范式,NLP 由此迎來又一次翻天覆地的變化。從2022年底至今,LLM 能力上限不斷刷新,通用基座大模型數量指數級上升,基于 LLM 的概念、應用也是日新月異,預示著大模型時代的到來。

1. LLM 的定義

LLM,即 Large Language Model,中文名為大語言模型或大型語言模型,是一種相較傳統語言模型參數量更多、在更大規模語料上進行預訓練的語言模型。

一般來說,LLM 指包含數百億(或更多)參數的語言模型,它們往往在數 T token 語料上通過多卡分布式集群進行預訓練,具備遠超出傳統預訓練模型的文本理解與生成能力。不過,隨著 LLM 研究的不斷深入,多種參數尺寸的 LLM 逐漸豐富,廣義的 LLM 一般覆蓋了從十億參數(如 Qwen-1.5B)到千億參數(如 Grok-314B)的所有大型語言模型。只要模型展現出涌現能力,即在一系列復雜任務上表現出遠超傳統預訓練模型(如 BERT、T5)的能力與潛力,都可以稱之為 LLM。

一般認為,GPT-3(1750億參數)是 LLM 的開端,基于 GPT-3 通過 預訓練(Pretraining)、監督微調(Supervised Fine-Tuning,SFT)、強化學習與人類反饋(Reinforcement Learning with Human Feedback,RLHF)三階段訓練得到的 ChatGPT 更是主導了 LLM 時代的到來。自2022年11月 OpenAI 發布 ChatGPT 至今不到2年時間里,已涌現出了上百個各具特色、能力不一的 LLM。下表列舉了自 2022年11月至2023年11月國內外發布的部分大模型:

2.LLM的能力?

(1)涌現能力(Emergent Abilities)

區分 LLM 與傳統 PLM 最顯著的特征即是 LLM 具備?涌現能力?。涌現能力是指同樣的模型架構與預訓練任務下,某些能力在小型模型中不明顯,但在大型模型中特別突出。可以類比到物理學中的相變現象,涌現能力的顯現就像是模型性能隨著規模增大而迅速提升,超過了隨機水平,也就是我們常說的量變引起了質變。

(2)上下文學習(In-context Learning)

上下文學習是指允許語言模型在提供自然語言指令或多個任務示例的情況下,通過理解上下文并生成相應輸出的方式來執行任務,而無需額外的訓練或參數更新。

對傳統 PLM,在經過高成本的預訓練之后,往往還需要對指定的下游任務進行有監督微調。雖然傳統 PLM 體量較小,對算力要求較低,但例如 BERT 類模型(0.5B 參數),進行有監督微調一般還是需要 10G 以上顯存,有一定的算力成本。而同時,有監督微調的訓練數據的成本更高。針對下游任務難度的不同,需要的訓練樣本數往往在 1k~數十k 不等,均需要進行人工標注,數據獲取上有不小的成本。而具備上下文學習能力的 LLM 往往無需進行高成本的額外訓練或微調,而可以通過少數示例或是調整自然語言指令,來處理絕大部分任務,從而大大節省了算力和數據成本。

(3)指令遵循(Instruction Following)

通過使用自然語言描述的多任務數據進行微調,也就是所謂的?指令微調?,LLM 被證明在同樣使用指令形式化描述的未見過的任務上表現良好。也就是說,經過指令微調的 LLM 能夠理解并遵循未見過的指令,并根據任務指令執行任務,而無需事先見過具體示例,這展示了其強大的泛化能力。

指令遵循能力意味我們不再需要每一件事都先教模型,然后它才能去做。我們只需要在指令微調階段混合多種指令來訓練其泛化能力,LLM 就可以處理人類絕大部分指令,即可以靈活地解決用戶遇到的問題。這一點在 ChatGPT 上體現地尤為明顯。通過給 ChatGPT 輸入指令,其可以寫作文、編程序、批改試卷、閱讀報紙等等。

(4)逐步推理(Step by Step Reasoning)

傳統的 NLP 模型通常難以解決涉及多個推理步驟的復雜任務,例如數學問題。然而,LLM 通過采用思維鏈(Chain-of-Thought,CoT)推理策略,可以利用包含中間推理步驟的提示機制來解決這些任務,從而得出最終答案。逐步推理能力意味著 LLM 可以處理復雜邏輯任務,也就是說可以解決日常生活中需要邏輯判斷的絕大部分問題,從而向“可靠的”智能助理邁出了堅實的一步。

3. LLM 的特點

(1)多語言支持

多語言、跨語言模型曾經是 NLP 的一個重要研究方向,但 LLM 由于需要使用到海量的語料進行預訓練,訓練語料往往本身就是多語言的,因此 LLM 天生即具有多語言、跨語言能力,只不過隨著訓練語料和指令微調的差異,在不同語言上的能力有所差異。由于英文高質量語料目前仍是占據大部分,以 GPT-4 為代表的絕大部分模型在英文上具有顯著超越中文的能力。雖然都可以對多種語言進行處理,但針對中文進行額外訓練和優化的國內模型(如文心一言、通義千問等)往往能夠在中文環境上展現更優越的效果。

(2)長文本處理

由于能夠處理多長的上下文文本,在一定程度上決定了模型的部分能力上限,LLM 往往比傳統 PLM 更看重長文本處理能力。相對于以 512 token 為慣例的傳統 PLM(如 BERT、T5等模型的最大上下文長度均為 512),LLM 在拓寬最大上下文長度方面可謂妙計頻出。由于在海量分布式訓練集群上進行訓練,LLM 往往在訓練時就支持 4k、8k 甚至 32k 的上下文長度。同時,LLM 大部分采用了旋轉位置編碼(Rotary Positional Encoding,RoPE)(或者同樣具有外推能力的 AliBi)作為位置編碼,具有一定的長度外推能力,也就是在推理時能夠處理顯著長于訓練長度的文本。

(3)拓展多模態

隨著 LLM 的不斷改進,通過為 LLM 增加額外的參數來進行圖像表示,從而利用 LLM 的強大能力打造支持文字、圖像雙模態的模型,已經是一個成功的方法。通過引入 Adapter 層和圖像編碼器,并針對性地在圖文數據上進行有監督微調,模型能夠具備不錯的圖文問答甚至生成能力。

(4)揮之不去的幻覺

幻覺,是指 LLM 根據 Prompt 杜撰生成虛假、錯誤信息的表現。例如,當我們要求 LLM 生成一篇學術論文及其參考文獻列表時,其往往會捏造眾多看似“一本正經”實則完全不存在的論文和研究。幻覺問題是 LLM 的固有缺陷,也是目前 LLM 研究及應用的巨大挑戰。尤其是在醫學、金融學等非常強調精準、正確的領域,幻覺的存在可能造成非常嚴重的后果。目前也有很多研究提供了削弱幻覺的一些方法,如 Prompt 里進行限制、通過 RAG(檢索增強生成)來指導生成等,但都還只能一定程度減弱幻覺而無法徹底根除。


參考文獻:《Happy-LLM從零開始的大語言模型原理與實踐教程》

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/86968.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/86968.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/86968.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

STM32 CCR寄存器

?1. CCR寄存器在輸入捕獲模式下的特性? ?只讀屬性?: 當定時器通道配置為輸入捕獲模式(如捕獲上升沿/下降沿)時,CCR寄存器硬件自動變為只讀?。軟件寫入操作無效,只能在捕獲事件發生時由硬件自動更新為當前CNT值。…

【JS-6-ES6中的let和const】深入理解ES6中的let和const:塊級作用域與變量聲明的新范式

在ES6(ECMAScript 2015)之前,JavaScript中只有var一種變量聲明方式,這導致了許多作用域相關的問題。ES6引入了let和const兩種新的變量聲明方式,徹底改變了JavaScript的作用域規則。本文將深入探討let和const的特性、優勢以及它們與var的區別。…

[C語言]數據類型關鍵字詳解

基本數據類型 關鍵字說明存儲大小(通常)取值范圍(通常)示例int聲明整型變量4字節(32位系統)-2,147,483,648 到 2,147,483,647int count 100;char聲明字符型變量1字節-128 到 127 或 0 到 255char grade ‘A’;float聲明單精度浮點數4字節1.2e-38 到 3.4e38 (約6-7位有效數字…

黑馬python(二十二)

目錄: 1.Python操作Mysql基礎使用 2.Python操作Mysql數據插入 3.綜合案例 1.Python操作Mysql基礎使用 2.Python操作Mysql數據插入 3.綜合案例 代碼復用 黑馬python(二十一)章節的的代碼,讀取文件內容

課堂筆記:吳恩達的AI課(AI FOR EVERYONE)-W1 深度學習的非技術性解釋

深度學習的非技術性解釋 (1)示例1:以商場為主買T恤為例,價格和需求的關系怎么樣? 一般來說,價格越高,需求越少 這里輸入A是 價格,輸出B是需求,其中的映射關系是神經元&a…

dlib檢測視頻中的人臉并裁剪為圖片保存

環境要求 找個帶有基本cv配置的虛擬環境安裝上dlib依賴的人臉檢測的基礎環境即可,主要是: pip install boost dlib opencv-python缺的按提示安裝。 demo 設置好視頻路徑和圖像保存路徑,裁剪尺寸(默認256)以及裁剪幀…

真的!ToDesk遠程控制已上線原生鴻蒙系統!

2025年5月,ToDesk遠程控制正式宣布完成對PC鴻蒙系統的適配,成為業界首批原生支持HarmonyOS OS的跨端遠控工具。 作為國內支持上億設備的遠程控制軟件,ToDesk以無縫互聯、快速響應、安全無界為核心,重新定義了跨設備遠程協作的界限…

Java-58 深入淺出 分布式服務 ACID 三階段提交3PC 對比2PC

點一下關注吧!!!非常感謝!!持續更新!!! 🚀 AI篇持續更新中!(長期更新) 目前2025年06月16日更新到: AI煉丹日志-29 - 字節…

matplotlib 繪制餅圖

1、功能介紹: 使用 python 的 matplotlib 庫來創建一個簡單的餅圖。 2、代碼部分: import matplotlib.pyplot as plt# 示例數據 labels [A, B, C, D, E] # 類別標簽 sizes [15, 30, 45, 5, 5] # 每個類別對應的數值(百分比&#xff09…

用Rust寫平衡三進制除法器

1、除法的本質 除法的本質是減法,也就是一個大的數減去一個小的數,比如:10/2,也就是10-2-2-2-2-20,所以商5余0,10/3,也就是10-3-3-31,所以商3余1,這也是很常見的方法,但如…

深入探索WordPress Multisite:構建與管理多站點網絡

隨著互聯網的快速發展,越來越多的企業和個人開始使用內容管理系統來搭建和維護自己的網站。WordPress作為全球最受歡迎的CMS之一,因其強大的功能和靈活性,成為了許多網站管理員的首選平臺。而在一些特定需求的場景下,WordPress Mu…

.Net Core 獲取文件路徑

在 .NET Core 中獲取文件路徑的方法取決于你要獲取的文件的位置和上下文。這里將介紹幾種常見的方式來獲取文件路徑。 1. 獲取當前工作目錄 你可以使用 Directory.GetCurrentDirectory() 方法來獲取當前工作目錄的路徑: using System; using System.IO; class P…

順序表整理和單項鏈表01 day20

二:各個主要函數 一:CreatSeqList SeqList *CreateSeqList(int len); -------------------------------------------------------------/*** brief Create a Seq List object 創建一個順序表** param n 是順序表的大小* return SeqList* 指向順序表的…

電商導購app平臺的緩存策略與性能優化方案:架構師的實踐經驗

電商導購app平臺的緩存策略與性能優化方案:架構師的實踐經驗 大家好,我是阿可,微賺淘客系統及省賺客APP創始人,是個冬天不穿秋褲,天冷也要風度的程序猿! 緩存策略的重要性 在電商導購APP平臺中&#xff…

學習C++、QT---12(C++的繼承、權限對繼承的影響)

每日一言 你的價值,由你自己定義,無需他人評判。 C的繼承 直接上案例 繼承是什么意思呢,就是我本來這個類我叫他基類、我希望創建我的下一個類有我這之前的類的屬性和方法,那么我如果不用繼承的話,就需要多寫很多一樣…

(6)Wireshark的TCP包詳解-上篇

1.簡介 上一篇中通過介紹和講解,應該知道要講解和介紹的內容在哪里了吧,沒錯就是介紹OSI七層模型的傳輸層。因為只有它建立主機端到端的連接如:TCP、UDP。 2.TCP是什么? tcp是工作在傳輸層,也就是網絡層上一層的協議。 它是面…

太極八卦羅盤JS繪制

LeaferJS 是一款好用的 Canvas 引擎,通過LeaferJS繪制羅盤案例. https://www.leaferjs.com/ui/guide/ 示例 太極八卦羅盤 直接上代碼 <template><div id"LuoPan"></div><div id"info"><p>屏幕寬度: {{ screenWidth }}px<…

Python開源項目月排行 2025年5月

#2025年5月2025年6月1日1scrapy一個開源的、基于 Python 的高性能網絡爬蟲和數據抓取框架。Scrapy 項目最初由倫敦的網絡聚合和電子商務公司 Mydeco 的員工以及烏拉圭蒙得維的亞的網絡咨詢公司 Insophia 的開發者共同創建。目前&#xff0c;Scrapy 由 Zyte&#xff08;原名 Scr…

Debezium日常分享系列之:在 Kubernetes 中使用 Debezium 的 CDC

Debezium日常分享系列之&#xff1a;在 Kubernetes 中使用 Debezium 的 CDC 架構源數據庫創建數據庫憑證密鑰Debezium 自定義鏡像構建并推送鏡像Kafka Connect 集群Debezium Postgres 連接器Debezium 創建的 Kafka 主題 Debezium 是一個開源的分布式變更數據捕獲 (CDC) 平臺。D…

tf serving和torch serve哪個耗時更低

TensorFlow Serving&#xff08;TF Serving&#xff09;和 TorchServe 的耗時對比需結合具體場景&#xff08;如硬件配置、模型類型、優化策略等&#xff09;&#xff0c;以下從多維度分析兩者的性能差異及適用場景。 ?? 1. 標準性能基準對比 根據公開壓測數據&#xff08;…