語言模型演進:從NLP到LLM的跨越之旅

在人工智能的浩瀚宇宙中,自然語言處理(NLP)一直是一個充滿挑戰和機遇的領域。隨著技術的發展,我們見證了從傳統規則到統計機器學習,再到深度學習和預訓練模型的演進。如今,我們站在了大型語言模型(LLM)的門檻上,它們正在重新定義我們與機器交流的方式。本文將深入探討LLM的發展歷程、技術路線、以及它們對未來AI領域的影響。

引言

自然語言處理(NLP)的目標是讓機器能夠理解、解釋和生成人類語言。這一領域的發展經歷了幾個重要的階段,每個階段都標志著對語言理解深度的一次飛躍。從早期的基于規則的系統,到統計學習方法,再到深度學習模型,直至今日的大型語言模型(LLM),每一步都是對前一階段的超越。
在這里插入圖片描述

從規則到統計:NLP的早期探索

規則階段(1956—1992)

在NLP的早期,研究者依賴于手工編寫的規則來處理語言。這一階段的技術棧包括有限狀態機和基于規則的系統。例如,Apertium就是一個基于規則的機器翻譯系統,它展示了早期研究者如何通過人工整理詞典和編寫規則來實現語言的自動翻譯。
在這里插入圖片描述

統計機器學習階段(1993—2012)

隨著時間的推移,研究者開始轉向統計學習方法,使用支持向量機(SVM)、隱馬爾可夫模型(HMM)、最大熵模型(MaxEnt)和條件隨機場(CRF)等工具。這一階段的特點是少量人工標注領域數據與人工特征工程的結合,標志著從手工編寫規則到機器自動從數據中學習知識的轉變。
在這里插入圖片描述

深度學習的突破:開啟新紀元

深度學習階段(2013—2018)

深度學習的出現為NLP帶來了革命性的變化。以編碼器-解碼器(Encoder-Decoder)、長短期記憶網絡(LSTM)、注意力機制(Attention)和嵌入(Embedding)為代表的技術,使得模型能夠處理更大規模的數據集,并且幾乎不需要人工特征工程。Google的神經機器翻譯系統(2016)就是這一階段的代表之作。
在這里插入圖片描述

預訓練模型的興起:知識的自我發現

預訓練階段(2018—2022)

預訓練模型的出現標志著NLP領域的又一次飛躍。以Transformer和注意力機制為核心的技術棧,結合海量無標注數據進行自監督學習,生成通用知識,再通過微調適應特定任務。這一階段的突變性非常高,因為它擴展了可利用的數據范圍,從標注數據拓展到了非標注數據。
在這里插入圖片描述

LLM的新時代:智能與通用性的融合

LLM階段(2023—?)

LLM代表了語言模型的最新發展,它們通常采用解碼器為主的架構,結合了Transformer和強化學習人類反饋(RLHF)。這一階段的特點是兩階段過程:預訓練和與人類對齊。預訓練階段利用海量無標注數據和領域數據,通過自監督學習生成知識;與人類對齊階段則通過使用習慣和價值觀對齊,使模型能夠適應各種任務。
在這里插入圖片描述
回顧各個發展階段可以看到以下趨勢:

數據: 從數據到知識,越來越多數據被利用起來/未來:更多文本數據、更多其它形態數據→任何數據
算法: 表達能力越來越強;規模越來越大;自主學習能力越來越強;從專業向通用/未來:Transformer目前看夠用,新型模型(應該強調學習效率)?→AGI?
人機關系: 位置后移,從教導者到監督者/未來:人機協作,機向人學習→人向機學習?→機器拓展人類知識邊界

在這里插入圖片描述

LLM技術發展路線:多樣化的路徑

在過去的幾年中,LLM技術發展呈現出多樣化的路徑,包括BERT模式、GPT模式和T5模式等。每種模式都有其特點和適用場景。
在這里插入圖片描述

BERT模式(Encoder-Only)

BERT模式通過雙向語言模型預訓練和任務微調的兩階段(雙向語言模型預訓練+任務Fine-tuning)過程,適用于自然語言理解類任務。BERT預訓練從通用數據中提取通用知識,而微調則從領域數據中提取領域知識。
在這里插入圖片描述
適合解決的任務場景:比較適合自然語言理解類,某個場景的具體任務,專而輕;
在這里插入圖片描述

GPT模式(Decoder-Only)

GPT模式則從單向語言模型預訓練和zero shot/few shot prompt或指令的一階段(單向語言模型預訓練+zero shot/few shot prompt/Instruct)過程中發展而來,適合自然語言生成類任務。GPT模式的模型通常是目前規模最大的LLM,它們能夠處理更廣泛的任務。
在這里插入圖片描述
適用場景:比較適合自然語言生成類任務,目前規模最大的LLM,都是這種模式:GPT 系列,PaLM,LaMDA……,重而通;生成類任務/通用模型 建議GPT模式;
在這里插入圖片描述

T5模式(Encoder-Decoder)

T5模式結合了BERT和GPT的特點,適用于生成和理解任務。T5模式的填空任務(Span Corruption)是一種有效的預訓練方法,它在自然語言理解類任務中表現出色。兩階段(單向語言模型預訓練+Fine-tuning為主)
在這里插入圖片描述
特點:形似GPT,神似Bert
適用場景:生成和理解都行,從效果上看比較適合自然語言理解類任務,國內很多大型LLM采取這種模式;如果是單一領域的自然語言理解類任務,建議使用T5模式;
在這里插入圖片描述

為什么超大LLM都是GPT模式

超大LLM:追求zero shot/ few shot/instruct 效果
目前的研究結論

(模型規模不大時):

  • 自然語言理解類:T5模式效果最好。
  • 自然語言生成類:GPT模式效果最好。
  • Zero shot: GPT模式效果最好。
    如果Pretrain后引入多任務fine-tuning,則T5模式效果好(結論存疑:目前的實驗Encoder-Decoder都是Decoder-only參數量的兩倍,結論是否可靠?)

目前的研究結論(超大規模):
事實:幾乎所有超過100B的LLM模型,都采取GPT模式

可能的原因:
1.Encoder-Decoder里的雙向attention,損害zero shot能力(Check)
2.Encoder-Decoder結構在生成Token時,只能對Encoder高層做attentionDecoder-only結構在生成Token時,可以逐層Attention,信息更細粒度
3.Encoder-Decoder訓練“中間填空”,生成最后單詞Next Token,存在不一致性Decoder-only結構訓練和生成方式一致

超大LLM的挑戰與機遇

隨著模型規模的增長,研究者面臨著如何有效利用參數空間的挑戰。Chinchilla模型的研究表明,在數據充足的情況下,當前的LLM規模可能比理想規模更大,存在參數空間的浪費,然而,Scaling Law也指出,模型規模越大,數據越多,訓練越充分,LLM模型的效果越好。比較可行的思路是:先做小(GPT 3本來不應該這么大),再做大(充分利用模型參數后,繼續做大)。
在這里插入圖片描述

當然鑒于多模態LLM需要更豐富的現實環境感知能力,對此LLM參數也提出更高的要求。
多模態LLM:視覺輸入(圖片、視頻)、聽覺輸入(音頻)、觸覺輸入(壓力)
在這里插入圖片描述
面臨問題:多模態LLM看著效果還不錯,很大程度依賴于人工整理的大數據集

如 ALIGN:1.8B 圖文/LAION:5.8B圖文數據(經過CLIP過濾,目前最大圖文數據)目前是文字帶圖像飛?

圖像處理:自監督技術路線在嘗試,尚未走通(對比學習/MAE)/如果能走通會是AI領域另外一次巨大技術突破;

如果能走通,目前的一些圖像理解類任務(語義分割/識別等)估計會被融入LLM,進而消失

在這里插入圖片描述

提升LLM的復雜推理能力

盡管當前的LLM具備一定的簡單推理能力,但在復雜推理方面仍有不足。例如,多位數加法等任務對LLM來說仍然是一個挑戰。研究者正在探索如何通過技術手段,如語義分解,將復雜推理能力蒸餾到更小的模型中。
在這里插入圖片描述
當然也可以通過能力外包的形式繞過這個問題,如與工具結合:計算能力(外部計算器)、新信息查詢(搜索引擎)等能力借助外部工具完成。
在這里插入圖片描述

LLM與物理世界的交互

具身智能的概念將LLM與機器人技術結合起來,通過與物理世界的交互,利用強化學習獲得具身智能。例如,Google的PaLM-E模型結合了540B的PaLM和22B的ViT,展示了LLM在多模態環境下的潛力。
在這里插入圖片描述
在這里插入圖片描述

其他研究方向

  1. 新知識的獲取:目前有一定困難,也有一些手段(LLM+Retrieval)
  2. 舊知識的修正:目前有一些研究成果,尚需優化
  3. 私域領域知識的融入:Fine-tune?
  4. 更好的理解命令:尚需優化(一本正經的胡說八道)
  5. 訓練推理成本的降低:未來一年到兩年會快速發展
  6. 中文評測數據集的構建:能力試金石。英文目前有一些評測集,比如HELM/BigBench等,中文缺乏/多任務、高難度、多角度的評測數據集。

結語

本文深入探討了LLM的發展歷程、技術路線以及它們對未來AI領域的影響。LLM的發展不僅僅是技術的進步,更是我們對機器理解能力的一次深刻反思。從規則到統計,再到深度學習和預訓練,每一步都為我們提供了新的視角和工具。如今,我們站在大型語言模型的新時代門檻上,面對著前所未有的機遇和挑戰。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/45138.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/45138.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/45138.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【接口設計】如何設計統一 RESTful 風格的數據接口

如何設計統一 RESTful 風格的數據接口 1.版本控制1.1 通過 URL1.2 通過自定義請求頭1.3 通過 Accept 標頭 2.過濾信息3.確定 HTTP 的方法4.確定 HTTP 的返回狀態5.定義統一返回的格式 近年來,隨著移動互聯網的發展,各種類型的客戶端層出不窮。如果不統一…

Mybatis-Plus最優化持久層開發

Mybatis-plus:最優化持久層開發 一:Mybatis-plus快速入門: 1.1:簡介: Mybatis-plus(簡稱MP)是一個Mybatis的增強工具,在mybatis的基礎上只做增強不做改變; 提高效率;自…

國漫推薦11

1.《元龍》 2.《惡魔法則》2023年9月29日 3.《三十六騎》 4.《山河劍心》 5.劍網3俠肝義膽沈劍心 《劍網3俠肝義膽沈劍心》 《劍網3俠肝義膽沈劍心 第二季》 《劍網3俠肝義膽沈劍心之長漂》(番外) 《劍網3俠肝義膽沈劍心 第三季》 6.《仙逆》東方玄幻…

Uniswap V2和Uniswap V3的區別

Uniswap V2和Uniswap V3是兩個不同版本的去中心化交易協議,由Uniswap團隊開發和維護。它們之間的主要區別包括以下幾點: 資金池模型不同: Uniswap V2: 使用恒定乘積市場模型,也就是 x * y k。這意味著每個資金池中的資產的乘積保持不變&…

Transformer的模型的擴展與應用領域的拓展 - Transformer教程

在如今的人工智能領域,Transformer模型已經成為了眾多研究和應用的焦點。從自然語言處理到計算機視覺,Transformer模型的擴展與應用領域的拓展帶來了無數的可能性。今天,我們就來聊聊Transformer模型的擴展以及它在不同領域的廣泛應用。 首先…

生產管理系統功能全拆解:哪些功能是企業真正需要的?

制造業的伙伴經常聽到“生產管理”,但很多人可能只是模糊地知道它與工廠、生產線有關。那么,到底什么是生產管理呢?它的重要性又體現在哪里呢?接下來,我就以輕松的方式,帶大家走進生產管理的世界&#xff0…

函數練習·二 基礎題

# 【以下功能都使用函數封裝】 # 提示: 涉及到要返回的題目,請使用return # 基礎題 # 1.封裝函數,計算從1到某個數以內所有奇數的和并返回 def fn1(n): return sum([i for i in range(1, n, 2)]) print(fn1(7)) # 2.封裝函數,判斷某個數是否是偶…

微信閃退怎么回事?實用技巧助你輕松應對

在使用微信的過程中,偶爾會遇到閃退的問題,這不僅影響我們的日常溝通,還可能導致重要信息的丟失。那么,微信閃退怎么回事呢?閃退的原因可能有很多,包括軟件問題、手機存儲不足、系統不兼容等。本文將詳細分…

筆記本電腦數據丟失如何恢復?

在計算機網絡日益普及的今天,計算機已波及到人們的生活、工作、學習及消費等廣泛領域,其服務和管理也涉及政府、工商、金融及用戶等諸多方面。筆記本電腦等電子產品被各行各業的人所喜愛和接受,早已成為人們出差的必備品,可以用來…

keepalived高可用集群

一、keepalived: 1.keepalive是lvs集群中的高可用架構,只是針對調度器的高可用,基于vrrp來實現調度器的主和備,也就是高可用的HA架構;設置一臺主調度器和一臺備調度器,在主調度器正常工作的時候&#xff0…

OS_同步與互斥

2024-07-04:操作系統同步與互斥學習筆記 第9節 同步與互斥 9.1 同步互斥的基本概念9.1.1 同步關系9.1.2 互斥關系9.1.3 臨界資源9.1.4 臨界區9.1.5 同步機制應遵循規則 9.2 軟件同步機制9.2.1 單標志法9.2.2 雙標志先檢查法9.2.3 雙標志后檢查法9.2.4 peterson算法 …

BP神經網絡與反向傳播算法在深度學習中的應用

BP神經網絡與反向傳播算法在深度學習中的應用 在神經網絡的發展歷史中,BP神經網絡(Backpropagation Neural Network)占有重要地位。BP神經網絡通過反向傳播算法進行訓練,這種算法在神經網絡中引入了一種高效的學習方式。隨著深度…

jstat命令介紹

jstat:查看JVM統計信息 一 基本情況二 基本語法2.1 option參數1. 類裝載相關的:2. 垃圾回收相關的-gc:顯示與GC相關的堆信息。包括Eden區、兩個Survivor區、老年代、永久代等的容量、已用空間、GC時間合計等信息。-gccapacity:顯示…

【C++】C++-機房收費管理系統(源碼+注釋)【獨一無二】

👉博__主👈:米碼收割機 👉技__能👈:C/Python語言 👉公眾號👈:測試開發自動化【獲取源碼商業合作】 👉榮__譽👈:阿里云博客專家博主、5…

LeetCode之最長回文子串

1.題目鏈接 5. 最長回文子串 - 力扣(LeetCode)https://leetcode.cn/problems/longest-palindromic-substring/description/ 2.題目解析 對于這道題目我們可以使用動態規劃的思路來求解,具體思路是,對于一個長度大于2的子串&…

生成式信息檢索(問答系統與信息檢索的進步)

文章目錄 什么是問答系統(Question Answering Systems)檢索系統的演變經典檢索系統“Term” 文檔搜素的最小單位倒排索引詞嵌入的出現預訓練語言模型 用于問答的語言模型設計方案選擇:封閉式與開放式問答系統對比方案A:封閉式生成…

【干貨】一文帶你看懂什么是渠道分銷?如何管理渠道分銷

在當今競爭激烈的市場環境中,企業想要擴大市場份額、提高產品或服務的可見度,有效的渠道分銷策略是關鍵。 什么是渠道分銷? 渠道分銷,簡而言之,是指企業利用中間商(如經銷商、代理商、零售商等&#xff0…

springboot解壓文件流zip壓縮包

springboot解壓文件流zip壓縮包 原始文件存儲的地方&#xff1a; 需要在當前目錄下解壓該文件&#xff0c;如下圖&#xff1a; 代碼示例&#xff1a; private Result<String> getLocationGuideLayerName(YbYstbtqTaskResolveParam params, String fishnetLayerName)…

華為od100問持續分享-1

我是一名軟件開發培訓機構老師&#xff0c;我的學生已經有上百人通過了華為OD機試&#xff0c;學生們每次考完試&#xff0c;會把題目拿出來一起交流分享。 重要&#xff1a;2024年5月份開始&#xff0c;考的都是OD統一考試&#xff08;D卷&#xff09;&#xff0c;題庫已經整…

入門PHP就來我這(高級)24 ~ Session判斷用戶登錄

有膽量你就來跟著路老師卷起來&#xff01; -- 純干貨&#xff0c;技術知識分享 路老師給大家分享PHP語言的知識了&#xff0c;旨在想讓大家入門PHP&#xff0c;并深入了解PHP語言。 上一篇我們介紹了Session管理部分的概念&#xff0c;本文通過session來改寫一些用戶登錄&…