大語言模型基礎—語言模型的發展歷程--task1

目錄

1.語言模型的發展歷程

1.1 統計語言模型

1.2 神經語言模型

1.3 預訓練語言模型

1.4 大語言模型

1.5 總結

1.6 各階段對比與演進邏輯


1.語言模型的發展歷程

語言模型的發展歷程經歷了四個主要階段:統計語言模型、神經語言模型、預訓練語言模型和大語言模型。統計語言模型基于統計學習方法,使用馬爾可夫假設建立預測模型,但存在數據稀疏問題。神經語言模型使用神經網絡建模文本序列,引入了分布式詞表示,克服了數據稀疏問題。預訓練語言模型在訓練架構和數據方面進行了創新,使用大規模無標注數據進行預訓練,并通過微調適應特定任務。大語言模型通過規模擴展提升性能,展現出新的涌現能力,如上下文學習。


1.1 統計語言模型

統計語言模型使用統計學習方法,基于馬爾可夫假設建立預測模型,通常根據固定長度的前綴預測下一個詞。具有固定上下文長度 𝑛 的統計語言模型被稱為 𝑛 元語言模型。隨著 𝑛 的增加,需要估計的轉移概率項數指數級增長,導致數據稀疏問題。為緩解此問題,需要設計專門的語言模型平滑策略,如回退估計和古德-圖靈估計。盡管如此,平滑方法對于高階上下文的刻畫能力仍然較弱。

  • 時間線:20世紀90年代至2000年代初
  • 關鍵技術
    • n-gram模型:基于馬爾可夫假設,用前n?1個詞預測當前詞概率。
    • 平滑技術:解決數據稀疏問題(如低頻詞組合概率為0),常用方法包括拉普拉斯平滑(加一法)和回退法(Katz回退)。
  • 特點
    • 依賴局部上下文,難以捕捉長距離依賴。
    • 計算高效,但模型泛化能力有限。

1.2 神經語言模型

神經語言模型使用神經網絡來建模文本序列的生成,如循環神經網絡(RNN)。Yoshua Bengio 引入了分布式詞表示概念,構建了基于聚合上下文特征的目標詞預測函數。分布式詞表示使用低維稠密向量表示詞匯的語義,與基于詞典空間的稀疏詞向量表示不同,能夠刻畫更豐富的隱含語義特征。稠密向量的非零表征對于復雜語言模型的搭建非常友好,有效克服了統計語言模型中的數據稀疏問題。Word2vec 是一個具有代表性的詞嵌入學習模型,構建了一個簡化的淺層神經網絡來學習分布式詞表示,所學習到的詞嵌入可以用作后續任務的語義特征提取器。

  • 時間線:2003年(Bengio提出神經網絡語言模型)至2010年代中期
  • 關鍵技術
    • 分布式詞表示:將詞映射為低維稠密向量(如Word2Vec、GloVe),解決稀疏性問題。
    • 神經網絡架構:前饋神經網絡、RNN、LSTM,可建模更長上下文。
  • 特點
    • 詞向量捕捉語義相似性,如“貓”與“狗”向量距離較近。
    • 計算復雜度高,依賴硬件發展(如GPU加速)

1.3 預訓練語言模型

預訓練語言模型在訓練架構與訓練數據兩個方面進行了改進與創新。ELMo 是一個早期的代表性預訓練語言模型,使用大量無標注數據訓練雙向 LSTM 網絡,預訓練完成后所得到的 biLSTM 可以用來學習上下文感知的單詞表示。BERT 和 GPT-1 是基于 Transformer 架構的預訓練語言模型,BERT 采用僅有編碼器的 Transformer 架構,而 GPT-1 采用僅有解碼器的 Transformer 架構。預訓練語言模型確立了“預訓練-微調”這一任務求解范式,預訓練階段建立模型的基礎能力,微調階段使用有標注數據對模型進行特定任務的適配。

  • 時間線:2018年(BERT、GPT發布)為轉折點
  • 關鍵技術
    • Transformer架構:自注意力機制(Self-Attention)并行處理長序列。
    • 預訓練+微調范式:通過無監督任務(如掩碼語言模型)學習通用表征,再針對下游任務微調。
  • 特點
    • 上下文感知能力:動態生成詞表示(如BERT區分“bank”的“銀行”與“河岸”義項)。
    • 遷移學習泛化:減少對標注數據的依賴

1.4 大語言模型

研究人員發現,通過規模擴展通常會帶來下游任務的模型性能提升,這種現象被稱為“擴展法則”。一些研究工作嘗試訓練更大的預訓練語言模型,如 GPT-3 和 PaLM,探索擴展語言模型所帶來的性能極限。這些大規模的預訓練語言模型在解決復雜任務時表現出了與小型預訓練語言模型不同的行為。大語言模型具有涌現能力,如 GPT-3 的上下文學習能力。ChatGPT 將 GPT 系列大語言模型適配到對話任務中,展現出令人震撼的人機對話能力。

  • 時間線:2020年(GPT-3發布)后進入爆發期
  • 關鍵技術
    • 超大規模參數:千億級參數(如GPT-3含1750億參數)提升模型容量。
    • 上下文學習(In-context Learning):通過提示(Prompt)直接生成答案,無需微調。
    • 指令微調與提示工程:如思維鏈(Chain-of-Thought)引導分步推理。
  • 特點
    • 零樣本/少樣本學習:僅需少量示例即可適應新任務。
    • 多任務統一架構:問答、翻譯、代碼生成等任務共用同一模型。

1.5 總結

語言模型的發展從統計語言模型到神經語言模型,再到預訓練語言模型和大語言模型,經歷了技術方法和架構的不斷創新。統計語言模型受限于數據稀疏問題,而神經語言模型通過分布式詞表示克服了這一問題。預訓練語言模型通過大規模無標注數據預訓練和微調,顯著提升了自然語言處理任務的性能。大語言模型通過規模擴展進一步提升了模型性能,并展現出新的涌現能力,如上下文學習,為自然語言處理領域帶來了新的突破。

1.6 各階段對比與演進邏輯

階段核心問題解決方案代表模型/技術
統計語言模型數據稀疏、局部依賴n-gram、平滑技術Trigram模型
神經語言模型語義表示、長距離依賴詞嵌入、RNN/LSTMWord2Vec、ELMo
預訓練語言模型通用語義表征Transformer、自監督預訓練BERT、GPT-2
大語言模型復雜任務泛化超大規模參數、提示工程GPT-3、ChatGPT

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/73325.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/73325.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/73325.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

BIG_EVENT

環境準備: 開發: 跨域問題: 只有瀏覽器才存在跨域問題, 此時瀏覽器的地址和前端服務一致,所以不存在跨域問題, 但是當瀏覽器中的js代碼需要向8080發送請求時就會由于存在跨域問題而失敗. 簡單的說前端和瀏覽器的地址端口是一致的,瀏覽器只能向前端服務發送請求, 所以可以使用配…

DAY33 貪心算法Ⅱ

122. 買賣股票的最佳時機 II - 力扣&#xff08;LeetCode&#xff09; 想到把整體利潤分解為每天的利潤&#xff0c;就豁然開朗了。 class Solution { public:int maxProfit(vector<int>& prices) {int result0;for(int i1;i<prices.size();i){resultmax(0,pric…

【Qt】qApp簡單介紹

1. 介紹 在Qt中&#xff0c;qApp是一個全局指針&#xff0c;它指向當前的QApplication或QGuiApplication對象。這個全局指針在Qt應用程序中非常有用&#xff0c;因為它可以讓你在任何地方訪問到應用程序對象。 在C中&#xff0c;全局指針是一個可以在程序的任何地方訪問的指針…

Redis 設置密碼無效問題解決

一、驗證密碼有沒有生效 運行cmd&#xff0c;cd到redis的目錄下 輸入“redis-cli.exe” 回車 輸入“auth 123456” 回車 若錯誤&#xff0c;說明沒有設置密碼或者設置的密碼沒有生效 輸入“exit” 回車就立即退出redis 二、解決方案是&#xff1a;直接修改后綴是 .conf 的…

手寫一些常見算法

手寫一些常見算法 快速排序歸并排序Dijkstra自定義排序交替打印0和1冒泡排序插入排序堆排序 快速排序 public class Main {public static void main(String[] args) {int nums[] {1,3,2,5,4,6,8,7,9};quickSort(nums,0,nums.length - 1);}private static void quickSort(int[…

VBA即用型代碼手冊:選擇、轉到Select、 Go To

我給VBA下的定義&#xff1a;VBA是個人小型自動化處理的有效工具。可以大大提高自己的勞動效率&#xff0c;而且可以提高數據的準確性。我這里專注VBA,將我多年的經驗匯集在VBA系列九套教程中。 作為我的學員要利用我的積木編程思想&#xff0c;積木編程最重要的是積木如何搭建…

[CISSP] [1] 訪問控制//入侵檢測與網絡防護

訪問控制 檢測性訪問控制&#xff08;Detective Access Control&#xff09; 作用&#xff1a;用于發現和記錄未經授權的活動。方式&#xff1a;這類控制本身不直接阻止攻擊或違規行為&#xff0c;而是監測、檢測并記錄這些事件&#xff0c;以便后續調查或響應。例子&#xff1…

【SpringBoot】MD5加鹽算法的詳解

目錄 一、什么是加鹽算法 二、如何實現加鹽算法 2.1 加鹽算法代碼實現 2.2 注冊頁面中進行密碼加鹽 2.3 登錄頁面進行加鹽的解密 2.4 注冊和登錄 一、什么是加鹽算法 加鹽算法是一種用于增強密碼安全性的技術。這種技術通過在密碼存儲過程中添加一個隨機生成的鹽值&…

uniapp移動端圖片比較器組件,仿英偉達官網rtx光追圖片比較器功能

組件下載地址&#xff1a;https://ext.dcloud.net.cn/plugin?id22609 已測試h5和微信小程序&#xff0c;理論支持全平臺 亮點&#xff1a; 簡單易用 使用js計算而不是resize屬性&#xff0c;定制化程度更高 組件掛在后可播放指示線動畫&#xff0c;提示用戶可以拖拽比較圖片…

CI/CD—Jenkins實現自動構建Docker鏡像運行Java程序

實現原理 1、Java代碼中創建一個dockerfile文件 --> 2、代碼上傳至GitLab --> 3、Jenkins同步GitLab的代碼進行構建生成jar --> 4、Jenkins將jar包和dockerfile文件傳到測試服務器上 --> 5、在測試服務器上執行dockerfile構建jar鏡像 --> 6、鏡像構建完運行容器…

docker 搭建alpine下nginx1.26/mysql8.0/php7.4環境

docker 搭建alpine下nginx1.26/mysql8.0/php7.4環境 docker-compose.yml services:mysql-8.0:container_name: mysql-8.0image: mysql:8.0restart: always#ports:#- "3306:3306"volumes:- ./etc/mysql/conf.d/mysql.cnf:/etc/mysql/conf.d/mysql.cnf:ro- ./var/log…

隊列的簡單例題

題目如下 模擬隊列 首先你要明白隊列的話 只有隊尾才能進行新增&#xff0c;也就是入隊 只有隊首才能出隊&#xff0c;也就是刪除 隊首隊尾指針一開始默認都是0 相當于隊列中一開始是有一個元素的就是 0的位置 隊首指針head0 隊尾指針tail0 1.入隊也就是隊尾要先賦值&#xf…

vue3+elementuiplus的table表格動態高度

table表格流體高度 1、前提 了解自定義指令、hooks 2、核心思路 通過自定義指令&#xff08;new ResizeObserver&#xff09;監聽表格變化&#xff0c;然后通過hooks去更新表格高度。 3、核心代碼 src/directives/resize.ts // import { debounce } from /utils;import { t…

Apache POI詳解

目錄 前言 Apache POI是一個強大的Java庫&#xff0c;廣泛用于處理Microsoft Office文檔&#xff0c;包括Word、Excel和PowerPoint等。本文將詳細介紹如何使用Apache POI庫操作Word模板&#xff08;包括替換占位符、操作表格&#xff09;、將Word文檔轉換為PDF&#xff0c;以及…

AutoGen多角色、多用戶、多智能體對話系統

2023-03-11-AutoGen 使用【autoGenchainlitdeepSeek】實現【多角色、多用戶、多智能體對話系統】 1-核心思路 01&#xff09;技術要點&#xff1a;autoGenchainlitdeepSeek02&#xff09;什么是autoGen->autogen是微軟旗下的多智能體的框架03&#xff09;什么是chainlit-&g…

問deepseek: OpenFOAM并行分區后,是如何實現ldumatrix矩陣向量乘法計算邏輯的?

在OpenFOAM中&#xff0c;lduMatrix 是用于存儲稀疏矩陣的類&#xff0c;支持并行計算。并行分區后&#xff0c;lduMatrix 的矩陣向量乘法通過以下步驟實現&#xff1a; 1. 矩陣分區 分區&#xff1a;將矩陣和向量分配到多個處理器上&#xff0c;每個處理器負責一部分。接口&…

數據類設計_圖片類設計之4_規則類圖形混合算法(前端架構)

前言 學的東西多了,要想辦法用出來.C和C是偏向底層的語言,直接與數據打交道.嘗試做一些和數據方面相關的內容 引入 接續上一篇,討論圖片類型設計出來后在場景中如何表達,以及圖片的混合算法.前面的內容屬于鋪墊和基礎,這篇內容和實際聯系起來了. 背景圖和前景圖 這里筆者想先…

【openwebui 搭建本地知識庫(RAG搭建本地知識庫)】

安裝準備 openwebui 這個本地安裝之前寫過使用python安裝。也可以直接用docker 命令 docker run --rm -d \-p 3080:8080 \-p 3081:8081 \-e WEBUI_AUTHtrue \-e DEFAULT_LOCALEcn \-e GLOBAL_LOG_LEVEL"INFO" \-e AIOHTTP_CLIENT_TIMEOUT100 \--privilegedtrue \-…

Nginx的流式響應配置詳解

現在大模型場景繁多&#xff0c;項目中涉及nginx轉發大模型的流式數據時&#xff0c;需配置nginx的轉發策略&#xff1a; location /streaming {proxy_pass http://backend_server;proxy_cache off; # 關閉緩存proxy_buffering off; # 關閉代理緩沖chunked_transfer_encoding …

git使用命令總結

文章目錄 Git 復制創建提交步驟Git 全局設置:創建 git 倉庫:已有倉庫? 遇到問題解決辦法&#xff1a;問題一先git pull一下&#xff0c;具體流程為以下幾步&#xff1a; 詳細步驟 Git 復制 git clone -b RobotModelSetting/develop https://gitlab.123/PROJECT/123.git創建提…