27.語言模型

語言模型,是NLP方向一直主力研究的,通過訓練機器,來讓機器學習人類語言的內在規律,理解自然語言,并將其轉換為計算機語言。
目前的主流語言模型,如GPT、Deepseek等,并不是簡單的搜索背誦。他們的機制更類似于一種猜詞游戲,即通過當前的信息,推測下一個相關的信息是什么,通過這種方式進行資源整合。

NLP語言模型具體涉及解決的問題有:搜索、分類、聚類、總結、生成、重寫、抽象
NLP模型效果依賴兩個方面:一是模型結構,二是語料庫的豐富程度。

發展階段

  • 統計語言模型
    是一種基于概率統計的語言模型,旨在預測下一個單詞或句子出現的概率。
    將NLP任務視為一個統計問題,使用機器學習算法從大規模語料庫中學習語言的統計規律。
    嚴重依賴特征工程。模型的效果很大程度上取決于從業者如何設計和提取特征(如詞形、詞性、詞干、上下文窗口等)。

  • 神經網絡語言模型:
    基于神經網絡學習特征,比傳統模型效果更好。
    使用深度學習模型(尤其是循環神經網絡RNN、長短期記憶網絡LSTM和卷積神經網絡CNN)自動學習語言的底層特征表示,取代手工特征工程。

  • 預訓練語言模型
    先在超大規模無標注文本數據上訓練一個通用的基礎模型(學習語言本身的語法、語義、知識等),再針對具體下游任務用少量標注數據進行微調。
    Transformer架構推出后,并行計算能力強,極大地提升了訓練效率和長程依賴建模能力。改變了語言模型的結構。
    在這里插入圖片描述

統計語言模型

統計語言模型是描述單詞、句子或文檔的概率分布的模型。主要有以下幾種:

  • n-gram模型
    n-gram模型是將一段文本切分成n個連續的詞組,然后根據前n-1個詞組來預測第n個詞組,從而達到預測的目的(3-gram通過前2個詞,預測第3個詞)。

在這里插入圖片描述

  • 平滑方法
    n-gram需要對所有上文進行枚舉的操作,加上要處理出現次數為0的問題,所以可能存在過擬合和數據稀疏的問題。因此,需要引入平滑方法:Laplace平滑、Good-Turing平滑、Katz平滑等。

  • 隱馬爾科夫模型(HMM)
    HMM是一種將語言轉化為概率狀態序列的模型,可以學習文本中的隱含結構。一般用于識別詞性、命名實體識別等任務。
    命名實體識別:是從非結構化的文本中自動識別出專有名詞或特定意義的實體,并將其分類到預定義的類別中。
    可以把它理解為一種“信息高亮”,它能在密密麻麻的文字中,快速地把人名、地名、組織機構名等重要信息標記出來。

  • 最大熵模型
    最大熵模型是一種分類器,用來預測下一個詞或字符的條件概率。以最大化信息熵為目標函數,通過最大熵原理確定模型參數。

神經網絡語言模型

神經網絡語言模型(NNLM),是基于神經網絡實現的模型,相比于傳統模型有更好的性能。

  • 基于前饋神經網絡的NNLM
    2003年提出,通過前饋神經網絡訓練,用softmax分類。

  • 循環神經網絡模型(RNNLM)
    是一種基于循環神經網絡的語言模型,優點是對動態的序列進行建模,通過引入長短時記憶單元(LSTM),解決了神經網絡在處理長序列的梯度消失問題,提升了性能。
    如果序列過長,隨著訓練,前面的知識可能被遺忘。

  • TransformerLM
    基于Transformer的語言模型,通過自注意力機制計算不同單詞間的關系。
    相比于RNNLM,Transformer具有更強的并行性,計算效率上有更大優勢。

預訓練模型

基于TransformerLM,后續發展了一批以此為基礎的變體,目前各大廠商也都在進行模型的設計訓練,推出了一系列預訓練語言模型。

  • Word2vec
    是一種基于神經網絡的詞向量表示方法,于2013年提出,通過將單詞轉化為一個向量,從計算單詞間的相似性,具體講是通過計算向量間的余弦相似度。
  • ELMo
    是一種基于上下文的動態詞向量,于2018年提出,它是通過雙向LSTM模型來學習模型,從而獲得上下文相關的單詞嵌入。
  • Transformer
    是一種使用自注意力機制進行特征提取的預訓練語言模型,于2017年提出,被廣泛應用,如:機器翻譯、文本摘要、問答系統等。
  • BERT
    由Google在2018年發布的一種預訓練語言模型,在NLP領域取得了巨大成功。BERT使用雙向Transformer編碼器來訓練上下文相關的單詞嵌入。和其他的預訓練模型相比,BERT最大的特點是可以同時捕獲上下文中的前后文信息。這使得BERT成為當前效果最好的預訓練語言模型之一,廣泛應用于自然語言處理和文本挖掘任務中。
  • GPT
    是一系列基于Transformer架構的預訓練語言模型,由OpenAI開發,是目前效果最好的模型之一。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/94274.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/94274.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/94274.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

小智ai+mcp+n8n的智能組合

小智aimcpn8n的智能組合1 小智ai的版本2 n8n的配置3 mcp的demo4 工作流json? 之前有寫過小智ai的介紹,它提供了流暢且豐富的用戶語音交互能力。n8n提供了靈活且穩定的后臺工作流的能力,如果這兩個工具進行組合,可以打造一個好玩又好用的智能…

【DataGrip】連接達夢數據庫后,能查詢數據但是看不到表的幾種情況分析,達夢數據庫驅動包下載DmJdbcDriver18.jar

大概分為以下兩類情況,配置問題和驅動包的問題 DmJdbcDriver18.jar點擊下載 1.配置了表不可見 左上角點擊過濾的圖標,把table勾上就可以 2.Introspect using JDBC metadata 未勾選 1)老版本的DataGrip 在options選項下 3)新版…

全面解析 `strncasecmp` 字符串比較函數

1) 函數的概念與用途 strncasecmp 是 C 語言中一個非常實用的字符串處理函數,它執行不區分大小寫的字符串比較,但只比較前 n 個字符。這個函數的名字來源于"string n case-compare"(字符串前n個字符不區分大小寫比較)。…

高級SQL優化 | 告別 Hive 中 GROUP BY 的大 KEY 數據傾斜!PawSQL 自適應優化算法詳解

數據傾斜讓你的Hive查詢慢如蝸牛?單個熱點分組拖垮整個集群?PawSQL獨家算法GroupSkewedOptimization來拯救!🎯 痛點直擊:當數據傾斜遇上分組操作想象這樣一個場景:你的電商平臺有1000萬VIP用戶訂單和100萬普…

HUMS 2023齒輪箱數據分析

HUMS問答:https://humsconference.com.au/HUMS2023datachallenge/questions-answers.html 數據集申請:https://www.dst.defence.gov.au/our-technologies/helicopter-main-rotor-gearbox-planet-gear-fatigue-crack-propagation-test 歷年試卷&#xff1…

智慧工地:科技賦能與管理革新下的建筑業新圖景

隨著數字技術的深度滲透,智慧工地正以“技術落地 行業變革 管理創新”的三重突破,重構施工場景的核心邏輯,推動建筑業從傳統粗放式發展向精細化、智能化轉型。一、技術落地:用科技筑牢安全防線,提升施工效率技術是智…

[docker/大數據]Spark快速入門

[docker/大數據]Spark快速入門1. 概述 1.1 誕生背景Spark官方文檔:https://spark.apache.ac.cn/docs/latest/Spark 由加州大學伯克利分校 AMP 實驗室于 2009 年開發,2013 年成為 Apache 頂級項目,旨在解決 MapReduce 的三大核心問題&#xff…

CSS 定位的核心屬性:position

🧩 一、CSS 定位的核心屬性:positionposition 屬性用于定義一個元素在頁面中的定位方式,它決定了:元素在頁面中的定位規則是否脫離文檔流元素的位置是相對于誰(父元素、瀏覽器窗口、自身等)? 可選值如下&a…

數據結構之深入探索快速排序

基準值的選定 我們之前已經用四種不同的方式實現了快速排序,如果還沒有學習過的伙伴們可以看一下這篇文章哦:數據結構之排序大全(3)-CSDN博客 那我們既然已經學習了這么多種方法,為什么還要繼續探索快速排序呢&#…

《遞歸與迭代:從斐波那契到漢諾塔的算法精髓》

🔥個人主頁:艾莉絲努力練劍 ?專欄傳送門:《C語言》、《數據結構與算法》、C語言刷題12天IO強訓、LeetCode代碼強化刷題、洛谷刷題、C/C基礎知識知識強化補充、C/C干貨分享&學習過程記錄 🍉學習方向:C/C方向學習者…

《LINUX系統編程》筆記p3

可重用函數不使用全局部變量,可以重復使用的函數.stat 命令作用:顯示一個文件或文件夾的“元信息”。文件基本信息文件(File):顯示所查詢對象的名稱。大小(Size):文件的大小&#xf…

大模型0基礎開發入門與實踐:第3章 機器的“統計學”:機器學習基礎概念掃盲

第3章 機器的“統計學”:機器學習基礎概念掃盲 1. 引言 想象一下,你是一位古代的農夫,畢生的經驗告訴你:烏云密布、燕子低飛,那么不久便會下雨。你并沒有學習過氣象學,也不懂大氣壓和水汽凝結的原理。你的“…

Java調用Ollama(curl方式)

1. 安裝Ollama Search 2. 調用 相關依賴 <dependencies><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.14</version></dependency><dependency>&…

nodejs koa框架使用

1: KOA 是express 打造的下一代web 開發框架提供更小更強的的核心功能&#xff0c;通過Promise 、async/await 進行異步編程&#xff0c;koa 可以不使用回調&#xff0c;解決了回調地獄的問題 blueBird 是nodejs 最出名的Primise 實現&#xff0c;除了實現標準的promise 之外&a…

2025年圖像處理與光學國際會議(ICIPO 2025)

2025年圖像處理與光學國際會議&#xff08;ICIPO 2025&#xff09; 2025 International Conference on Image Processing and Optics一、大會信息會議簡稱&#xff1a;ICIPO 2025 大會地點&#xff1a;中國北京 審稿通知&#xff1a;投稿后2-3日內通知 投稿郵箱&#xff1a;iac…

Kubernetes 構建高可用、高性能 Redis 集群

k8s下搭建Redis高可用1. 部署redis服務創建ConfigMap創建 Redis創建 k8s 集群外部2. 創建 Redis 集群自動創建 redis 集群手動創建 redis 集群驗證集群狀態3. 集群功能測試壓力測試故障切換測試4. 安裝管理客戶端編輯資源清單部署 RedisInsight控制臺初始化控制臺概覽實戰環境使…

文件IO的基礎操作

Java針對文件進行的操作:文件系統操作,File類(file類指定的路徑,可以是一個不存在的文件)文件內容操作 : 流對象分為兩類(1)字節流 以字節為基本的讀寫單位的 二進制文件 InputStream OutputStream(2)字符流 以字符為基本的讀寫單位的 …

【模版匹配】基于深度學習

基于深度學習的模版匹配 概述 本報告整理了2024-2025年最新的、可直接使用的模板匹配相關論文、方法和開源代碼實現。所有方法都提供了完整的代碼實現和預訓練模型&#xff0c;可以直接應用到實際項目中。 一、輕量級現代模板匹配框架 1.1 UMatcher - 4M參數的緊湊型模板匹…

CMake進階:Ninja環境搭建與加速項目構建

目錄 1.引入Ninja的原因 2.Ninja 環境搭建&#xff08;跨平臺&#xff09; 2.1.Linux系統安裝 2.2.macOS 系統 2.3.Windows 系統 2.4.源碼編譯安裝&#xff08;通用方案&#xff09; 3.Ninja 與構建系統配合&#xff1a;以 CMake 為例 4.加速構建的關鍵技巧 5.Ninja 與…

開發避坑指南(35):mybaits if標簽test條件判斷等號=解析異常解決方案

異常信息 org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.builder.BuilderException: The expression orderInfo.idList evaluated to a null value.報錯語句 <if test"orderInfo.queryFlag ! null and orderInfo.queryFlag sett…