【2】Transformers快速入門:統計語言模型是啥?


一句話看懂統計語言模型

核心任務:教電腦判斷一句話 “像不像人話”
(比如“我愛吃蘋果”? vs “蘋果吃愛我”?)


1. 早期:死磕語法規則 → 失敗!

  • 科學家思路(1970年前):
    像語文老師一樣,給電腦寫《語法規則大全》(比如“主語后必須接動詞”)。
  • 為啥翻車?
    人話太靈活!規則永遠寫不完,還互相矛盾。
    → 像逼外國人背1000條語法才能點咖啡,結果還是說錯💔

2. 統計語言模型崛起:數數就行!

IBM賈里尼克大神(1970s)的暴論
不用懂語法!數一數這句話出現的概率就行!

  • 例:“我愛吃蘋果”在100萬句人話中出現 50次 → 合理!
  • “蘋果吃愛我”出現 0次 → 不合理!
怎么算概率?—— 馬爾可夫偷懶法
  • 問題:長句概率難算(比如“我愛吃紅蘋果”要算“愛”在“我”后、“吃”在“我愛”后…)
  • 解決方案(N-gram模型)
    每個詞只看前面1-3個詞,其他忽略!
    • 例(三元模型):
      “吃”的概率只看前面兩個詞 → 如果“我愛”后常跟“吃”,那“我愛吃”概率就高!
    • 缺點
      像只記3秒的金魚🐟,無法理解“我上周買的蘋果真甜”這種跨句子關聯。

3. 神經網絡登場:讓電腦“腦補”

2003年 NNLM 模型(本吉奧)

創新點

  • 給每個詞發“身份證號”(詞向量),比如:
    蘋果 = [0.2, -1.3, 4.5]吃 = [1.0, 0.8, -0.2]
  • 用神經網絡根據前N個詞的“身份證號”猜下一個詞。

可惜:當時大家不信神經網絡,埋沒十年😢

2013年 Word2Vec 模型(谷歌)

封神之作

  • 核心突破:一個詞在不同上下文有 同一個向量(靜態詞向量)。
  • 訓練方法
    • CBOW:用周圍詞猜中心詞(如用“我愛__蘋果”猜“吃”)
    • Skip-gram:用中心詞猜周圍詞(如用“吃”猜“我”“愛”“蘋果”)

致命弱點
無法區分多義詞!比如“蘋果”的向量永遠是同一個,分不清是水果還是手機公司🍎📱


4. 動態詞向量時代:上下文才是王道

2018年 ELMo 模型

解決多義詞:同一個詞在不同句子中 動態變向量

  • 例:
    “吃蘋果” → “蘋果”向量靠近[水果, 甜]
    “買蘋果” → “蘋果”向量靠近[手機, 貴]
  • 原理:用雙向LSTM(一種能記長句的神經網絡)掃描全文后動態調整詞向量。
2018年 BERT 模型(谷歌終極版)

集大成者

  • Transformer(比LSTM更強的編碼器)
  • 像做填空題學習:隨機遮住句中詞(如“我愛__蘋果”),讓模型猜“吃”
  • 結果:橫掃11項NLP任務,成行業標準!

缺點:太強導致不能直接寫文章(像只會答題不會創作的學霸)。


關鍵模型關系圖(小白版)

語法規則(失敗)  
↓  
統計模型(數概率)→ N-gram(偷懶法)  
↓  
NNLM(最早神經網絡)→ 被遺忘  
↓  
Word2Vec(靜態詞向量封神)→ 敗給多義詞  
↓  
ELMo(動態詞向量初代)→ 用LSTM  
↓  
BERT(動態詞向量終極版)→ Transformer + 填空題訓練法 ?

一句話總結發展邏輯

電腦學人話的進化史
背語法書數句子出現次數背單詞身份證結合上下文動態改身份證

越新的模型越像 真人聊天
你一說“蘋果”,我就知道此刻指的是手機還是水果!🍎📱

下次聽到“BERT”“詞向量”,記住:
它們就是讓電腦變成“懂王”的秘密武器! 🚀

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/93051.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/93051.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/93051.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[激光原理與應用-230]:物理學主要分支、研究對象、衍生技術及職業方向解析

物理學作為自然科學的核心學科,其分支體系覆蓋從微觀粒子到宏觀宇宙的廣闊領域,并通過交叉融合衍生出眾多前沿技術。以下從經典與現代物理學分支、交叉學科、技術轉化及職業方向四個維度展開分析:一、經典物理學分支:宏觀世界的基…

北京JAVA基礎面試30天打卡08

RocketMQ、RabbitMQ與Kafka對比及常見問題解決方案 一、概述 消息隊列(Message Queue, MQ)是企業IT系統內部通信的核心手段,用于提升性能、實現系統解耦和流量削峰。它具有低耦合、可靠投遞、廣播、流量控制、最終一致性等功能,是…

【CSS 變量】讓你的 CSS “活”起來:深入理解 CSS 自定義屬性與主題切換

【CSS 變量】讓你的 CSS “活”起來:深入理解 CSS 自定義屬性與主題切換 所屬專欄: 《前端小技巧集合:讓你的代碼更優雅高效》 上一篇: 【CSS 視覺】無需JS,純 CSS 實現酷炫視覺效果(clip-path, filter, b…

RAG初步實戰:從 PDF 到問答:我的第一個輕量級 RAG 系統(附詳細項目代碼內容與說明)

RAG初步實戰:從 PDF 到問答:我的第一個輕量級 RAG 系統 項目背景與目標 在大模型逐漸普及的今天,Retrieval-Augmented Generation(RAG,檢索增強生成)作為連接“知識庫”和“大語言模型”的核心范式&#…

自主泊車算法

看我的git 在 open space 空間下規劃出?條??到停?位的?碰撞軌跡 滿?平滑約束 可跟蹤 考慮動態障礙物約束 在路徑不可?的情況下 具備重規劃能? 重規劃時能夠做到?縫切換 即從原路徑?縫切換到重規劃路徑 ?明顯體感 規劃頻率 10HZ

USB 2.0 學習(2)- 連接

上回說到 usb的信號 k 狀態和 j 狀態,補充一下 usb的一些電氣小知識。 1.USB設備有四根線 電源線VBus、 D、 D-、 地線GND 2.USB主機端的 D 和 D-各有1個15k下拉電阻,這是為了準確檢測 D還是D-線上電平的變化 因為USB總線檢測USB設備是低速還是全速設備…

解鎖 Appium Inspector:移動端 UI 自動化定位的利器

? 在移動端 UI 自動化測試中,元素定位是繞不開的核心環節。無論是 Android 還是 iOS 應用,能否精準、高效地定位到界面元素,直接決定了自動化腳本的穩定性和可維護性。而 Appium Inspector 作為 Appium 生態中專門用于元素定位的工具&#…

機器學習概念1

了解機器學習1、什么是機器學習機器學習是一門通過編程讓計算機從數據中進行學習的科學 通用定義:機器學習是一個研究領域讓計算機無須進行明確編程就具備學習能力 工程化定義:一個計算機程序利用經驗E來學習任務T,性能是P,如果針…

前端html學習筆記5:框架、字符實體與 HTML5 新增標簽

本文為個人學習總結,如有謬誤歡迎指正。前端知識眾多,后續將繼續記錄其他知識點! 目錄 前言 一、框架標簽 作用: 語法: 屬性: 二、字符實體 作用: 三、html5新增標簽 語義化 狀態 列…

Day05 店鋪營業狀態設置 Redis

Redis 入門 Redis 簡介 Redis 是一個基于內存的 key-value 結構數據庫。 基于內存存儲,讀寫性能高 適合存儲熱點數據(熱點商品,資訊,新聞) 企業應用廣泛 redis 中文網:Redis中文網 Redis 下載與安裝 R…

Linux驅動開發probe字符設備的完整創建流程

一、 設備號分配1.靜態分配通過register_chrdev_region預先指定設備號(需要確保未被占用)2.動態分配通過alloc_chrdev_region由內核自動分配主設備號,一般都是動態分配以避免沖突。3316 xxxx_dev.major 0; 3317 3318 if (xx…

生產環境中Spring Cloud Sleuth與Zipkin分布式鏈路追蹤實戰經驗分享

生產環境中Spring Cloud Sleuth與Zipkin分布式鏈路追蹤實戰經驗分享 在復雜的微服務架構中,服務調用鏈路繁雜,單點故障或性能瓶頸往往難以定位。本文結合真實生產環境案例,分享如何基于Spring Cloud Sleuth與Zipkin構建高可用、低開銷的分布…

基于Python的《紅樓夢》文本分析與機器學習應用

本文將詳細介紹如何使用Python和機器學習技術對《紅樓夢》進行深入的文本分析和處理,包括文本分卷、分詞、停用詞處理、TF-IDF特征提取以及文本可視化等關鍵技術。一、項目概述本項目的目標是對中國古典文學名著《紅樓夢》進行全面的自動化處理和分析,主…

Bevy渲染引擎核心技術深度解析:架構、體積霧與Meshlet渲染

本文將深入探討Bevy游戲引擎的渲染架構,重點分析其體積霧實現原理、Meshlet渲染技術以及基于物理的渲染(PBR)系統。內容嚴格基于技術實現細節,覆蓋從底層渲染管線到高級特效的全套解決方案。一、Bevy渲染架構深度解析1.1 核心架構…

CASS11計算斜面面積

1.生成三角網2.工程應用--計算表面積--根據三角網

借助Rclone快速從阿里云OSS遷移到AWS S3

本文作者: 封磊 Eclicktech SA | AWS Community Builder DevTool | AWS UGL | 亞馬遜云科技云博主 阿里云&InfoQ&CSDN簽約作者 概述 隨著企業云戰略的調整和多云架構的普及,數據遷移成為了一個常見需求。本文將詳細介紹如何使用Rclone工具,高效…

【入門系列】圖像算法工程師如何入門計算機圖形學?

作為圖像算法工程師,入門計算機圖形學(CG)有天然優勢——你熟悉圖像處理的像素級操作、數學工具(如矩陣運算)和優化思維,而圖形學的核心目標(從3D信息生成2D圖像)與圖像處理有很強的…

淘寶API列表:高效獲取商品詳情圖主圖商品視頻參數item_get

淘寶商品詳情信息基本都是用圖片展示的,制作精美,能更好的展示商品信息。如何通過API實現批量獲取商品詳情信息呢?1、在API平臺注冊賬號,獲取調用API的key和密鑰。2、查看API文檔,了解相關請求參數和返回參數。item_ge…

第23章,景深:技術綜述

一,定義: 中景:物體聚焦的范圍(即清晰成像的范圍)。 景深:在中景之外,都會成像模糊,即景深。景深通常用來指示對場景的注意范圍,并提供場景深度的感覺。 背景&#xff1a…

飛算 JavaAI -智慧城市項目實踐:從交通協同到應急響應的全鏈路技術革新

免責聲明:此篇文章所有內容都是本人實驗,并非廣告推廣,并非抄襲,如有侵權,請聯系。 目錄 一、智慧城市核心場景的技術攻堅 1.1 交通信號智能優化系統的實時決策 1.1.1 實時車流數據處理與分析 1.1.2 動態信號配時…