牛津大學xDeepMind 自然語言處理(1)

牛津大學xDeepMind 自然語言處理 Natural Language Processing

詞向量與詞匯語義學 Word Vectors and Lexical Semantics
  1. 詞語表示的基本問題與分布語義思想
    1. 傳統詞語表示(如獨熱向量)存在稀疏、正交、語義弱的問題,無法表達語義相似性。
    2. 分布語義核心思想:“觀其伴而知其詞”,即基于詞語的上下文 / 使用場景生成稠密向量表示,主要方法分為基于計數、基于預測和基于任務三類。
  2. 基于計數的方法
    1. 核心流程:定義上下文詞匯基C和窗口大小w,統計在語料庫中,每個目標詞的每個實例左右w個詞范圍內,上下文詞匯基的出現次數,基于這些計數,形成目標詞的向量表示。
    2. 相似性度量:常用內積或余弦相似度(余弦對范數不敏感,更優)。
    3. 優化:需區分信息量高的計數和高頻噪聲,常用 TF-IDF、PMI 等歸一化方法,但存在上下文基選擇等問題。
  3. 神經嵌入模型
    1. 通用思路:收集詞語實例及其上下文,定義可微的分數函數和損失,通過優化得到嵌入矩陣 E。
    2. 典型模型:
      1. C&W 模型(conv+MLP):通過卷積和 MLP 處理句子嵌入,用干擾句和鉸鏈損失訓練,能捕捉相鄰表示信息,但模型深、訓練成本高。
      2. CBoW 模型(Transform+softmax):將上下文詞嵌入相加后投影到詞匯表,用 softmax 和負對數似然訓練,全線性、速度快,有負采樣等變體。
      3. Skip-gram 模型(Transform+softmax):用目標詞預測上下文詞,嵌入目標詞后投影,效率高,需在效率和上下文結構化之間權衡。
  4. 神經模型與基于計數模型的比較
    1. 核心思想一致,Word2Vec 等價于基于計數模型的 PMI 矩陣分解。
    2. 經適當超參數優化后,兩者性能相當。
  5. 神經方法的優勢
    1. 易于學習,支持高度并行(小批量、GPU、分布式訓練)。
    2. 可預測上下文的離散(如詞性)和連續(如圖像)特征,避免計數方法的稀疏性問題。
  6. 詞表示的評估
    1. 內在評估:通過 WordSim-353、SimLex-999 等數據集測相似度,詞語類比任務(如 “女王 = 國王 - 男人 + 女人”),以及嵌入可視化(T-SNE投影、最近鄰)等。
    2. 外在評估:判斷嵌入是否能提升其他任務(如分類、情感分析)的性能。
  7. 基于任務的嵌入學習
    1. 核心:將嵌入矩陣 E 作為神經網絡參數,與網絡其他參數聯合訓練(可從頭學或預訓練后微調),使嵌入適應任務需求。
    2. 典型應用:
      1. BoW 分類器:將詞向量疊加作為特征,用于情感分析、文檔分類等,但無法處理歧義、多義性,語義較淺。
      2. 雙語特征學習:通過最大化對齊句子對的相似度(用噪聲對比邊際損失避免退化),使嵌入反映高層意義,提升跨語言表示能力。
    3. 局限性:任務嵌入僅捕捉任務相關信息,可能缺乏通用語義,可通過多任務學習或預訓練 + 任務投影緩解,但存在挑戰。
  8. 總結
    1. 詞向量是文本神經網絡的核心輸入,可單獨訓練、在任務中訓練或結合兩者。
    2. 遷移學習中,重用預訓練詞向量適用于數據少或詞匯覆蓋低的場景;數據充足時,任務內訓練嵌入更優,但可重用性降低。
RNN和語言建模
  1. 語言模型基礎

    1. 定義:語言模型為詞序列分配概率,滿足所有可能序列的概率和為 1,可用于比較詞序合理性(如翻譯、語音識別)。
    2. 核心分解:基于鏈式法則將聯合概率分解為條件概率的乘積,即p(w1,...wN)=∏n=1Np(wn∣w1,...,wn?1)p(w_1,...w_N)=∏^N_{n=1}p(w_n|w_1,...,w_{n-1})p(w1?,...wN?)=n=1N?p(wn?w1?,...,wn?1?),核心是學習 “給定歷史預測下一詞” 的條件分布。
    3. 評估指標:交叉熵(衡量編碼文本所需比特數)和困惑度(衡量模型對每個詞的驚訝程度,perplexity=2cross?entropyperplexity=2^{cross-entropy}perplexity=2cross?entropy)。
    4. 數據注意事項:需區分訓練集(過去)和測試集(未來),避免數據泄露;常用數據集包括 Penn Treebank、Billion Word Corpus,WikiText 更優。
  2. 基于計數的 n-gram 語言模型

    1. 馬爾可夫假設:用前k-1個詞近似歷史(k 階馬爾可夫模型),如 2-gram 模型假設p(w1,...,wn)≈p(w1)p(w2∣w1)p(w3∣w2)×...×p(wn∣wn?1)p(w_1,...,w_n)≈p(w_1)p(w_2|w_1)p(w_3|w_2)×...×p(w_n|w_{n-1})p(w1?,...,wn?)p(w1?)p(w2?w1?)p(w3?w2?)×...×p(wn?wn?1?)
    2. 概率估計:最大似然估計通過計數計算,如 3-gram 概率p(w3∣w1,w2)=count(w1,w2,w3)/count(w1,w2)p(w_3|w_1,w_2)=count(w_1,w_2,w_3)/count(w_1,w_2)p(w3?w1?,w2?)=count(w1?,w2?,w3?)/count(w1?,w2?)
    3. 平滑與回退:解決稀疏性問題,如線性插值p(wn∣wn?2,wn?1)=λ3p(wn∣wn?2,wn?1)+λ2p(wn∣wn?1)+λ1p(wn)p(w_n|w_{n-2},w_{n-1})=λ_3p(w_n|w_{n-2},w_{n-1})+λ_2p(w_n|w_{n-1})+λ_1p(w_n)p(wn?wn?2?,wn?1?)=λ3?p(wn?wn?2?,wn?1?)+λ2?p(wn?wn?1?)+λ1?p(wn?)λ3+λ2+λ1=1λ_3+λ_2+λ_1 = 1λ3?+λ2?+λ1?=1Kneser-Ney 是常用高級方法。
    4. 優缺點:可擴展性強、訓練快,但無法捕捉長依賴和語義相似性(如 “cat” 與 “dog”)。
  3. 神經 n-gram 語言模型

    1. 模型結構:用前饋網絡處理固定 n-gram 歷史(如 trigram 的wn?2,wn?1w_{n-2},w_{n-1}wn?2?,wn?1?),通過嵌入層將獨熱向量轉為稠密向量,經隱藏層后用 softmax 輸出下一詞概率。
    2. 訓練:以交叉熵為損失,通過反向傳播優化參數,各時間步梯度獨立可并行計算。
    3. 優缺點:對未見過的 n-gram 泛化更好,但對已見過的 n-gram 性能略差;模型參數規模小于傳統 n-gram,但仍受限于固定 n-gram 長度,無法捕捉長距離依賴,且參數隨 n-gram 大小增加而增長。
  4. 循環神經網絡語言模型(RNN LM)

    1. 模型結構:拋棄固定 n-gram 歷史,通過隱藏狀態hn=g(V[xn;hn?1]+c)h_n=g(V[x_n;h_{n-1}]+c)hn?=g(V[xn?;hn?1?]+c)壓縮整個歷史,用y^n=Whn+b\hat{y}_n=Wh_n+by^?n?=Whn?+b和 softmax 輸出下一詞概率,實現對任意長度歷史的建模。
    2. 訓練:通過時間反向傳播(BPTT)計算梯度,需考慮各時間步梯度的依賴關系;截斷時間反向傳播(TBPTT)通過固定時間步截斷依賴,提高計算效率。
    3. 復雜度與批處理:BPTT 計算量與序列長度線性相關,TBPTT 為常數;批處理在 GPU 上可加速矩陣運算,但序列長度不一致時效率較低。
    4. 優缺點:能表示無限依賴,參數規模不隨依賴長度增長(但隨隱藏層容量增加);但難以學習長距離依賴,且隱藏層擴大會導致計算和內存成本二次增長。
  5. 偏差與方差權衡

    1. n-gram 模型:偏差高(固定歷史近似)但方差低(依賴高頻計數)。
    2. RNN 模型:大幅降低偏差(捕捉全歷史),但可能增加方差,需通過優化平衡。
  6. 長距離依賴與梯度問題

    1. 核心挑戰:簡單 RNN 理論上可表示長距離依賴,但實際中因循環權重VhV_hVh?的重復乘法導致梯度消失(特征值 <1)或爆炸(特征值> 1),無法有效學習長距離關聯。
    2. 非線性影響:激活函數(如 tanh、sigmoid)的導數進一步縮小梯度,加劇問題。
  7. 門控循環網絡(LSTM 與 GRU)

    1. LSTM:通過輸入門(ini_nin?)、遺忘門(fnf_nfn?)、輸出門(ono_non?)和細胞狀態cnc_ncn?控制信息流動,細胞狀態通過加法更新(減輕梯度衰減),隱藏狀態hnh_nhn?由輸出門調制,有效捕捉長依賴。
    2. GRU:簡化 LSTM 結構,合并輸入門和遺忘門為更新門(znz_nzn?),新增重置門(rnr_nrn?)控制歷史信息的使用,參數更少,計算效率更高。
    3. 優缺點:門控機制顯著緩解梯度問題,是神經機器翻譯、語音識別等任務的關鍵;但參數和計算量多于普通 RNN,每個參數的記憶容量較低。
  8. 深度循環神經網絡 Deep RNN LMs

    1. 擴展方式:通過增加網絡深度(空間維度)或時間維度深度提升表示能力,避免單純擴大隱藏層導致的二次成本增長。
    2. 典型結構:多層 RNN(空間深度)和循環高速公路網絡(時間深度,類似 GRU 的深度單元),在語言建模中表現優異。
  9. 大詞匯量處理

    1. 核心瓶頸:softmax 計算p^n=softmax(Whn+b)\hat{p}_n=softmax(Wh_n+b)p^?n?=softmax(Whn?+b)的成本隨詞匯量VVV線性增長,成為效率瓶頸。
    2. 解決方案:
      1. 短列表與混合模型:高頻詞用神經 LM,低頻詞用 n-gram,但損失泛化能力。
      2. 采樣與近似梯度:噪聲對比估計(NCE)將問題轉為二分類,重要性采樣(IS)用多分類,降低訓練成本但不影響測試。
      3. 詞匯分解:一級分類(如布朗聚類)加速V\sqrt{V}V?,樹結構分解(如二叉樹)加速logVlogVlogV,平衡計算效率與性能。
    3. 子詞建模:以字符或語素為單位,消除未登錄詞,捕捉形態特征,但序列更長且依賴距離更遠。
  10. 正則化

    Dropout:僅應用于非循環連接,避免循環掩碼導致的信息丟失;

    貝葉斯 Dropout 通過綁定循環掩碼并在評估時采樣,增強泛化。

  11. 總結與核心觀點

    1. 長距離依賴:門控網絡(LSTM/GRU)是解決梯度問題、捕捉長依賴的主流方案。
    2. 模型擴展:深度 RNN 在空間 / 時間維度擴展,以線性成本提升容量;大詞匯量通過分解或采樣優化 softmax 效率。
    3. 權衡關系:語言建模需平衡偏差與方差(n-gram vs RNN)、性能與效率(模型容量 vs 計算成本)、泛化與針對性(通用表示 vs 任務適配)。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/93644.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/93644.shtml
英文地址,請注明出處:http://en.pswp.cn/web/93644.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

StarRocks數據庫集群的完整部署流程

目錄 依賴環境 下載安裝包 部署FE 部署BE 搭建集群 停止集群 依賴環境 詳見&#xff1a;StarRocks 部署&#xff1a;依賴環境-CSDN博客 下載安裝包 在官方網站下載安裝包&#xff1a;StarRocks 部署FE 創建元數據目錄。 mkdir -p <meta_dir> 修改 FE 配置文件 f…

簡單的 VSCode 設置

以下是我使用的vscode設置。雖然有些主觀&#xff0c;但很實用。1 主題。我放棄了那些炫酷的主題。我選擇了Tokyo Night (Storm)。理由是&#xff1a;它平靜、賞心悅目&#xff0c;并且與代碼形成了美麗的對比&#xff0c;卻又不顯得刺眼。2. 字體。我切換到了 JetBrains Mono …

Rust 條件語句

Rust 條件語句 在編程語言中&#xff0c;條件語句是程序流程控制的重要組成部分。Rust 作為一種系統編程語言&#xff0c;其條件語句的設計簡潔而強大。本文將詳細介紹 Rust 中的條件語句&#xff0c;包括其語法、用法以及一些高級特性。 1. 基本條件語句 Rust 中的基本條件語句…

【Java EE進階 --- SpringBoot】初識Spring(創建SpringBoot項目)

樂觀學習&#xff0c;樂觀生活&#xff0c;才能不斷前進啊&#xff01;&#xff01;&#xff01; 我的主頁&#xff1a;optimistic_chen 我的專欄&#xff1a;c語言 &#xff0c;Java, Java EE初階&#xff0c; Java數據結構 歡迎大家訪問~ 創作不易&#xff0c;大佬們點贊鼓勵…

腦潛在進展:基于潛擴散模型的三維腦磁共振成像個體時空疾病進展研究|文獻速遞-深度學習人工智能醫療圖像

Title題目Brain Latent Progression: Individual-based spatiotemporal diseaseprogression on 3D Brain MRIs via latent diffusion腦潛在進展&#xff1a;基于潛擴散模型的三維腦磁共振成像個體時空疾病進展研究01文獻速遞介紹神經退行性疾病是現代醫療保健領域最緊迫的挑戰之…

專題:2025AI技術應用與發展報告|附600+份報告PDF、數據儀表盤匯總下載

原文鏈接&#xff1a;https://tecdat.cn/?p43632 當企業管理者看著后臺65%的任務被AI自動分配&#xff0c;卻仍在為下周的營銷方案熬夜改稿時&#xff0c;一個現實的矛盾浮出水面&#xff1a;AI到底能幫企業做什么&#xff1f; 2025年&#xff0c;算法研發投入占企業AI預算的…

【筆記】擴散模型(一一):Stable Diffusion XL 理論與實現

論文鏈接&#xff1a;SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis 官方實現&#xff1a;Stability-AI/generative-models 非官方實現&#xff1a;huggingface/diffusers Stable Diffusion XL (SDXL) 是 Stablility AI 對 Stable Diffusion 進…

學習安卓APP開發,10年磨一劍,b4a/Android Studio

學習安卓APP開發 記得上次學APP都是在2016年前了&#xff0c;一晃就過去了10年。 當時用ANDROID studio打開一個空項目和編繹分別用了300秒&#xff0c;一下就用了10分鐘。 后來買了一臺一萬多的電腦&#xff0c;CPU換成了I5 8600K 4.2GHZ*6核&#xff0c;再加上M2固態硬盤。 編…

調試技巧(vs2022 C語言)

調試之前首先要保證我們的腦袋是清晰的&#xff0c;我們調試的過程主要是看代碼有沒有按照我們的想法去運行調試最常使用的幾個快捷鍵F5啟動調試&#xff0c;經常用來直接跳到下一個斷點處&#xff08;F5通常和F9配合使用&#xff0c;打了斷點按F5程序可以直接運行到斷點處&…

MySQL深度理解-Innodb底層原理

1.MySQL的內部組件結構大體來說&#xff0c;MySQL可以分為Server層和存儲引擎層兩部分。2.Server層Server層主要包括連接器、查詢緩存、分析器、優化器和執行器等&#xff0c;涵蓋MySQL的大多數核心服務功能&#xff0c;以及所有的內置函數&#xff08;如日期、時間、數據和加密…

QFtp在切換目錄、上傳文件、下載文件、刪除文件等一系列操作時,如何按照預期操作指令順序執行

FTP服務初始化時&#xff0c;考慮到重連、以及commandFinished信號信號執行完成置m_bCmdFinished 為true; void ICore::connectFtpServer() {if(g_pFile nullptr){g_pFile new QFile;}if(g_pFtp){g_pFtp->state();g_pFtp->abort();g_pFtp->deleteLater();g_pFtp n…

JavaSE高級-02

文章目錄1. 多線程1.1 創建線程的三種方式多線程的創建方式一&#xff1a;繼承Thread類多線程的創建方式二&#xff1a;實現Runnable接口多線程的創建方式三&#xff1a;實現Callable接口三種線程的創建方式對比Thread的常用方法1.2 線程安全線程同步方式一&#xff1a;同步代碼…

從舒適度提升到能耗降低再到安全保障,樓宇自控作用關鍵

在現代建筑的發展歷程中&#xff0c;樓宇自動化控制系統&#xff08;BAS&#xff09;已從單純的設備管理工具演變為集舒適度優化、能耗控制與安全保障于一體的核心技術。隨著物聯網和人工智能的深度應用&#xff0c;樓宇自控系統正以數據為紐帶&#xff0c;重構人與建筑的關系。…

圖像分類精度評價的方法——誤差矩陣、總體精度、用戶精度、生產者精度、Kappa 系數

本文詳細介紹 “圖像分類精度評價的方法”。 圖像分類后&#xff0c;需要評估分類結果的準確性&#xff0c;以判斷分類器的性能和結果的可靠性。 常涉及到下面幾個概念&#xff08;指標&#xff09; 誤差矩陣、總體精度、用戶精度、生產者精度和 Kappa 系數。1. 誤差矩陣&#…

【科普向-第一篇】數字鑰匙生態全景:手機廠商、車廠與協議之爭

目錄 一、協議標準之爭&#xff1a;誰制定規則&#xff0c;誰掌控入口 1.1 ICCE&#xff1a;中國車企主導的自主防線 1.2 ICCOA&#xff1a;手機廠商的生態突圍 1.3 CCC&#xff1a;國際巨頭的高端壁壘 1.4 協議對比 二、底層技術路線&#xff1a;成本與安全的博弈 2.1B…

dockerfile及docker常用操作

1: docker 編寫 Dockerfile 是用于構建 Docker 鏡像的文本文件&#xff0c;包含一系列指令和參數&#xff0c;用于定義鏡像的構建過程 以下是關鍵要點&#xff1a; 一、基本結構 ?FROM?&#xff1a;必須作為第一條指令&#xff0c;指定基礎鏡像&#xff08;如 FROM python:3.…

[vibe coding-lovable]lovable是不是ai界的復制忍者卡卡西?

在火影忍者的世界里&#xff0c;卡卡西也被稱為復制忍者&#xff0c;因為大部分忍術都可以被其Copy! 截圖提示:實現這個效果 -> 發給Lovalbe -> 生成的的效果如下&#xff0c;雖然不是1比1還原&#xff0c;但是這個效果也很驚艷。 這個交互設計&#xff0c;這個UI效果&am…

技術賦能安全:智慧工地構建城市建設新防線

城市建設的熱潮中&#xff0c;工地安全始終是關乎生命與發展的核心議題。江西新余火災等事故的沉痛教訓&#xff0c;暴露了傳統工地監管的諸多短板——流動焊機“行蹤難覓”&#xff0c;無證動火作業屢禁不止&#xff0c;每一次監管缺位都可能引發災難性后果。如今&#xff0c;…

Sublime Text 代碼編輯器(Mac中文)

原文地址&#xff1a;Sublime Text Mac 代碼編輯器 sublime text Mac一款輕量級的文本編輯器&#xff0c;擁有豐富的功能和插件。 它支持多種編程語言&#xff0c;包括C、Java、Python、Ruby等&#xff0c;可以幫助程序員快速編寫代碼。 Sublime Text的界面簡潔、美觀&#…

如何制定項目時間線,合理預計?

制定一份現實可行且行之有效的項目時間線&#xff0c;是一個系統性的分解、估算與排序過程&#xff0c;而非簡單的日期羅列。核心步驟包括&#xff1a;明確項目范圍與可交付成果、利用工作分解結構&#xff08;WBS&#xff09;進行任務拆解、科學估算各項任務的持續時間、識別并…