N元語言模型 —— 一文講懂!!!

目錄

引言?

一.?基本知識

二.參數估計

三.數據平滑

一.加1法

二.減值法/折扣法

?編輯?1.Good-Turing 估計

?編輯?2.Back-off (后備/后退)方法?

3.絕對減值法?

?編輯4.線性減值法

5.比較?

三.刪除插值法(Deleted interpolation)?

?四.模型自適應


引言?

本章節講的知識主要是來解決以上這個問題:即如何計算一段話在我們日常生活中出現的概率。在學完本章節后,你可以嘗試解決下面的問題:

一.?基本知識

對于一段話,我們如何計算其在生活中出現的概率呢?首先我們可以把每一句話拆分成一個個詞,這些詞就是我們所說的“統計基元”,一個個統計基元組成了我們的一句話。而對于我們每一個統計基元來說,其前面的基元就是歷史基元

?如何計算一段話的概率?

假設我們這段話是“我愛你”,我們該怎么計算呢?你可能會想到,“我愛你”這句話的概率,不就應該等于“我”出現的概率*“愛”出現的概率*“你”出現的概率。實際上來說,這樣算的話我們就忽略了詞與詞的關系,比如“愛”會不會影響“你”出現的概率,比如我們大部分人都會把“愛你”連起來說,這樣的話我們就不能把他們倆獨立開來了。這樣的話,就相當于我們計算概率的時候要參考一句話前面的基元。因此我們應該用下面的公式:

可以理解為:句子的概率 = 第 1 個詞的概率 × 第 2 個詞依賴第 1 個詞的概率 × 第 3 個詞依賴前兩個詞的概率 × … × 第 m 個詞依賴前 m - 1 個詞的概率

歷史基元數量爆炸問題

顯然隨著要預測的詞位置越靠后(i?越大 ),需要參考的 “歷史基元數量” 也越多(i?1?個 ),這樣的話很容易出現后面的歷史基元越來越多出現參數爆炸。即:

那我們該如何解決這個問題呢?

我們的解決辦法是等價類劃分:

舉個例子:“我愛你”和“石頭愛地”這兩句話,假設n等于2,則“你”前面的“我愛”和“地”前面的“石頭愛”,因為前n-1個基元,即“愛”?相同,則這倆句話為同一等價類。因此我們很容易看出來,這個n其實就是相當于縮減了我們的視野,我們只看前n-1個基元而看不到更前面的基元了。

因此:

但是,這樣的話,顯然我們的句子的第一個單詞沒有前置的選項讓我們看了,也就是說沒有歷史基元,這對我們是非常不方便的,因為我們無法統一編程,并且我們還丟失了其作為第一個單詞的位置信息。所以我們為這個句子加上了開頭和結尾符號來標識。

即:

這樣的話我們就非常好求解了,例題如下:


(下面三個分別是一元,二元,三元劃分) 那么我們的概率就是:

二.參數估計

好了,既然我們已經整出來了表示,那么我們模型里的這些參數是啥呢?就是說我們這里的P是什么呢?這就引出了我們下面的概念:

?

例題:

?那若是求一個句子里包含從沒出現的詞呢?這是很常見的,比如訓練語料不可能包含所有人的姓名,如果一個人的姓名比較生僻,比如叫“諸葛大力”,這樣的話是否“諸葛大力愛張偉”在日常生活中是不可能發生的呢?顯然不是。但是我們的計算下整個的概率是0。顯然是不合理的。于是我們便引出了數據平滑。

三.數據平滑

?

困惑度你就理解為這個句子的常見程度,如果困惑度很高,說明句子很罕見,讓人看著很“困惑”。

一.加1法

意思就是分子加1,分母加上詞匯庫的總量(不包含開始和結束字符)

例題:

二.減值法/折扣法

?1.Good-Turing 估計

?舉例:

?給你們算個一個吧。第一個r*,照著公式的話,r+1等于2,因為我們這里的r等于1,然后nr和nr+1直接看表的話就是2053和458,也就是說r*=2*(458/2053)約等于0.446,其他的你們照著我這樣做就行。

?2.Back-off (后備/后退)方法?

3.絕對減值法?

4.線性減值法

5.比較?

三.刪除插值法(Deleted interpolation)?

?四.模型自適應

?

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/83993.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/83993.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/83993.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SpringAI Alibaba實戰文生圖

1?? 前置準備:搭建開發環境與服務配置🚀 🔧 1.1 環境要求 JDK 17(推薦 JDK 21)、Spring Boot 3.x(本案例使用 3.3.4)、阿里云百煉大模型服務 API Key。需在阿里云控制臺完成服務開通并獲取有…

實戰二:開發網頁端界面完成黑白視頻轉為彩色視頻

?一、需求描述 設計一個簡單的視頻上色應用,用戶可以通過網頁界面上傳黑白視頻,系統會自動將其轉換為彩色視頻。整個過程對用戶來說非常簡單直觀,不需要了解技術細節。 效果圖 ?二、實現思路 總體思路: 用戶通過Gradio界面上…

Kotlin List 操作全面指南

在傳統 Java 開發 List 相關的 API 中,有著樣板代碼冗長、缺乏鏈式調用、空安全等問題。 Kotlin 這門語言 為 List 提供了豐富的擴展函數,這些函數大大簡化了集合操作,解決了傳統 Java 集合 API 中的許多痛點。 一、基礎操作 1. 創建 List …

硬盤尋址全解析:從 CHS 三維迷宮到 LBA 線性王國

在數字存儲的底層世界,硬盤如同一個巨大的 “數據圖書館”,而尋址模式就是決定如何高效找到 “書籍”(扇區)的核心規則。從早期基于物理結構的 CHS(柱面 - 磁頭 - 扇區)三維尋址,到現代抽象化的…

oracle 11g ADG備庫報錯ORA-00449 lgwr unexpectedly分析處理

問題背景 昨天遇到群友提問,遇到ADG備庫掛了的情況 數據版本:11.2.0.4 操作系統:Centos7.9 環境:ADG主備庫,主庫為RAC,備庫也是RAC 具體報錯ORA-00449以及ORA-04021 看樣子是LGWR掛了,還有個鎖等待。 問題分析 先…

Python——day46通道注意力(SE注意力)

一、 什么是注意力 注意力機制是一種讓模型學會「選擇性關注重要信息」的特征提取器,就像人類視覺會自動忽略背景,聚焦于圖片中的主體(如貓、汽車)。 transformer中的叫做自注意力機制,他是一種自己學習自己的機制&…

入門AJAX——XMLHttpRequest(Post)

一、前言 在上篇文章中,我們已經介紹了 HMLHttpRequest 的GET 請求的基本用法,并基于我提供的接口練習了兩個簡單的例子。如果你還沒有看過第一篇文章,強烈建議你在學習完上篇文章后再學習本篇文章: 🔗入門AJAX——XM…

?BEV和OCC學習-3:mmdet3d 坐標系

目錄 坐標系 轉向角 (yaw) 的定義 框尺寸的定義 與支持的數據集的原始坐標系的關系 KITTI Waymo NuScenes Lyft ScanNet SUN RGB-D S3DIS 坐標系 坐標系 — MMDetection3D 1.4.0 文檔https://mmdetection3d.readthedocs.io/zh-cn/latest/user_guides/coord_sys_tuto…

Redis高可用架構

概述 Redis作為常用的緩存中間件,因其高性能,豐富的數據結構,使用簡單等,常被用在需要一定高性能的To C業務場景中,如「秒殺場景」「用戶信息中心」「帖子」「群聊」等等大家常見的業務場景中,以提高服務的…

使用WPF的Microsoft.Xaml.Behaviors.Wpf中通用 UI 元素事件

Nuget下載之后記得要先引用下面的 xmlns:i"http://schemas.microsoft.com/xaml/behaviors" <!-- 鼠標事件 --> <i:EventTrigger EventName"MouseEnter"/> <!-- 鼠標進入 --> <i:EventTrigger EventName"MouseLeave"/&g…

敏捷開發中如何避免過度加班

在敏捷開發過程中避免過度加班&#xff0c;需要明確敏捷原則、合理規劃迭代任務、加強團隊溝通、優化流程效率、設定合理的工作負荷、注重團隊士氣和成員健康。明確敏捷原則&#xff0c;即保證可持續發展的步調&#xff0c;避免頻繁地變更需求、過度承諾任務量。合理規劃迭代任…

JSON解析崩潰原因及解決方案

問題記錄&#xff1a; /************************************************| * 描述: 將ID124執行NFC操作-JSON解析為結構體* 函數名: cJSON_ID124_to_struct* 參數[ I]: *json_string 待解析的指針* 參數[II]: *wireless_rxd 結構體指針* 返回: 成功返回0 失…

業務系統對接大模型的基礎方案:架構設計與關鍵步驟

業務系統對接大模型&#xff1a;架構設計與關鍵步驟 在當今數字化轉型的浪潮中&#xff0c;大語言模型&#xff08;LLM&#xff09;已成為企業提升業務效率和創新能力的關鍵技術之一。將大模型集成到業務系統中&#xff0c;不僅可以優化用戶體驗&#xff0c;還能為業務決策提供…

Edge(Bing)自動領積分腳本部署——基于python和Selenium(附源碼)

微軟的 Microsoft Rewards 計劃可以通過 Bing 搜索賺取積分&#xff0c;積分可以兌換禮品卡、游戲等。每天的搜索任務不多&#xff0c;我們可以用腳本自動完成&#xff0c;提高效率&#xff0c;解放雙手。 本文將手把手教你如何部署一個自動刷積分腳本&#xff0c;并解釋其背…

前端基礎之《Vue(19)—狀態管理》

一、什么是狀態管理 1、Vue版本問題 Vue2 Vuex3 Vue3 Vuex4 / Pinia2 在使用任何技術的時候&#xff0c;都先要去搜索一下版本&#xff0c;你的版本和腳手架環境是否兼容。 2、安裝Vuex yarn add vuex3.6.2 3、狀態管理 狀態&#xff0c;在應用程序中表示數據&#xff0c…

【圖像處理基石】如何進行圖像畸變校正?

圖像畸變校正常用于計算機視覺、攝影測量學和機器人導航等領域&#xff0c;能夠修正因鏡頭光學特性或傳感器排列問題導致的圖像失真。下面我將介紹幾種常用的圖像畸變校正算法&#xff0c;并提供Python實現和測試用例。 常用算法及Python實現 1. 徑向畸變校正 徑向畸變是最常…

藍橋杯_DS18B20溫度傳感器---新手入門級別超級詳細解析

目錄 一、引言 DS18B20的原理圖 單總線簡介&#xff1a; ?編輯暫存器簡介&#xff1a; DS18B20的溫度轉換與讀取流程 二、代碼配置 maic文件 疑問 關于不同格式化輸出符號的使用 為什么要rd_temperature()/16.0&#xff1f; onewire.h文件 這個配置為什么要先讀lo…

MySQL的并發事務問題及事務隔離級別

一、并發事務問題 1). 贓讀&#xff1a;一個事務讀到另外一個事務還沒有提交的數據。 比如 B 讀取到了 A 未提交的數據。 2). 不可重復讀&#xff1a;一個事務先后讀取同一條記錄&#xff0c;但兩次讀取的數據不同&#xff0c;稱之為不可重復讀。 事務 A 兩次讀取同一條記錄&…

密碼學基礎——SM4算法

博客主頁&#xff1a;christine-rr-CSDN博客 ????專欄主頁&#xff1a;密碼學 &#x1f4cc; 【今日更新】&#x1f4cc; 對稱密碼算法——SM4 目錄 一、國密SM系列算法概述 二、SM4算法 2.1算法背景 2.2算法特點 2.3 基本部件 2.3.1 S盒 2.3.2 非線性變換 ?編輯…

練習:對象數組 4

定義數組存儲 4 個女朋友的對象。女朋友的屬性&#xff1a;姓名、年齡、性別、愛好&#xff1b;要求1&#xff1a;計算出四個女朋友的平均年齡&#xff1b;要求2&#xff1a;統計年齡比平均值低的女朋友有幾個&#xff1f;并把他們的所有信息打印出來。 代碼&#xff1a; //對…