1.3 有哪些文本表示模型?它們各有什么優缺點?

1.3 有哪些文本表示模型?它們各有什么優缺點?

場景描述

文本是一類非常重要的非結構化數據如何表示文本數據一直是機器學習領域的一個重要研究方向。

知識點

  • 詞袋模型(Bag of Words)
  • TF-IDF(Term Frequency-Inverse DocumentFrequency)
  • 主題模型(Topic Model)
  • 詞嵌入模型(Word Embedding)

問題:有哪些文本表示模型?它們各有什么優缺點?(難度:2顆星)

分析與解答
  • 詞袋模型和N-gram模型

    最基礎的文本表示模型是詞袋模型

    顧名思義,就是將每篇文章看成一袋子詞,并忽略每個詞出現的順序。具體地說,就是將整段文本以詞為單位切分開,然后每篇文章可以表示成一個長向量,向量中的每一維代表一個單詞,而該維對應的權重則反映了這個詞在原文章中的重要程度。常用TF-IDE來計算權重,公式為
    T F ? I D F ( t , d ) = T F ( t , d ) × I D F ( t ) ( 1.5 ) TF-IDF(t,d)=TF(t,d)×IDF(t) (1.5) TF?IDF(t,d)=TF(t,d)×IDF(t)(1.5)
    其中TF(t,d)為單詞t在文檔d中出現的頻率,IDF(t)是逆文檔頻率,用來衡量單詞t對表達語義所起的重要性,表示為
    I D F ( t ) = l o g [ ( 文章總數 ) / ( 包含單詞 t 的文章總數 + 1 ) ] ( 1.6 ) IDF(t)=log[(文章總數)/(包含單詞t的文章總數+1)] (1.6) IDF(t)=log[(文章總數)/(包含單詞t的文章總數+1)](1.6)
    直觀的解釋是,如果一個單詞在非常多的文章里面都出現,那么它可能是一個比較通用的詞匯,對于區分某篇文章特殊語義的貢獻較小,因此對權重做一定懲罰

    N-gram模型

    問題:將文章進行單詞級別的劃分有時候并不是一種好的做法,比如英文中的natural language processing(自然語言處理)一詞,如果將natural,language,processing 這3個詞拆分開來,所表達的含義與三個詞連續出現時大相徑庭。

    解決:通常,可以將連續出現的n個詞(n≤N)組成的詞組(N-gram)也作為一個單獨的特征放到向量表示中去,構成N-gram模型。另外,同一個詞可能有多種詞性變化,卻具有相似的含義。在實際應用中,一般會對單詞進行詞干抽取(Word Stemming)處理,即將不同詞性的單詞統一成為同一詞干的形式。

  • 主題模型

    主題模型用于從文本庫中發現有代表性的主題(得到每個主題上面詞的分布特性),并且能夠計算出每篇文章的主題分布

  • 詞嵌入與深度學習模型

    詞嵌入是一類將詞向量化的模型的統稱,核心思想是將每個詞都映射成低維空間(通常K=50~300維)上的一個稠密向量(DenseVector)。K維空間的每一維也可以看作一個隱含的主題,只不過不像主題模型中的主題那樣直觀。

    問題:由于詞嵌入將每個詞映射成一個K維的向量,如果一篇文檔有N個詞,就可以用一個N×K維的矩陣來表示這篇文檔,但是這樣的表示過于底層。

    解決:在實際應用中,如果僅僅把這個矩陣作為原文本的表示特征輸入到機器學習模型中,通常很難得到令人滿意的結果。因此,還需要在此基礎之上加工出更高層的特征

    深度學習模型

    在傳統的淺層機器學習模型中,一個好的特征工程往往可以帶來算法效果的顯著提升。而深度學習模型正好為我們提供了一種自動地進行特征工程的方式,模型中的每個隱層都可以認為對應著不同抽象層次的特征。從這個角度來講,深度學習模型能夠打敗淺層模型也就順理成章了。

    卷積神經網絡和循環神經網絡的結構在文本表示中取得了很好的效果,主要是由于它們能夠更好地對文本進行建模,抽取出一些高層的語義特征。與全連接的網絡結構相比,卷積神經網絡和循環神經網絡一方面很好地抓住了文本的特性,另一方面又減少了網絡中待學習的參數,提高了訓練速度,并且降低了過擬合的風險。

參考文獻:

《百面機器學習》 諸葛越主編

出版社:人民郵電出版社(北京)

ISBN:978-7-115-48736-0

2022年8月第1版(2022年1月北京第19次印刷)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/719759.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/719759.shtml
英文地址,請注明出處:http://en.pswp.cn/news/719759.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【每日刷題】數組-LC56、LC238、隨想錄1、LC560

1. LC56 合并區間 題目鏈接 Arrays.sort先讓intervals里的子數組按照子數組的第一個數字值從小到大排列。開一個新數組,newInterval,存放合并好的子數組讓intervals的當前子數組i的第一個數字與newInterval的當前子數組index的最后一個數字比較大小&am…

ARM 架構下國密算法庫

目錄 前言GmSSL編譯環境準備下載 GmSSL 源碼編譯 GmSSL 源碼SM4 對稱加密算法SM2 非對稱加密算法小結前言 在當前的國際形式下,國替勢不可擋。操作系統上,銀河麒麟、統信 UOS、鴻蒙 OS 等國產系統開始發力,而 CPU 市場,也是百花齊放,有 龍芯(LoongArch架構)、兆芯(X86…

Intel/國產化無人叉車機器視覺專用控制器

無人叉車和機器視覺是兩個獨立的技術領域,但它們可以結合使用以實現更高效的物流自動化。無人叉車是一種自動化運輸工具,可以在沒有人為干預的情況下完成貨物的搬運和運輸。機器視覺是一種人工智能技術,可以讓計算機識別和理解圖像或視頻中的…

YOLO:實時目標檢測的革命

目標檢測作為計算機視覺領域的一個核心任務,一直以來都是研究的熱點。而YOLO(You Only Look Once)技術作為其中的杰出代表,以其獨特的處理方式和卓越的性能,成為了實時目標檢測的標桿。本文將探討YOLO技術的核心原理、…

FPGA時序約束與分析--建立時間與保持時間

文章目錄 前言一、定義二、舉例說明2.1 建立時間違規2.2 保持時間違規前言 時序約束的定義–設計者根據實際的系統功能,通過時序約束的方式提出時序要求; FPGA 編譯工具根據設計者的時序要求,進行布局布線;編譯完成后, FPGA 編譯工具還需要針對布局布線的結果,套用特定的…

【C++】每日一題,189 輪轉數組

給定一個整數數組 nums,將數組中的元素向右輪轉 k 個位置,其中 k 是非負數。 示例 1: 輸入: nums [1,2,3,4,5,6,7], k 3 輸出: [5,6,7,1,2,3,4] 解釋: 向右輪轉 1 步: [7,1,2,3,4,5,6] 向右輪轉 2 步: [6,7,1,2,3,4,5] 向右輪轉 3 步: [5,6,7,1,2,3,…

搜索回溯算法(DFS)1------遞歸

目錄 簡介: 遞歸問題解題的思路模板 例題1:漢諾塔 例題2:合并兩個有序鏈表 例題3:反轉鏈表 例題4:兩兩交換鏈表中的節點 例題5:Pow(x,n)-快速冪 結語: 簡介&…

嵌入式驅動學習第二周——斷言機制

前言 這篇博客來聊一聊C/C的斷言機制。 嵌入式驅動學習專欄將詳細記錄博主學習驅動的詳細過程,未來預計四個月將高強度更新本專欄,喜歡的可以關注本博主并訂閱本專欄,一起討論一起學習。現在關注就是老粉啦! 目錄 前言1. 斷言介紹…

貪心 Leetcode 134 加油站

加油站 Leetcode 134 學習記錄自代碼隨想錄 在一條環路上有 n 個加油站,其中第 i 個加油站有汽油 gas[i] 升 你有一輛油箱容量無限的的汽車,從第 i 個加油站開往第 i1 個加油站需要消耗汽油 cost[i] 升。你從其中的一個加油站出發,開始時油…

串聯所有單詞的子串

題目鏈接 串聯所有單詞的子串 題目描述 注意點 words[i] 和 s 由小寫英文字母組成1 < words.length < 5000可以以 任意順序 返回答案words中所有字符串長度相同 解答思路 根據滑動窗口哈希表解決本題&#xff0c;哈希表存儲words中所有的單詞及單詞的出現次數&#…

Reactor詳解

目錄 1、快速上手 介紹 2、響應式編程 2.1. 阻塞是對資源的浪費 2.2. 異步可以解決問題嗎&#xff1f; 2.3.1. 可編排性與可讀性 2.3.2. 就像裝配流水線 2.3.3. 操作符&#xff08;Operators&#xff09; 2.3.4. subscribe() 之前什么都不會發生 2.3.5. 背壓 2.3.6. …

p18 線性代數,行階梯型矩陣

行階梯型矩陣 行最簡型矩陣

steam游戲搬磚,跨國信息差項目,每天1小時收益也很不錯

大家好&#xff0c;我是阿陽&#xff01;每天都是一個新的開始&#xff01; 今天看到個Steam游戲搬磚項目&#xff0c;還是跨國國際貿易&#xff0c;感覺很好玩&#xff0c;特來給大家分享。 原理簡介 就是把Steam上的游戲裝備&#xff0c;搬運到國內網易Buff平臺上來賣。目前…

算法沉淀——動態規劃之01背包問題(leetcode真題剖析)

算法沉淀——動態規劃之01背包問題 01.【模板】01背包02.分割等和子集03.目標和04.最后一塊石頭的重量 II 01背包問題是一類經典的動態規劃問題&#xff0c;通常描述為&#xff1a;有一個固定容量的背包&#xff0c;以及一組物品&#xff0c;每件物品都有重量和價值&#xff0c…

c++基礎學習第二天(數組,函數)

提示&#xff1a;c基礎學習第二天&#xff08;數組&#xff0c;函數&#xff09; 文章目錄 1、數組1.1、 概述1.2、一維數組1.2.1、一維數組定義方式1.2.2、一維數組名稱的用途. 1.3、 二維數組1.3.1、二維數組定義方式1.3.2、二維數組數組名的用途 2、函數2.1、概述2.2、函數的…

云計算 2月28號 (linux的磁盤分區)

一 存儲管理 主要知識點: 基本分區、邏輯卷LVM、EXT3/4/XFS文件系統、RAID 初識硬盤 機械 HDD 固態 SSD SSD的優勢 SSD采用電子存儲介質進行數據存儲和讀取的一種技術&#xff0c;擁有極高的存儲性能&#xff0c;被認為是存儲技術發展的未來新星。 與傳統硬盤相比&#xff0c…

Vue 3 中的 Composition API 詳解

Vue.js&#xff0c;作為前端領域流行的框架之一&#xff0c;以其響應式數據綁定和組件化開發贏得了廣大開發者的喜愛。隨著前端技術的不斷發展和項目復雜度的增加&#xff0c;Vue 團隊推出了 Vue 3&#xff0c;并引入了 Composition API&#xff0c;以更好地滿足復雜應用的需求…

深度偽造,讓網絡釣魚更加難以辨別

網絡釣魚一直是安全領域的一個突出話題&#xff0c;盡管這類詐騙形式已經存在了幾十年&#xff0c;依舊是欺詐攻擊或滲透組織的最有效方法之一。詐騙分子基于社會工程原理&#xff0c;通過郵件、網站以及電話、短信和社交媒體&#xff0c;利用人性&#xff08;如沖動、不滿、好…

嵌入式驅動學習第二周——Linux內核打印

前言 這篇博客來聊一聊Linux內核打印。 嵌入式驅動學習專欄將詳細記錄博主學習驅動的詳細過程&#xff0c;未來預計四個月將高強度更新本專欄&#xff0c;喜歡的可以關注本博主并訂閱本專欄&#xff0c;一起討論一起學習。現在關注就是老粉啦&#xff01; 目錄 前言1. dmesg指令…

react diff

react diff算法為降低算法復雜度提出了三大策略&#xff1a; 1.只進行同級比較 2.節點類型比較&#xff0c;不同元素生成不同的fiber樹 3.key作為元素的唯一標識 diff算法流程 diff算法需要進行兩輪遍歷&#xff1a; 第一輪遍歷更新的節點。 第二輪遍歷沒更新的節點。 第一輪…