文本分類--NLP-AI(八)

文本分類任務

  • 任務簡介
    • 1.字符數值化
      • 方式1
      • 方式2
    • 2.池化(pooling)
    • 3.全連接層
    • 4.歸一化函數(Sigmoid)
    • 5.總結
  • 從任務抽象新的技術點
    • Embedding層
    • 池化層

任務簡介

任務介紹: 字符串分類,根據一句話的含媽量,區分為兩類,一類為正向,一類為負向

舉例:

  1. 我的媽呀?
  2. 你媽媽的媽媽叫什么?

根據含有兩個3媽以上,即含媽量超標,判定為負向。即1正,2負

目標: 所以我們需要建模,即建立一個f(x),將我們的含媽量語句輸入后,輸出1為正,輸出0即為負。

1.字符數值化

釋義: 我們知道,模型是進行數學運算,輸入的內容一定要是數字,不能是直接的字符,所以我們先要把每個字轉為字符。

方式1

問: 直觀方式,我 -> 1, 你 -> 2, 他 -> 3 …. 媽 -> 26… 是否合理?
答: 問就是不合理。如果把漢字字符簡單的映射為一個個的數字,那么這些數字就會存在一些明細的規律,比如:1+2 =3;那是不是意味著,我+你就等于他;這樣很容易讓模型找規律時,會被影響到。

方式2

方案: 將每一個字符轉化為同維度的向量
例如:

我 - > [0.32618175 0.20962898 0.43550067 0.07120884 0.58215387]
你 - > [0.21841921 0.97431001 0.43676452 0.77925024 0.7307891 ]

他 -> [0.72847746 0.72803551 0.43888069 0.09266955 0.65148562]

詳細釋義:

1.我們將每個字符隨機生成一個向量,這樣就避免了字符之間存在簡單的加減乘除關系
2.我們將生成的向量也加入到模型的訓練中,這就要求生成的維度必須相同,這樣就可以使得語義相同的字:我、吾;其向量值會相近

輸入:我的媽呀 --> 4x5的矩陣
這里我們輸入模型的就不是簡單的一個字符的數字,而是一串字符所代表的向量:

[[0.32618175 0.20962898 0.43550067 0.07120884 0.58215387]
[0.21841921 0.97431001 0.43676452 0.77925024 0.7307891 ]
[0.95035602 0.45280039 0.06675379 0.72238734 0.02466642]
[0.86751814 0.97157839 0.0127658 0.98910503 0.92606296]]

矩陣形狀 = 文本長度 x 向量長度

2.池化(pooling)

問題點: 我們最后要求模型輸出的是一個數字,這個數字接近1或者0來判斷,語句的含媽量;但是我們看到了上面的輸入,一段話輸入,這個矩陣的行數我們不好控制,并且我們如何將維度降低呢?

解決方案: 所以我們首先將輸入進行降維,也就是池化操作,通過池化操作將矩陣處理為向量

示例:
在這里插入圖片描述
操作釋義:

1.我們將輸入的語句轉為矩陣后,我們這些向量相加,得到求和后的向量
2.我們將求和的向量的每列的數,根據相加向量的個數求平均,得到一個1*向量長度的矩陣,也就是向量。
上述過程就完成了降維,可以理解為對一句話的含義的壓縮。

3.全連接層

目的: 很簡單,根據第二部分,我們將矩陣轉為向量,那么我們需要將向量轉為數字輸出,即通過我們線性層(全連接層)來處理。

方案:

1.這里我們采用最簡單的線性層公式:y = wx +b
2.這里我們w的矩陣形狀和前面的向量有關系,即1
向量長度,b要能夠和運算的結果相加,那么形狀肯定也是1*向量長度。

舉例:
注意:這里的x在實際中,potroch為將其轉置,下圖可以看到:
在這里插入圖片描述

4.歸一化函數(Sigmoid)

目的: 歸一化函數也是激活函數,這里選擇Sigmoid的目的,很簡單,即將輸出的值映射到[0,1]范圍之間,我們想要的輸出就是,靠近1就是正向,靠近0就是負向,它可以搬到

舉例:
x = 3 歸一化后值: σ(x) = 0.9526

函數圖像:
在這里插入圖片描述

5.總結

1.字符轉成向量,向量構成輸入的矩陣
2.輸入矩陣進行池化,得到向量
3.經過全連接層y=w*x +b 得到實數
4.實數經過歸一化sigmoid得到(0,1)之間的數
其中可以進行訓練的為紅色部分

從任務抽象新的技術點

Embedding層

釋義: 上述分類任務中,將字符轉化為向量的過程,我們叫Embedding。
舉例: 這一層的作用很簡單,就像你喊老外給你干活,用中文,他不懂;必須的先翻譯成英文告訴他;embedding就相當于翻譯給計算機聽。

注意:

1.embedding層一把只有深度學習任務中才有,是深度學習的一個特征
2.Embedding矩陣是可訓練的參數,一般會在模型構建時隨機初始化,可以使用預訓練的詞向量來做初始化,此時也可以選擇不訓練Embedding層中的參數
比如:在當前火熱的大語言模型中,embedding層與模型層就是配套使用的,因為embedding加入到模型的訓練中,蘊含了一定的規律在里面。
3.多個語種和符號可以放到一個詞表中,也就是一個embedding層可以涵蓋多種字符。

池化層

釋義: 上述的分類任務中,將一句話的形成的張量,轉化為一個向量的過程,就是我們說的池化。池化的目的是,降維,縮小模型,并且提取特征。

下面我們用視圖領域的圖像池化來做示例講解
在這里插入圖片描述
過程:

上述左側4x4的數字,是將一張圖片Embedding為數字得到的
1.我們做一個2*2的正方形,將每一個正方形內最大的數字,提取為特征數字
2.全部提取完成后,即得到一個新的2x2的矩陣

好處:

  1. 可以降低后續的網絡層輸入維度
    2.減小了模型的大小,也就是參數量,因為輸入的參數矩陣變小了,和其相乘的后續矩陣的維度也就變小了
    3.提高了模型的計算速度,因為參數變少了
    4.提高了特征的魯棒性,防止過擬合,因為我們選取最大值,那么其他的參數只要在最大值一下,對我們整體的計算影響都會比較小;如果是平均值,同樣如此

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/45159.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/45159.shtml
英文地址,請注明出處:http://en.pswp.cn/web/45159.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

伊利25屆校招24年社招網申入職北森測評題庫全攻略!一文通!

伊利校招社招網申測評全攻略🚀 親愛的求職小伙伴們,今天我要分享一份伊利校招社招網申測評的全攻略,希望能助你們一臂之力! 測評概覽 伊利的網申測評分為六個部分,總共約60分鐘的答題時間,涵蓋了言語邏輯、…

避免 WebSocket 連接被拒絕

一、檢查服務器配置和權限 (一)確認服務器訪問權限 確保您的客戶端有訪問服務器的合法權限。如果服務器設置了訪問控制列表(ACL)或僅允許特定的源(Origin)進行連接,您需要確保客戶端的請求來源在允許的范圍內。例如,如果服務器只允許來自特定域名的連接,而您的客戶端從…

【微信小程序開發】如何定義公共的js函數,其它頁面可以調用

在微信小程序開發中,可以通過以下步驟定義和使用公共的 JS 函數,使得其它頁面可以調用: 1. 創建一個公共的 JS 文件:在項目的 utils 目錄下創建一個 JS 文件,例如 utils/util.js。 2. 定義公共函數:在 uti…

在word中刪除endnote參考文獻之間的空行

如圖,在References中,每個文獻之間都有空行。不建議手動刪除。打開Endnote。 打開style manager 刪除layout中的換行符。保存,在word中更新參考文獻即可。

Python和C++全球導航衛星系統和機器人姿態觸覺感知二分圖算法

🎯要點 🎯馬爾可夫隨機場網格推理學習 | 🎯二維伊辛模型四連網格模型推理 | 🎯統計物理學模型擾動與最大乘積二值反卷積 | 🎯受限玻爾茲曼機擾動和最大乘積采樣 | 🎯視覺概率生成模型測試圖像 &#x1f3…

從課本上面開始學習的51單片機究竟有什么特點,在現在的市場上還有應用嗎?

引言 51單片機,作為一種經典的微控制器,被廣泛應用于各種嵌入式系統中。盡管如今ARM架構的高性能低成本單片機在市場上占據主導地位,但51單片機憑借其獨特的優勢依然在某些領域保持著應用價值。本文將深入探討51單片機的特點、架構、應用以及…

ubuntu22.04 安裝boost

下載boost壓縮包,我這里上傳了一份1_81_0版本tar -xzvf boost_1_81_0.tar.gzcd boost_1_81_0/sudo apt install build-essential g autotools-dev libicu-dev libbz2-dev -ysudo ./bootstrap.sh --prefix/usr/./b2sudo ./b2 install 上述7步完成后,相關…

數學建模·模糊評價法

模糊評價法 一種解決評價問題或者得出最佳方案的方法 主觀性仍比較強 具體定義 三集:因素集,評語集和權重集,通過模擬矩陣的處理得到最合理的評語 具體步驟 因素集 因素集的確定不難,難在對分級評價時,對因素集的分級…

LeetCode --- 134雙周賽

題目 3206. 交替組 I 3207. 與敵人戰斗后的最大分數 3208. 交替組 II 3209. 子數組按位與值為 K 的數目 一、交替組 I & II 題目中問環形數組中交替組的長度為3的子數組個數,主要的問題在于它是環形的,我們要考慮首尾相接的情況,如何…

阿里新開源GPU版本的FunASR安裝避坑

#當前安裝過程沒有cpu版本順利 1.個人在自己的電腦上安裝ubantu系統,以便使用本身的顯卡功能(本人顯卡NVIDIA GeForce RTX 4060)(這里需要注意,更新里面有附加驅動安裝驅動會導致黑屏,小伙伴不要心急重裝系統,可以ctr…

ES索引模板

在Elasticsearch中,索引模板(Index Templates)是用來預定義新創建索引的設置和映射的一種機制。當你創建了一個索引模板,它會包含一系列的默認設置和映射規則,這些規則會在滿足一定條件的新索引被創建時自動應用。 索…

UOS查看系統信息命令行

UOS查看系統信息命令行 *** Rz整理 僅供參考 *** dmidecode查看System Boot信息 midecode -t 32 dmidecode查看System Reset信息 midecode -t 23 dmidecode查看機箱信息 midecode -t chassis dmidecode查看BIOS信息 midecode -t bios dmidecode查看CPU信息 dmidecode …

leetcode 404. 左葉子之和

給定二叉樹的根節點 root ,返回所有左葉子之和。 示例 1: 輸入: root [3,9,20,null,null,15,7] 輸出: 24 解釋: 在這個二叉樹中,有兩個左葉子,分別是 9 和 15,所以返回 24示例 2: 輸入: root [1] 輸出: 0提示: 節點…

Linux 下使用Docker安裝redis

redis: 是一個高性能的,鍵值對的,將數據存儲到內存中的非關系型數據庫(nosql數據庫 not only sql) 高性能:數據存在內存中,直接訪問內存 鍵值對:新聞id(鍵&#xff09…

c++數據結構--構造無向圖(算法6.1),深度和廣度遍歷

實驗內容: 實現教材算法6.2利用鄰接矩陣構造無向圖的算法,提供從鄰接矩陣獲得鄰接表的功能,在此基礎上進行深度優先遍歷和廣度優先遍歷。 實驗步驟: (1)按照實驗要求編寫代碼,構造無向圖。 ?…

淺談數學模型在UGC/AIGC游戲數值調參中的應用(AI智能體)

淺談數學模型在UGC/AIGC游戲數值調參中的應用 ygluu 盧益貴 關鍵詞:UGC、AIGC、AI智能體、大模型、數學模型、游戲數值調參、游戲策劃 一、前言 在策劃大大群提出《游戲工廠:AI(AIGC/ChatGPT)與流程式游戲開發》討論之后就已完…

Hi3861 OpenHarmony嵌入式應用入門--HTTPD

httpd 是 Apache HTTP Server 的守護進程名稱,Apache HTTP Server 是一種廣泛使用的開源網頁服務器軟件。 本項目是從LwIP中抽取的HTTP服務器代碼; Hi3861 SDK中已經包含了一份預編譯的lwip,但沒有開啟HTTP服務器功能(靜態庫無法…

NiFi1.25版本HTTPS模式下RestAPI使用入門

Apache NiFi 是一個強大的數據流處理工具,通過其 REST API,用戶可以遠程管理和控制數據流處理器。本文將介紹如何使用 NiFi 1.25 版本HTTPS 模式下Rest API,包括獲取 token、獲取組件信息、啟動和停止組件、以及更改組件的調度頻率等操作。 …

Linux vim文本編輯器

Vim(Vi IMproved)是一個高度可配置的文本編輯器,它是Vi編輯器的增強版本,廣泛用于程序開發和系統管理。Vim不僅保留了Vi的所有功能,還增加了許多新特性,使其更加強大和靈活。 Vim操作模式 普通模式&#xf…

科普文:微服務之Apollo配置中心

1. 基本概念 由于Apollo 概念比較多,剛開始使用比較復雜,最好先過一遍概念再動手實踐嘗試使用。 1.1、背景 隨著程序功能的日益復雜,程序的配置日益增多,各種功能的開關、參數的配置、服務器的地址……對程序配置的期望值也越來…