使用 BERT 進行文本分類 (01/3)

攝影:Max Chen?on?Unsplash

一、說明

????????這是使用 BERT 語言模型的一系列文本分類演示的第一部分。以文本的分類作為例,演示它們的調用過程。

二、什么是伯特?

????????BERT?代表 來自變壓器的雙向編碼器表示。

????????首先,轉換器是一種深度學習模型,它使用自我注意機制,根據每個單詞與其他單詞的關系對其進行加權。根據注意力得分,模型可以“注意”序列中的有價值的部分。其次,BERT是雙向的,這意味著它在訓練時會同時考慮左上下文和右上下文。從這個意義上說,BERT模型可以從兩個方向理解上下文。

三、BERT BASE 和 BERT LARGE

????????BERT BASE:更少的變壓器塊和隱藏層大小,具有與OpenAI GPT相同的模型大小。[12個變壓器塊,12個注意頭,768個隱藏層尺寸]

????????BERT LARGE:龐大的網絡,其注意力層是BERT BASE的兩倍,在NLP任務上實現了最先進的結果。[24個變壓器塊,16個注意頭,1024隱藏層尺寸]

????????區別:Bert base的參數比Bert large少,因此可以用更少的計算機內存使用。Bert large具有更多的參數,因此它比Bert基數更準確。

四、伯特輸入和輸出

????????輸入:[CLS]令牌序列[SEP]

  • [CLS] 代表 分類令牌
  • [SEP] 讓 BERT 知道哪個令牌屬于哪個序列
  • 可以輸入BERT模型的令牌的最大大小為512。因此,如果令牌小于 512,我們可以使用填充來填充空令牌;如果序列中的令牌長度超過 512,那么我們需要截斷令牌。
  • BERT 模型的輸出將是每個令牌中大小為 768 的嵌入向量。然后,這些令牌將成為分類器的輸入。

五、 嘗試一個簡單的文本

????????擁抱臉是一個很棒的學習場所。它提供語言模型、數據集,您甚至可以在那里學習自然語言處理!瀏覽其網站以獲取更多信息:

擁抱面孔 - 構建未來的 AI 社區。

構建、訓練和部署由機器學習中的參考開源提供支持的先進模型。超過。。。

huggingface.co

讓我們從擁抱臉中導出一個語言模型,看看它對一個簡單的句子有什么作用。我們需要先導入自動標記器來啟動語言模型。

pip install transformers
from transformers import AutoTokenizer
tokenizer= AutoTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-v2')
example_text = '今日は一日サッカーをしました'
##('I played soccer for the whole day')##
BERT_input = tokenizer(example_text,padding='max_length', max_length = 20, truncation=True, return_tensors="pt")print(BERT_input['input_ids'])
print(BERT_input['token_type_ids'])
print(BERT_input['attention_mask'])
tensor([[    2, 13711,   897,  1031,  2719, 11731,   932,   873, 13276,   881,3,     0,     0,     0,     0,     0,     0,     0,     0,     0]])
tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

六、解釋

  • 填充 :將每個序列填充到指定的最大長度。
  • max_length:每個序列的最大長度。在這個例子中,我們使用 20,但對于我們的實際數據集,我們將使用 512,這是 BERT 允許的最大序列長度。
  • 截斷 :如果為 True,則每個序列中超過最大長度的標記將被截斷。
  • return_tensors:將返回的張量類型。如果你使用 Pytorch,那么你將使用 pt。如果你使用Tensorflow,那么你需要使用tf。

七 什么是input_ids

我們可以解碼令牌以查看input_ids是什么。

example_text = tokenizer.decode(bert_input.input_ids[0])
print(example_text)
[CLS] 今日 は 一 日 サッカー を し まし た [SEP] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]

八、 什么是token_type_ids和attention_mask?

  • token_type_ids是一個二進制掩碼,用于標識哪些令牌屬于哪個序列。因為我們只有一個序列,所以所有代幣都屬于類 0。
  • attention_mask是一個二進制掩碼,如果令牌是實詞,則為 [CLS]、[SEP] 或填充。如果令牌是實詞 [CLS]、[SEP],則掩碼將為 1。否則,掩碼將為 0。

九、總結

????????在這篇文章中,我簡要介紹了BERT是什么,并使用一個簡單的文本來顯示使用BERT的標記化結果。達門·

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/41280.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/41280.shtml
英文地址,請注明出處:http://en.pswp.cn/news/41280.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SpringBoot 操作Redis、創建Redis文件夾、遍歷Redis文件夾

文章目錄 前言依賴連接 RedisRedis 配置文件Redis 工具類操作 Redis創建 Redis 文件夾查詢數據遍歷 Redis 文件夾 前言 Redis 是一種高性能的鍵值存儲數據庫,支持網絡、可基于內存亦可持久化的日志型,而 Spring Boot 是一個簡化了開發過程的 Java 框架。…

【TA 挖坑02】RayMarching SDF 物體黏合

寫在前面 由于實習和忙著論文很久沒經營博客了,最近以各種方式收集到了一些想實現的效果,其中一個就是卡通云融合、變大變小、聚散收攏的效果如何實現的問題,這就不得不提擱置了很久的RayMarching... 挖坑!整理一下有幫助的文章…

AWS WAF實戰、優勢對比和缺陷解決

文章目錄 挑戰和目標AWS WAF的優勢AWS WAF的不足我是怎么做的?什么是比較好的AWS WAF設計? 筆者為了解決公司Web站點防御性問題,較為深入的研究AWS WAF的相關規則。面對上千萬的沖突,筆者不得設計出一種能漂亮處理沖突數據WAF規則。 AWS WAF開發人員在…

Cocos2d 項目問題記錄

環境搭建 正常運行 Android 端的 Cocos2d 項目,本機至少需要 Android SDK、NDK 環境、Android Studio 項目報錯總結 CMake Error: CMake was unable to find a build program corresponding to "Ninja" 默認創建工程的 gradle.tools 版本為 3.1.0&…

微服務08-多級緩存

1.什么是多級緩存 傳統的緩存策略一般是請求到達Tomcat后,先查詢Redis,如果未命中則查詢數據庫,如圖: 存在下面的問題: ?請求要經過Tomcat處理,Tomcat的性能成為整個系統的瓶頸 ?Redis緩存失效時,會對數據庫產生沖擊 多級緩存就是充分利用請求處理的每個環節,分…

卷積操作后特征圖尺寸,感受野,參數量的計算

文章目錄 1、輸出特征圖的尺寸大小2、感受野的計算3、卷積核的參數量 1、輸出特征圖的尺寸大小 如果包含空洞卷積,即擴張率dilation rate不為1時: 2、感受野的計算 例如,圖像經過兩個3*3,步長為2的卷積后感受野為: co…

Centos7多臺服務器免密登錄

準備四臺服務器: docker0 docker1 docker2 docker3 在docker0服務器上生成公鑰和私鑰 [rootwww ~]# ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/root/.ssh/id_rsa): Created directory /root/.ssh. Enter passp…

在Gazebo中添加懸浮模型后,利用鍵盤控制其移動方法

前段時間寫了文章,通過修改sdf、urdf模型的方法,在Gazebo中添加懸浮模型方法 / Gazebo中模型如何不因重力下落:在Gazebo中添加懸浮模型方法 / Gazebo中模型如何不因重力下落:修改sdf、urdf模型_sagima_sdu的博客-CSDN博客 今天講…

Leetcode32 最長有效括號

給你一個只包含 ( 和 ) 的字符串&#xff0c;找出最長有效&#xff08;格式正確且連續&#xff09;括號子串的長度。 代碼如下&#xff1a; class Solution {public int longestValidParentheses(String str) {Stack<Integer> s new Stack<>();int res 0;int st…

GrapeCity Documents for Excel, Java Edition Crack

GrapeCity Documents for Excel, Java Edition Crack 增加了對SpreadJS.sjs文件格式的支持&#xff1a; 更快地將大型Microsoft Excel文件轉換為.sjs格式。 使用較小的占用空間保存導出的文件。 將Excel/SpreadJS功能導入SpreadJS/從SpreadJS導出。 從.sjs文件中壓縮的JSON文件…

JVM——JDK 監控和故障處理工具總結

文章目錄 JDK 命令行工具jps:查看所有 Java 進程jstat: 監視虛擬機各種運行狀態信息 jinfo: 實時地查看和調整虛擬機各項參數jmap:生成堆轉儲快照**jhat**: 分析 heapdump 文件**jstack** :生成虛擬機當前時刻的線程快照 JDK 可視化分析工具JConsole:Java 監視與管理控制臺連接…

手撕單鏈表

目錄 鏈表的概念和結構 單鏈表的實現 申請新結點 打印 尾插 頭插 尾刪 頭刪 ?編輯 查找 在pos位置前插入元素 在pos位置后插入元素 刪除pos位置的元素 刪除pos位置之后的位置的元素?編輯 完整代碼 SListNode.h SListNode.c 鏈表的概念和結構 鏈表是一種物理存儲…

【JavaSE】Java方法的使用

【本節目標】 1. 掌握方法的定義以及使用 2. 掌握方法傳參 3. 掌握方法重載 4. 掌握遞歸 目錄 1.方法概念及使用 1.1什么是方法(method) 1.2 方法定義 1.3 方法調用的執行過程 1.4 實參和形參的關系 2. 方法重載 2.1 為什么需要方法重載 2.2 方法重載概念 3. 遞歸 3.…

【uni-app報錯】獲取用戶收貨地址uni.chooseAddress()報錯問題

chooseAddress:fail the api need to be declared in …e requiredPrivateInf 原因&#xff1a; 小程序配置 / 全局配置 (qq.com) 解決&#xff1a; 登錄小程序后臺申請接口 按照流程申請即可 在項目根目錄中找到 manifest.json 文件&#xff0c;在左側導航欄選擇源碼視圖&a…

杭電比賽總結

我們的隊伍&#xff1a;team013 另外兩隊&#xff1a;team014、team015 ? 今天是我第一次打杭電&#xff0c;發現杭電多數都是猜結論題 先給一下我們的提交數據 Submit TimeProblem IDTimeMemoryJudge Status4:59:59101115 MS1692 KWrong Answer4:59:55101115 MS1684 KWrong…

Java算法_ 檢查對稱樹(LeetCode_Hot100)

題目描述&#xff1a;給你一個二叉樹的根節點 &#xff0c; 檢查它是否軸對稱。root 獲得更多&#xff1f;算法思路:代碼文檔&#xff0c;算法解析的私得。 運行效果 完整代碼 /*** 2 * Author: LJJ* 3 * Date: 2023/8/17 8:47* 4*/ public class SymmetricTree {static class…

vue之動態表單(優化)

代碼資源在這兒 ↑ vue之動態表單優化 vue2js動態表單優化vue3ts動態表單優化 vue2js動態表單優化 效果圖 目錄結構 五個文件的完整代碼: 以下是App.vue <template><div><router-view></router-view><Formpage /></div> </templa…

【LeetCode】647.回文子串

題目 給你一個字符串 s &#xff0c;請你統計并返回這個字符串中 回文子串 的數目。 回文字符串 是正著讀和倒過來讀一樣的字符串。 子字符串 是字符串中的由連續字符組成的一個序列。 具有不同開始位置或結束位置的子串&#xff0c;即使是由相同的字符組成&#xff0c;也會…

web連接桌面打開gptmap

一&#xff1a;環境配置 需要的材料&#xff1a; python-3.10.4 我使用的是這個版本的&#xff0c;3.8.10 該版本和以下版本組件組合&#xff0c;驗證過能正常運行&#xff08;python 3.6.8測試異常&#xff09; websockify 該項目有python版本和node js版本 noVNC 形式的app…

Qt Designer設計的界面如何顯示、即運行顯示窗口界面

首先利用Qt Designer設計.ui文件&#xff0c;然后采用Tools->External Tools->PyUIC轉換成.py文件。這個.py文件是.ui文件編譯而來的&#xff0c;將這種文件由.ui文件編譯而來的.py文件稱之為界面文件。由于界面文件每次編譯時候都會初始化&#xff0c;所以需要新建一個.…