NLP課程筆記-基于transformers的自然語言處理入門

@toc

項目地址

https://github.com/datawhalechina/learn-nlp-with-transformers/

  • 2017年,Attention Is All You Need論文(Google Brain)首次提出了Transformer模型結構并在機器翻譯任務上取得了The State of the Art(SOTA, 最好)的效果。
  • 2018年,BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Google AI Language lab)使用Transformer模型結構進行大規模語言模型(language model)預訓練(Pre-train),再在多個NLP下游(downstream)任務中進行微調(Finetune),一舉刷新了各大NLP任務的榜單最高分,轟動一時。
  • 2019年-2021年,研究人員將Transformer這種模型結構和預訓練+微調這種訓練方式相結合,提出了一系列Transformer模型結構、訓練方式的改進(比如transformer-xl,XLnet,Roberta等等)。如下圖所示,各類Transformer的改進不斷涌現。

現在較為流行的基于transformer模型,基本你都可以在hugging/transformer庫中找到并直接使用。

2.1 圖解attention

問題:Attention出現的原因是什么? 潛在的答案:基于循環神經網絡(RNN)一類的seq2seq模型,在處理長文本時遇到了挑戰,而對長文本中不同位置的信息進行attention有助于提升RNN的模型效果

于是學習的問題就拆解為:1. 什么是seq2seq模型?2. 基于RNN的seq2seq模型如何處理文本/長文本序列?3. seq2seq模型處理長文本序列時遇到了什么問題?4.基于RNN的seq2seq模型如何結合attention來改善模型效果?

2.1.1 Seq2seq框架

seq2seq是一種常見的NLP模型結構,全稱是:sequence to sequence,翻譯為“序列到序列”。顧名思義:從一個文本序列得到一個新的文本序列。
典型的任務有:機器翻譯任務,文本摘要任務。谷歌翻譯在2016年末開始使用seq2seq模型,并發表了2篇開創性的論文。

首先看seq2seq干了什么事情?seq2seq模型的輸入可以是一個(單詞、字母或者圖像特征)序列,輸出是另外一個(單詞、字母或者圖像特征)序列。一個訓練好的seq2seq模型如下圖所示(注釋:將鼠標放在圖上,圖就會動起來):
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/19714.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/19714.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/19714.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ADB安裝教程

1 adb簡介 Android 調試橋 (adb) 是一種功能多樣的命令行工具,可讓您與設備進行通信。 adb命令可用于執行各種設備操作,例如安裝和調試應用。 adb 提供對 Unix shell(可用來在設備上運行各種命令)的訪問權限。它是一種客戶端-服務…

一篇文章帶你弄懂Java集合的泛型

目錄 第一問:什么是泛型?有什么好處? 第二問:泛型是如何實現的呢? 第三問:類型擦除的缺點有哪些? 第四問:泛型中上下界限定符extends和super有什么區別? 第五問&…

HR人才測評,如何做中層管理人員的素質測評?

中層管理人員是企業中的重要力量,他們是連接高層管理和基層員工的橋梁,對企業的發展至關重要。因此,對中層管理人員的素質測評尤為重要。下面,我將介紹一些HR人才測評的方法和步驟,以幫助企業準確評估中層管理人員的素…

中信銀行積極開展2024年金融科技活動周宣傳活動

近日,2024年全國金融“科技活動周”正式啟動。中信銀行圍繞“弘揚科學家精神 激發全社會創新活力”為主題,積極面向公眾宣傳各類金融知識,全面營造熱愛科學、崇尚科學的社會氛圍。 自5月25日起,中信銀行通過全國網點大屏播放宣傳…

【C++】77組合

給定兩個整數 n 和 k,返回范圍 [1, n] 中所有可能的 k 個數的組合。 你可以按 任何順序 返回答案。 使用回溯算法。我們可以按照以下步驟來實現: 創建一個輔助函數 backtrack,用來進行回溯搜索。其中包括當前組合的狀態變量 current、起始…

C# list集合

一、list集合基本使用 1.添加元素 ① 單個元素添加 List<int> list new List<int>();for (int i 0; i < 3; i){list.Add(i);}//輸出&#xff1a;0,1,2 ②初始化時添加元素 List<int> list2 new List<int> { 1, 2, 3 };//輸出&#xff1a;0,1…

Jenkins從放棄到入門:部署、配置與應用

目錄 Jenkins詳解 一、Jenkins介紹 1、Jenkins 功能 2、Jenkins 概念 3、Jenkins 目的 4、Jenkins 特性 5、產品發布流程 二、Jenkins CI/CD 流程 三、部署Jenkins git 1、jenkins 安裝 yum 安裝 jenkins *jenkins 依賴 java 環境 #注意2.346之后的版本不再支持jdk…

RabbitMQ-發布/訂閱模式

1、發布/訂閱模式介紹 在普通的生產者、消費者模式&#xff0c;rabbitmq會將消息依次傳遞給每一個消費者&#xff0c;一個worker一個&#xff0c;平均分配&#xff0c;這就是Round-robin調度方式&#xff0c;為了實現更加復雜的調度&#xff0c;我們就需要使用發布/訂閱的方式…

EXSI虛擬機新增磁盤并將空間擴充到已有分區

這里寫自定義目錄標題 1、在EXSI虛擬機中新增一塊磁盤配置大小2、確認新磁盤3、格式化新分區4、添加新分區到LVM5、將新增分區添加到已有分區里 1、在EXSI虛擬機中新增一塊磁盤配置大小 注意事項&#xff1a; (1)需確保虛擬機已關閉活處于維護模式&#xff0c;避免數據丟失 (2…

Spring Boot詳解:深入了解與實踐

文章目錄 1. Spring Boot簡介1.1 什么是Spring Boot&#xff1f;1.2 Spring Boot的歷史背景1.3 Spring Boot的核心特點 2. Spring Boot的核心概念2.1 自動配置2.1.1 自動配置原理2.1.2 自定義配置 2.2 Spring Boot Starter2.3 Spring Boot CLI 3. Spring Boot的主要功能模塊3.1…

網橋、路由器和網關有什么區別

在計算機網絡領域&#xff0c;網橋、路由器和網關都是常見的網絡設備&#xff0c;它們在網絡通信中扮演著不同的角色。雖然它們都有連接不同網絡的功能&#xff0c;但在實際應用中卻具有各自獨特的作用和特點。 1.網橋&#xff08;Bridge&#xff09; 定義&#xff1a;網橋是…

最佳 Mac 數據恢復:恢復 Mac 上已刪除的文件

嘗試過許多 Mac 數據恢復工具&#xff0c;但發現沒有一款能達到宣傳的效果&#xff1f;我們重點介紹最好的 Mac 數據恢復軟件 沒有 Mac 用戶愿意擔心數據丟失&#xff0c;但您永遠不知道什么時候會發生這種情況。無論是意外刪除 Mac 上的重要文件、不小心弄濕了 Mac、感染病毒…

CSS:list-style作用

list-style作用 介紹屬性1. list-style-type2.list-style-image3.list-style-position 常見用法1.設置列表項標記類型2.設置列表項標記圖像3.設置列表項標記位置4.組合使用5.為不同列表項設置不同的樣式6.重置列表樣式 示例 介紹 在Web開發中&#xff0c;list-style 是CSS的一…

ORACLE 查詢SQL優化

1 使用EXPLAIN PLAN 使用EXPLAIN PLAN查看查詢的執行計劃&#xff0c;這可以幫助你理解查詢是如何被Oracle執行的。基于執行計劃&#xff0c;你可以確定是否存在索引缺失、不必要的全表掃描等問題。 以下是幾種使用EXPLAIN PLAN的方法&#xff1a; 使用EXPLAIN PLAN FOR: 你可以…

【Epoch,Batch,Iteration】深度學習模型訓練相關基礎概念光速理解!

&#x1f525;模型訓練相關基礎概念&#xff01; Epoch: 一次 epoch 代表整個訓練數據集已經被完整地送入神經網絡進行了一輪訓練。通常&#xff0c;模型需要多次 epoch 才能充分學習數據集中的模式。Batch: 由于數據集可能過大&#xff0c;無法一次性全部加載到內存中進行訓練…

解決VSCode右鍵沒有Open In Default Browser問題

在VSCode進行Web小程序測試時&#xff0c;我們在新建的HTML文件中輸入 !會自動生成頁面代碼骨架&#xff0c;寫入內容后&#xff0c;我們想要右鍵在瀏覽器中預覽。發現右鍵沒有“Open In Default Browser”選項。原因是沒有安裝插件。 下面是解決方案&#xff1a;首先在VSCode找…

探索Lora:微調大型語言模型和擴散模型的低秩適配方法【原理解析,清晰簡潔易懂!附代碼】

探索Lora&#xff1a;微調大型語言模型和擴散模型的低秩適配方法 隨著深度學習技術的快速發展&#xff0c;大型語言模型&#xff08;LLMs&#xff09;和擴散模型&#xff08;Diffusion Models&#xff09;在自然語言處理和計算機視覺領域取得了顯著的成果。然而&#xff0c;這…

3d渲染的常用概念和技術,渲染100邀請碼1a12

之前我們介紹了3D渲染的基本原理和流程&#xff0c;這次說下幾個常用概念和技術。 3D渲染中涉及到很多專業的概念和技術&#xff0c;它們決定了渲染質量和效果&#xff0c;常用的有以下幾個。1、光線追蹤 光線追蹤是一些專業渲染器&#xff08;如V-Ray和Corona等&#xff09;…

Android UI控件詳細解析(四)

1.UI控件 1.1 TextView控件 常用屬性 屬性含義id給當前控件定義了一個唯 一標識符layout_width高度&#xff0c;單位&#xff1a;dp (wrap_content, match_parent)layout_height寬度&#xff0c;單位&#xff1a;dp (wrap_content, match_parent)background設置背景圖片text…

Django學習一:創建Django框架,介紹Django的項目結構和開發邏輯。創建應用,編寫主包和應用中的helloworld

文章目錄 前言一、Django環境配置1、python 環境2、Django環境3、mysql環境4、IDE&#xff1a;pycharm 二、第一次創建Django項目1、創建項目door_web_django_system2、運行啟動 三、Django項目介紹1、介紹Django項目結構2、第一個helloword4、django的項目邏輯&#xff08;和j…