Self-supervised Learning(BERT/GPT/T5)

李宏毅老師《Pre-train Model》

什么是:Self-supervised Learning
在這里插入圖片描述

BERT

BERT 能做什么

Mask Input

在這里插入圖片描述

Next Sentence Prediction(not helpful)

在這里插入圖片描述

BERT其它的能力

上述的能力,可以認為是一種填空的能力,那么除了這些,還有哪些有用的能力呢?
在這里插入圖片描述

BERT能力模型評估

GLUE(General Language Understanding Evaluation)

GLUE是一個自然語言理解(NLU)任務的評測基準,由華盛頓大學 & Google Brain 聯合發布(2018 年)。

就像給 NLP 模型搞期末考試一樣,通過一系列標準化任務,看模型對語言理解能力到底行不行。

GLUE 里都考什么?

GLUE 是一個任務集合(benchmark suite),包含了 9 個子任務,主要考:

  • 句子關系判斷
  • 情感分類
  • 語義相似度
  • 推理能力
  • 語言蘊含關系

核心任務表:

任務名任務類型簡介
MNLI句子蘊含 (NLI)判斷兩句話是否蘊含、矛盾或無關
QNLI問答 NLI判斷一句話是否回答了問題
QQP句子相似度判斷兩個問題是否等價
SST-2情感分類判斷句子是積極還是消極
CoLA語言學可接受性判斷句子是否語法正確
MRPC句子對等判斷判斷兩句話是否語義等價
STS-B語義相似度打分給兩個句子相似度打分 (0~5)

BERT and its Family GLUE scores

在這里插入圖片描述

TraIning BERT

在這里插入圖片描述

How to use BERT

Use Case1: 情感分析

在這里插入圖片描述

Use Case2: 詞性標注

在這里插入圖片描述

Use Case3: 自然語言蘊含推理

NLI(Natural Language Inference): 給定兩句話,第二句是不是能從第一句推理出來、相矛盾,還是無關?

** NLI 任務通常分類**

標簽含義舉例
Entailment蘊含(能推導出來)A: “所有狗都會叫。” B: “我家狗會叫。”
Contradiction矛盾A: “所有狗都會叫。” B: “我家狗從不叫。”
Neutral無關或無法確定A: “所有狗都會叫。” B: “我家狗喜歡吃骨頭。”

在這里插入圖片描述

Use Case4: 抽取式問答

Extraction-based QA(抽取式問答) 是一種 從給定文本中直接抽取答案片段的問答方法。
特點:

  • 給定一段上下文 + 一個問題
  • 系統在上下文里找出一段或一句話,作為答案
  • 答案必須是原文里的內容(抽取出來,不是生成出來)

舉個例子

上下文:“OpenAI 是一家人工智能研究機構,成立于 2015 年,總部位于舊金山。”
問題: “OpenAI 成立于哪一年?”
抽取式答案: “2015 年”

在這里插入圖片描述

Why does BERT work?

Contextualized word embedding

在這里插入圖片描述

Apply BERT to protein,DNA, music classification

在這里插入圖片描述

Multi-lingual BERT

:用英文的QA問題訓練,用中文做QA問答
在這里插入圖片描述

why

這些相同語意的詞,中、英文詞 的詞向量很近.
在這里插入圖片描述

零樣本閱讀理解

Zero-shot Reading Comprehension(零樣本閱讀理解 )指的是: 不給模型提供任何相似示例,直接讓模型基于上下文和問題,理解語義、判斷答案或生成回答。

例:

  • 上下文:“OpenAI 成立于 2015 年,總部在舊金山,專注于 AI 技術研究。”

  • 問題: “OpenAI 的總部在哪?”

  • Zero-shot 模型行為:
    ? 沒有事先見過類似「總部在哪」的訓練樣本
    ? 依靠語言理解能力,定位上下文中的「總部在舊金山」,直接輸出

它和 Few-shot / Fine-tuning 的區別
類型定義示例
Zero-shot完全不給示例,直接回答只給上下文和問題
Few-shot給幾條類似示例,再回答給 2~5 個 QA 示例
Fine-tuning預先用大量類似數據微調,提升特定任務能力用大量閱讀理解任務微調好的模型


GPT(Generative Pre-trained Transformer)

生成式預訓練 Transformer 模型

Predict Next Token

<BOS>: begin-of-sentence

在這里插入圖片描述

How to use GPT

在這里插入圖片描述

Few-shot/One-shot/Zero-shot Learning

在這里插入圖片描述


T5

T5全稱: Text-To-Text Transfer Transformer
由 Google AI 團隊 2019 年發布,發表在論文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》

它和 GPT 最大不同

  • GPT 是文本 → 文本生成偏生成式
  • T5 是·“所有 NLP 任務都統一成 Text-to-Text 格式”

不管是翻譯、分類、問答、摘要,全部都按照這個套路來做:

輸入:一句文本(帶任務提示)
輸出:一句文本(任務結果)

本質上就是一個編碼器-解碼器結構的 Transformer。

T5 典型應用場景

應用場景舉例
機器翻譯translate English to French: How are you? → Comment ?a va ?
問答系統question: Who founded OpenAI? context: OpenAI was founded in 2015 by Elon Musk and Sam Altman. → Elon Musk and Sam Altman
文本摘要summarize: OpenAI is an AI company founded in 2015... → An AI company founded in 2015.
文本分類classify sentiment: I love this product. → positive
語義相似度sts: Sentence A. Sentence B. → 4.5(打分形式)

#T5、BERT、GPT 各自區別

模型架構類型輸入-輸出形式典型用途能否生成文本
BERT編碼器-only,雙向編碼文本 → 分類/判斷分類、問答、NER、相似度匹配?
GPT解碼器-only,自回歸生成文本 → 續寫文本對話、文章續寫、代碼生成?
T5編碼器-解碼器(雙向+自回歸)文本 → 文本(統一文本形式)翻譯、摘要、問答、分類等多任務?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/87785.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/87785.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/87785.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

《NuGet:.NET開發的魔法包管理器》

一、NuGet 初相識 在軟件開發的廣袤天地中&#xff0c;依賴管理始終是一個核心議題。想象一下&#xff0c;在沒有高效包管理工具的年代&#xff0c;開發者如同在黑暗中摸索前行。當項目逐漸龐大&#xff0c;所需的外部庫和組件日益增多&#xff0c;手動管理這些依賴就如同一場噩…

Vulkan 學習筆記12—深度緩沖

一、3D幾何體與深度問題 Z坐標引入 將2D幾何體擴展為3D時&#xff0c;需在Vertex結構體中添加glm::vec3 pos表示三維位置&#xff0c;并更新頂點輸入描述符格式為VK_FORMAT_R32G32B32_SFLOAT。頂點著色器需接收3D坐標并通過模型-視圖-投影矩陣轉換為裁剪坐標。 深度沖突問題 當…

AWS EC2使用SSM會話管理器連接

&#x1f9e9; 前提條件 已創建并運行中的 Amazon EC2 實例&#xff08;Amazon Linux 2023&#xff09; 擁有管理員權限的 AWS 賬戶 已連接到實例&#xff08;例如通過 EC2 Instance Connect&#xff09; 第一步&#xff1a;手動安裝 SSM Agent Amazon Linux 2023 默認未安…

Llama 4 模型卡及提示格式介紹

以下是Llama 4支持的特殊標記和標簽的完整列表: 通用標記 <|begin_of_text|>:指定提示符的開始。 <|end_of_text|>:模型將停止生成更多標記。此標記僅由預訓練的模型生成。 <|header_start|>…<|header_end|>:這些標記包含特定消息的角色。可能的…

flutter bloc 使用詳細解析

源碼地址 flutter_bloc 是基于 BLoC&#xff08;Business Logic Component&#xff09;模式的 Flutter 狀態管理庫&#xff0c;它封裝了 bloc package&#xff0c;幫助我們更清晰地組織業務邏輯與 UI 的分離。核心思想是 事件驅動 和 狀態響應。 &#x1f9e0; 原理簡介 1. 核…

c++ 語言在無人機應用開發中的應用

C 語言在無人機應用開發中扮演著核心角色&#xff0c;特別是在對性能、實時性、資源利用效率和底層硬件控制有嚴格要求的領域。以下是其主要應用領域&#xff1a; 飛控系統 (Flight Control System - FCS) 核心功能&#xff1a; 這是無人機的大腦。C 用于實現核心的導航、制導與…

Uniapp本地存儲(uni.setStorage)全面解析與實踐指南

在移動應用開發中&#xff0c;本地存儲是不可或缺的核心功能之一。作為跨平臺開發框架&#xff0c;Uniapp提供了一套完善的本地存儲解決方案&#xff0c;使開發者能夠輕松實現數據的持久化存儲。本文將深入探討Uniapp本地存儲的方方面面&#xff0c;從基礎使用到高級技巧&#…

n8n教程:5分鐘部署+自動生AI日報并寫入飛書多維表格

哈嘍&#xff0c;大家好&#x1f44f; 我是阿星&#xff01; 最近n8n太火了。什么是n8n&#xff1f;有點像扣子和dify的綜合體。 簡單來說就是替你打工的「自動化工作流」 我們今天就從部署&#x1f449;搭建第一個工作流。用它實現自動抓取新聞并分類。 教程有點長&#x…

禾納 AET3152AP 電源MOS IC完全替代TDM3307 替代TDM2307泰德電子料 國產芯片

禾納半導體的電源管理芯片AET3152AP不含鹵素和銻&#xff0c;符合Rohs標準&#xff0c;應用在交換機切換&#xff0c;便攜式/臺式機中的電源管理等&#xff0c;可pin to pin替代TDM3307或TDM2307. AET3152AP 封裝為PDFN3030 &#xff0c;最小包裝數為5000pcs AET3152AP工作溫…

專題:2025信創產業新發展+AI趨勢數字化研究報告|附30+份報告PDF匯總下載

原文鏈接&#xff1a;https://tecdat.cn/?p42711 本報告匯總解讀聚焦信創產業核心發展脈絡&#xff0c;以數據驅動視角剖析技術演進與市場變革。信創產業作為國家數字安全與技術自主可控的核心載體&#xff0c;正經歷從“可用”到“好用”的關鍵躍遷。 本報告洞察基于《億歐智…

電子電氣架構 --- 分區電子電氣架構如何支持軟件定義汽車

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 做到欲望極簡,了解自己的真實欲望,不受外在潮流的影響,不盲從,不跟風。把自己的精力全部用在自己。一是去掉多余,凡事找規律,基礎是誠信;二是…

【簡單】344.反轉字符串

題目描述 編寫一個函數&#xff0c;其作用是將輸入的字符串反轉過來。輸入字符串以字符數組 s 的形式給出。 不要給另外的數組分配額外的空間&#xff0c;你必須原地修改輸入數組、使用 O(1) 的額外空間解決這一問題。 示例 1&#xff1a; 輸入&#xff1a;s ["h&quo…

CVE-2025-24813源碼分析與漏洞復現(Tomcat 路徑等效漏洞與反序列化RCE)

漏洞概述 漏洞名稱&#xff1a;Tomcat 路徑等效漏洞反序列化遠程代碼執行&#xff08;RCE&#xff09; CVE 編號&#xff1a;CVE-2025-24813 CVSS 評分&#xff1a;9.8 影響版本&#xff1a; 9.0.0.M1 ≤ Tomcat ≤ 9.0.9810.1.0-M1 ≤ Tomcat ≤ 10.1.3411.0.0-M1 ≤ Tomcat…

深入解析:如何實時獲取Socket接收緩沖區的數據量

在網絡編程中&#xff0c;精確掌握接收緩沖區的數據狀態是優化性能的關鍵。本文將揭秘如何跨平臺獲取socket接收緩沖區的可讀數據量&#xff0c;并分析實際應用中的注意事項。 一、核心API&#xff1a;操作系統級數據探針 1. Windows平臺方案 #include <winsock2.h>// …

Edge卸載應用

Edge安裝應用后&#xff0c;出現在開始菜單&#xff0c;不能卸載。

Cursor Rules 的核心定位與作用

Cursor Rules 是 AI 編程工具 Cursor IDE 中的核心功能&#xff0c;用于約束 AI 生成代碼的行為&#xff0c;確保其符合項目規范、編碼風格或特定技術需求。它本質上是一套持久化、可復用的指令集&#xff0c;會動態插入到 AI 模型的上下文提示中&#xff0c;指導其生成代碼的邏…

多線程爬蟲優化:快速爬取并寫入CSV

在數據驅動的時代&#xff0c;爬蟲技術已成為獲取網絡數據的重要手段。然而&#xff0c;隨著數據量的不斷增加&#xff0c;單線程爬蟲的效率逐漸難以滿足需求。多線程爬蟲通過并行處理&#xff0c;能夠顯著提升爬取速度&#xff0c;同時將數據快速寫入CSV文件&#xff0c;為后續…

Deepseek+墨刀,1min快速生成流程圖!

想要了解快速了解產品邏輯&#xff0c;可以用ds墨刀快速生成流程圖~ deepseek鏈接&#xff1a;https://www.deepseek.com/ 墨刀在線&#xff1a;https://modao.cc/brand 如何操作呢&#xff1f; 1.打開deepseek&#xff0c;輸入以下咒語&#xff0c;讓AI用Mermaid語法繪制流…

LangChain4j流式調用、消息注解與會話記憶

我們先用AiService工具類把調用ai大語言模型的代碼寫出來。因為AiService工具類中整合有記憶、Rag知識庫、tools工具等&#xff0c;我們直接配置調用即可。 我用的是qwen-plus模型。 引入依賴&#xff1a; <dependency><groupId>dev.langchain4j</groupId>…

NtfsWriteLog函數分析之OpenAttributeTableDump

第一部分&#xff1a; NtfsWriteLog( IrpContext, Vcb->MftScb, //注意&#xff1a;Vcb->MftScb NULL, OpenAttributeTableDump, …