【6】Transformers快速入門:Transformer 的注意力層 是啥?


一句話看懂注意力層

作用:讓 AI 像人一樣 “抓重點”
(比如讀“貓追老鼠”,自動聚焦 “追” 這個動作,忽略無關詞)


1. 為什么需要注意力?

  • 問題場景(翻譯例子):
    英文:“You like this course” → 法語
    • “like” 時:必須看主語 “You”(法語動詞要變位)
    • “this” 時:必須看名詞 “course”(法語分陰陽性)
  • 傳統模型缺陷
    像死讀書的人,必須從頭讀到尾才能理解,無法 跳著抓關鍵
  • 注意力層解決方案
    讓AI隨時 “標亮”關鍵關聯詞,無視無關內容 ?

2. 注意力層怎么工作?—— 舉個栗子🌰

任務:理解多義詞 “蘋果”

  • 句子A:“我吃蘋果” → 注意力層標亮 “吃”(關聯水果)
  • 句子B:“我買蘋果” → 注意力層標亮 “買”(關聯手機)
    同一詞在不同句子中動態聚焦不同上下文!

💡 對比 Word2Vec
Word2Vec 的“蘋果”永遠同一個向量 → 靜態
Transformer 的“蘋果”向量隨句子變化 → 動態(靠注意力調節)


3. 訓練時如何防作弊?—— Mask 機制

  • Decoder 的困境
    生成文本時,若提前看到后文(如寫作文先看結尾),就 作弊了!
  • 解決方案遮罩(Mask)
    • 像考試 蓋住后半張卷子 ??
    • 舉例(生成“你好嗎”):
      • 第一步:輸入 [開始] → 生成 “你”
      • 第二步:輸入 [開始, 你] → 生成 “好”(看不到后面的“嗎”)
      • 第三步:輸入 [開始, 你, 好] → 生成 “嗎”

4. Encoder 和 Decoder 的注意力區別

組件能看到啥?作用小白比喻
Encoder整句話所有詞全面理解語義(像讀完文章)開卷考試,隨便翻書
Decoder只能看已生成的詞(Mask機制)按順序寫答案(像閉卷寫作文)默寫課文,寫哪句看哪句

🌰 翻譯任務協作流程
輸入英文:“You like this course”

  1. Encoder:讀完整個英文句,理解重點(“You”和“like”綁定,“this”和“course”綁定)
  2. Decoder
    • 首步:根據Encoder總結的“重點筆記”,生成法語第一個詞 “Vous”(您)
    • 后續:結合已生成的詞+Encoder筆記,逐步輸出 “aimez ce cours”

關鍵創新:自注意力(Self-Attention)

核心絕招:讓每個詞 自己決定 該關注句中的哪些詞!

  • 操作步驟
    1. 每個詞化身 “提問官”(如“蘋果”問:誰和我相關?)
    2. 其他詞舉手回答(“吃”舉手 → 關聯水果;“買”舉手 → 關聯手機)
    3. 根據舉手人數 動態調整“蘋果”的向量
      從此AI真正讀懂上下文!

總結:注意力層多重要?

  1. 解決長距離依賴
    即使詞隔很遠(如句首主語影響句尾動詞),也能精準關聯 ??
  2. 動態理解多義詞
    “蘋果”是水果還是手機?看注意力聚焦誰!
  3. 實現并行計算
    比RNN順序處理快100倍 ?(Transformer 速度碾壓的關鍵)

💡 小白一句話記憶
注意力層 = AI 的“高亮筆”
讀句子時自動圈出重點詞,從此告別死記硬背! 🚀

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/92774.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/92774.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/92774.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

集合,完整擴展

目錄 前言: 一、List接口 1.1 ArrayList 1.2 LinkedList 1.3 Vector 二、Set接口 2.1 HashSet 2.2 TreeSet 2.3 LinkedHashSet 三、應用選擇 前言: 本篇文章重點梳理 List 接口和 Set 接口的核心內容,結合代碼案例幫大家吃透它們的…

【doris基礎與進階】3-Doris安裝與部署

安裝前的準備 在windows系統上通過vmwareubuntu 22.04的方式進行安裝,由于資源有限,在同1臺機器上同時安裝fe和be(broker本次不安裝,極簡化安裝),安裝版本為2.1.10,2.x版本架構不會有大的變化&a…

關于數據結構6-哈希表和5種排序算法

哈希表1哈希算法將數據通過哈希算法映射成一個鍵值,存取都在同一個位置實現數據的高效存儲和查找,將時間復雜度盡可能降低至O(1)2哈希碰撞多個數據通過哈希算法得到的鍵值相同,成為產生哈希碰撞3哈希表:構建哈希表存放0-100之間的…

AWT與Swing深度對比:架構差異、遷移實戰與性能優化

全面對比分析Java AWT與Swing GUI框架的架構差異、性能表現和適用場景,提供完整的AWT到Swing遷移實戰指南,包含15代碼示例、性能測試數據、最佳實踐建議,助你做出明智的技術選型和實現平滑遷移。 Java AWT, Swing, GUI框架對比, 代碼遷移, 性…

git倉庫檢測工具

介紹 Gitleaks 是一款用于檢測git 倉庫、文件以及任何你想通過 git 傳遞的信息(例如密碼、API 密鑰和令牌)的工具stdin。如果你想了解更多關于檢測引擎工作原理的信息,請查看這篇博客:正則表達式(幾乎)就是你所需要的一切。 ? ~/code(master) gitleaks git -v○│╲│…

【4】Transformers快速入門:自然語言模型 vs 統計語言模型

一句話關系總結 統計語言模型 自然語言模型的“數學基礎” (就像加減乘除是數學的基礎,統計模型是AI學說話的基礎工具)區別對比表(小白版)維度統計語言模型自然語言模型本質用數學公式算句子概率用神經網絡模仿人腦理…

[激光原理與應用-252]:理論 - 幾何光學 - 傳統透鏡焦距固定,但近年出現的可變形透鏡(如液態透鏡、彈性膜透鏡)可通過改變自身形狀動態調整焦距。

一、液態透鏡:電潤濕效應驅動曲率變化基本結構液態透鏡由兩種互不相溶的液體(如導電水溶液與絕緣硅油)封裝在透明圓筒形容器中構成。容器壁經疏水處理,使水溶液呈圓頂型聚集在中心,與硅油形成凸狀曲面。工作原理電潤濕…

wordpress數據庫導入時的#1044錯誤

在wordpress網站數據庫文件.sql導入到數據庫時,發生錯誤,錯誤提示如下:#1044 – Access denied for user ‘wodepress_com’’localhost’ to database ‘wodepress’。 這個錯誤表明用戶wodepress_com沒有權限訪問數據庫wodepress。以下是解…

微服務ETCD服務注冊和發現

1.什么是注冊中心 注冊中心主要有三種角色: 服務提供者(RPC Server):在啟動時,向 Registry 注冊自身服務,并向 Registry 定期發送心跳匯報存活狀態。 服務消費者(RPC Client)&…

計算機網絡---默認網關(Default Gateway)

一、默認網關的定義 默認網關(Default Gateway)是一個網絡設備(通常是路由器、防火墻或三層交換機)的IP地址,它是本地網絡中的設備訪問其他網絡(如外網、其他子網)時,數據報文的“第…

OpenBMC中libgpio架構與驅動交互全解析:從硬件映射到應用控制

1. libgpio概述與核心定位 libgpio作為OpenBMC中GPIO管理的核心庫,扮演著連接硬件驅動與上層應用的橋梁角色。它通過標準化的接口抽象了不同硬件平臺的GPIO操作細節,使得電源控制、傳感器監控等關鍵功能能夠以統一的方式訪問GPIO資源。 1.1 libgpio在Ope…

開放原子開源生態大會:麒麟信安加入openEuler社區AI聯合工作組,聚焦操作系統開源實踐與行業賦能

7月23日,由開放原子開源基金會主辦的2025開放原子開源生態大會在京開幕,大會以“開源賦能產業,生態共筑未來”為主題。工業和信息化部副部長熊繼軍、北京市人民政府副秘書長許心超出席大會并致辭。作為開放原子開源基金會黃金捐贈人和開源重要…

Lyapunov與SAC算法的數學結構對比:從二次漂移到TD損失

一、李雅普諾夫優化中二次漂移函數的推導 李雅普諾夫優化的核心是通過設計 “李雅普諾夫函數” 和 “漂移項”,保證系統狀態收斂到穩定點。以下以線性時不變系統為例(非線性系統推導邏輯類似,僅動力學方程更復雜),推導…

WireShark:非常好用的網絡抓包工具

文章目錄一、寫在前面二、安裝三、使用1、入門使用(1)打開軟件(2)右鍵網卡,Start Capture(開始捕獲)2、界面詳細介紹3、過濾器設置一、寫在前面 Wireshark是使用最廣泛的一款「開源抓包軟件」,常用來檢測網…

WEB技術演進史:從C/S到微服務架構

WEB技術 HTTP協議和B/S 結構 操作系統有進程子系統,使用多進程就可以充分利用硬件資源。進程中可以多個線程,每一個線程可以被CPU調度執行,這樣就可以讓程序并行的執行。這樣一臺主機就可以作為一個服務器為多個客戶端提供計算服務。 客戶端…

win11中Qt5.14.0+msvc2019+opencv4.9配置

本文主要研究由msvc編譯的opencv在QT中的配置,opencv可以是官網直接下載的版本,也可以是msvc(例如vs2019)通過cmake編譯 contrib功能的opencv版本,這2種版本對qt版本沒有嚴格要求,但是若在cmake中選擇了with_qt功能,那…

【listlist模擬】

list&list模擬1.list使用2、list模擬附錄1.list使用 list常見接口不做介紹,跟前面vector有相似之處,跟數據結構list基本一樣。 ?因為list使用帶頭的雙向循環鏈表實現的,不能用小標訪問,只能用迭代器或范圍for訪問 list有成…

在CentOS 7上將PostgreSQL數據庫從默認路徑遷移到自定義目錄

在CentOS 7上將PostgreSQL數據庫從默認路徑遷移到自定義目錄,需遵循以下步驟。假設原數據目錄為“/var/lib/pgsql/12/data”,目標目錄為“/new/path/pgdata”。 1、步驟概覽 停止PostgreSQL服務創建新目錄并設置權限復制數據文件(保留權限&am…

C語言基礎06——結構體(struct)

一、結構體的概念結構體(struct)是 C 語言中一種自定義數據類型,它允許你將不同類型的數據項組合在一起,形成一個新的復合數據類型。想象一下:如果要表示一個 "學生",需要包含姓名(字…

小白入門指南:Edge SCDN 輕松上手

在互聯網飛速發展的當下,網站性能與安全至關重要。對于小白而言,Edge SCDN 可能是個陌生概念,但它卻能極大助力網站運營。本文將用簡單易懂的語言,帶大家了解 Edge SCDN,探討其運用方法。?一、Edge SCDN 是什么&#…