NLP高頻面試題（四十七）——探討Transformer中的注意力機制：MHA、MQA與GQA

NLP高頻面試題（四十七）——探討Transformer中的注意力機制：MHA、MQA與GQA

pingmian/2025/7/25 12:31:33/文章來源:https://blog.csdn.net/qq_41667743/article/details/147314860

MHA、MQA和GQA基本概念與區別

1. 多頭注意力（MHA）

多頭注意力（Multi-Head Attention，MHA）通過多個獨立的注意力頭同時處理信息，每個頭有各自的鍵（Key）、查詢（Query）和值（Value）。這種機制允許模型并行關注不同的子空間上下文信息，捕捉復雜的交互關系。然而，MHA存在一個明顯問題：計算和內存開銷巨大，尤其在長序列任務中，鍵值緩存（KV-cache）顯著增加，限制了模型在實際推理階段的可擴展性。

2. 多查詢注意力（MQA）

MQA（Multi-Query Attention）提出的解決方案是將所有查詢頭共享同一組鍵值對，極大地減少KV緩存大小。這種共享機制提高了推理時的效率和速度，但因缺少獨立鍵值，可能在精細化任務或復雜場景下出現性能下降。

3. 分組查詢注意力（GQA）

GQA（Grouped Query Attention）則折中于MHA與MQA之間，提出將查詢頭分為若干組，每組共享一套鍵

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/77509.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/77509.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/77509.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

51單片機的原理圖和PCB繪制

51單片機的原理圖和PCB繪制

51單片機最小系統原理圖加了兩個led燈和按鍵檢測電路。 PCB中原件擺放位置成品資源鏈接：https://download.csdn.net/download/qq_61556106/90656365

閱讀更多...

使用注解方式整合ssm時，啟動tomcat掃描不到resource下面的xxxmapper.xml

使用注解方式整合ssm時，啟動tomcat掃描不到resource下面的xxxmapper.xml

解決org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): com.xxx.mapper.方法在Spring與Mybatis整合時，可能會遇到這樣的報錯原因： 其原因為mapper路徑的映射錯誤，表示在嘗試執行某個 Mapper 接口的方法時…

閱讀更多...

提示詞設計：動態提示詞標準提示詞

提示詞設計：動態提示詞標準提示詞

提示詞設計：動態提示詞標準提示詞研究背景：隨著人工智能與司法結合的推進以及裁判文書公開數量增多，司法摘要任務愈發重要。傳統司法摘要方法生成質量有待提升，大語言模型雖有優勢，但處理裁判文書時存在摘要結構信息缺失、與原文不一致等問題。研究方法 DPCM方法：分為大…

閱讀更多...

Jenkins 多分支管道

Jenkins 多分支管道

如果您正在尋找一個基于拉取請求或分支的自動化 Jenkins 持續集成和交付 (CI/CD) 流水線，本指南將幫助您全面了解如何使用 Jenkins 多分支流水線實現它。 Jenkins 的多分支流水線是設計 CI/CD 工作流的最佳方式之一，因為它完全基于 git（源代…

閱讀更多...

跨境電商管理轉型：日事清通過目標管理、流程自動化助力智優美科技項目管理升級與目標落地復盤

跨境電商管理轉型：日事清通過目標管理、流程自動化助力智優美科技項目管理升級與目標落地復盤

1.客戶背景介紹深圳市智優美科技有限公司是一家專業從事外貿B2C的電子商務公司，公司總部位于深圳市寶安區，旗下擁有三家子公司。目前銷售的品類有：家居用品、電子產品、電子配件產品等，在深圳外貿電商行業銷售額穩居行業前10名。…

閱讀更多...

基于Docker+k8s集群的web應用部署與監控

基于Docker+k8s集群的web應用部署與監控

項目架構圖 server ip master 192.168.140.130 node1 192.168.140.131 node2 192.168.140.132 ansible 192.168.140.166 jumpserver 192.168.100.133 firewall 192.168.1.86 nfs 192.168.140.157 harbor 192.168.140.159 Promethethus 192.168.140.130 Jen…

閱讀更多...

量子計算與經典計算融合：開啟計算新時代

量子計算與經典計算融合：開啟計算新時代

一、引言隨著科技的飛速發展，計算技術正迎來一場前所未有的變革。量子計算作為前沿技術，以其強大的并行計算能力和對復雜問題的高效處理能力，吸引了全球科技界的關注。然而，量子計算并非要完全取代經典計算，而是與經典…

閱讀更多...

【HarmonyOS 5】makeObserved接口詳解

【HarmonyOS 5】makeObserved接口詳解

【HarmonyOS 5】makeObserved接口詳解一、makeObserved接口是什么？ makeObserved 接口（API version 12 起可用）用于將非觀察數據轉為可觀察數據，適用于三方包類、Sendable 裝飾的類、JSON.parse 返回的對象、collections.Array…

閱讀更多...

豆瓣圖書數據采集與可視化分析（二）- 豆瓣圖書數據清洗與處理

豆瓣圖書數據采集與可視化分析（二）- 豆瓣圖書數據清洗與處理

文章目錄前言一、查看數據基本信息二、拆分pub列三、日期列處理四、價格列處理五、出版社列處理六、評價人數列處理七、缺失值處理八、重復數據處理九、異常值處理十、完整代碼十一、清洗與處理后的數據集展示前言豆瓣作為國內知名的文化社區，擁有龐大且豐富的圖…

閱讀更多...

Wasm -WebAssembly簡介

Wasm -WebAssembly簡介

WebAssembly 是什么？ WebAssembly/wasm WebAssembly 或者 wasm 是一個可移植、體積小、加載快并且兼容 Web 的全新格式 WebAssembly（簡稱 Wasm）是一種二進制指令格式，設計用于在現代 Web 瀏覽器中高效運行程序。它可以被認為是一…

閱讀更多...

驅動開發硬核特訓 · Day 15：電源管理核心知識與實戰解析

驅動開發硬核特訓 · Day 15：電源管理核心知識與實戰解析

在嵌入式系統中，電源管理（Power Management）并不是“可選項”，而是實際部署中影響系統穩定性、功耗、安全性的重要一環。今天我們將以 Linux 電源管理框架為基礎，從理論結構、內核架構，再到典型驅動實戰&a…

閱讀更多...

【SpringBoot】99、SpringBoot中整合RabbitMQ實現重試功能

【SpringBoot】99、SpringBoot中整合RabbitMQ實現重試功能

最近在做一個項目，需要使用 MQ 實現重試功能，在這里給各位分享一下。 1、整合 RabbitMQ  <dependency><groupId>org.springframework.boot</groupId><

閱讀更多...

AI 中的 CoT 是什么？一文詳解思維鏈

AI 中的 CoT 是什么？一文詳解思維鏈

文章目錄 CoT 的組成CoT 的作用CoT 的推理結構變體CoT 的特點CoT 的適用場景總結在人工智能領域，尤其是自然語言處理和機器學習中，有一種名為思維鏈（Chain of Thought，CoT）的技術，它正逐漸改變著我們對 AI…

閱讀更多...

Vue3集成Element Plus完整指南：從安裝到主題定制上

Vue3集成Element Plus完整指南：從安裝到主題定制上

一、Element Plus簡介 Element Plus是一套基于Vue 3.0的桌面端組件庫，由餓了么前端團隊開源維護。它提供了豐富的UI組件，能夠幫助開發者快速構建企業級中后臺產品。 1. 安裝與卸載 bash 復制下載 # 安裝最新版本 npm install element-plus -S# 卸…

閱讀更多...

Java29：Spring MVC

Java29：Spring MVC

一：Springmvc簡介 1.簡介： Spring Web MVC 是基于Servlet API構建的原始Web框架，從一開始就包含在Spring Framework中。正式名稱“Spring Web MVC” 來自其源模塊名稱（spring-webmvc）但它通常被稱為“Spring Mvc” …

閱讀更多...

VLC搭建本機的rtsp直播推流和拉流

VLC搭建本機的rtsp直播推流和拉流

媒體---流---捕獲設備，選擇攝像頭，點擊串流 x下一步選擇rtsp，點擊添加看到了端口，并設置路徑： 選擇Video -H 264 mp3(TS) 點擊下一個， 點擊流，就開始推流了拉流，觀看端&#x…

閱讀更多...

云點數據讀寫

云點數據讀寫

一、常見點云數據格式 LAS/LAZ格式 LAS是點云數據的行業標準格式 LAZ是LAS的壓縮版本支持地理參考信息、顏色、強度等屬性 PCD格式(Point Cloud Data) PCL(Point Cloud Library)開發的格式支持ASCII和二進制存儲包含頭部信息和數據部分 PLY格式(Polygon File Format…

閱讀更多...

[RHEL8] 指定rpm軟件包的更高版本模塊流

[RHEL8] 指定rpm軟件包的更高版本模塊流

背景：掛載RHEL ISO使用kickstart安裝操作系統，安裝包未指定安裝perl，但是安裝完可以查到其版本，且安裝的是ISO中多個版本中的最低版本。原因：（1）為什么沒有裝perl，perl -v可以看到版…

閱讀更多...

Spring 事務管理核心機制與傳播行為應用

Spring 事務管理核心機制與傳播行為應用

Spring 事務詳解一、Spring 事務簡介 Spring 事務管理基于 AOP（面向切面編程）實現，通過聲明式事務（注解或 XML 配置）統一管理數據庫操作，確保數據一致性。核心目標：保證多個數據庫操作的原子…

閱讀更多...

JavaScript解密實戰指南：從基礎到進階技巧

JavaScript解密實戰指南：從基礎到進階技巧

JavaScript加密技術廣泛應用于數據保護、反爬蟲和代碼混淆，但掌握解密方法能幫助開發者突破技術壁壘。本文結合爬蟲實戰與安全分析場景，系統梳理JS解密的核心方法與工具。一、基礎解密方法 1. Base64解碼適用于簡單編碼場景，如Cookie加密…

閱讀更多...

最新文章