為什么self-attention要除以一個根號dk

簡單說法是為了讓方差到1,推公式也好推。但是沒幾個人說為什么方差要到1.
如果不除以根號dk,顯然QK有可能很大,這就讓softmax更有能力得到接近one-hot的結果。這本應是好的,但是從實踐來看,我們并不要求一定要輸出one-hot,這有點over-fitting的感覺了。差不多就行。
還有更重要的理由。softmax求導是 a ? a 2 a-a^2 a?a2 a a a是softmax的結果。如果 a a a太one-hot了,這里的梯度直接全部到0,就太小了。我愿稱之為softmax陷阱,就和sigmoid一樣,你以為one-hot好,事實上誰知道呢,比起任由self-attention只關注一個v,還是看看遠方的其他v吧。這樣看,如果淺層網絡已經提取到足夠的信息了,后面的所有v都將與最有價值的v趨于一致,否則就會因為根號dk強制多see幾個而引入不必要的v。除非readout的softmax不用根號dk,實際上也確實是這么做的。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/14603.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/14603.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/14603.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

K8S中YAML案例

目錄 案例:自主式創建service并關聯上面的pod 案例:部署redis 案例:部署myapp 案例:部署MySQL數據庫 總結 1.K8S集群中訪問流向 K8S集群外部:客戶端——nodeIP:nodeport——通過target port——podIP…

Java入門基礎學習筆記44——String

為什么要學習String的處理呢? 開發中,對字符串的處理是非常常見的。 String是什么?可以做什么? java.lang.String 代表字符串。可以用來創建對象封裝字符串數據,并對其進行處理。 1、創建對象 2、封裝字符串數據 3…

Linux安裝zsh并配置oh-my-zsh

配置oh-my-zsh 查看當前shell安裝zsh切換到zsh配置ohmysh 查看當前shell cat /etc/shells# /etc/shells: valid login shells /bin/sh /bin/bash /usr/bin/bash /bin/rbash /usr/bin/rbash /bin/dash /usr/bin/dash安裝zsh sudo apt install zsh# /etc/shells: valid login s…

blender 烘焙渲染圖片,已經導出fbx,導出貼圖。插件生成圖片

1.新建一個模型。選擇資產瀏覽器的材質,并拖動到模型身上,如下圖。資產瀏覽器的材質可以網上找。 2.打開著色器面板。正下方著色器窗口中,點擊空白取消選擇,然后右擊-添加-著色器-原理化BSDF,右擊-添加-紋理-圖像紋理。…

報錯 Attempt to assign to const or readonly variable 前端 const

Attempt to assign to const or readonly variable 遇到這個錯是因為給const聲明的變量進行第2次賦值。 因為const聲明的變量只能進行一次賦值,即常量。 ES6標準引入了新的關鍵字 const 來定義常量,const 與 let 都具有塊級作用域。 const 定義的是常量…

寶塔Linux下安裝EMQX服務并設置匿名訪問

簡述 之前有在Windows和Linux下搭建過EMQX服務并且使用方面都沒問題,但那都是使用的用戶和密碼方式訪問,且前提都是通過瀏覽器進入EMQX的配置頁面設置的屬性; 但這次使用的是騰訊云租用的寶塔Liniux,由于沒有瀏覽器只能通過命令行方式修改EMQX配置以達到目的;由于事先沒看…

【博主推薦】HTML5實現520表白、情人節表白模板源碼

文章目錄 1.設計來源1.1 表白首頁1.2 甜蜜瞬間11.3 甜蜜瞬間21.4 甜蜜瞬間31.5 甜蜜瞬間41.6 甜蜜瞬間51.7 甜蜜瞬間61.8 永久珍藏 2.效果和源碼2.1 頁面動態效果2.2 頁面源代碼2.3 源碼目錄2.4 更多為愛表白源碼 3.源碼下載地址 作者:xcLeigh 文章地址:…

國內安裝Axure RP Extension for Chrome插件

1、到項目的當前目錄來 2、后綴改成.rar 3、解壓成文件夾 4、拖入chrome中 我這里直接準備好了文件 鏈接:https://pan.baidu.com/s/1V98tx5LgXZRoKY7XjnIcrA 提取碼:gh13

中國上市公司融資約束指數數據上市公司SA指數與WW指數(2000-2023年)

上市公司融資約束指數,是用來評估公司面臨的融資限制程度的工具。SA指數由Hadlock和Pierce開發,基于公司規模和年齡計算,其中較小且較年輕的公司通常會有更高的指數值,表明其融資約束較大。另一方面,WW指數由Whited和W…

Win11徹底關閉“同意個人數據跨境傳輸”

Win11徹底關閉“同意個人數據跨境傳輸” 1 關閉對話框2. 修改Microsoft.CloudExperienceHost.winmd 1 關閉對話框 SHIFTF10WinEWinR輸入taskmgr關閉Microsoft賬戶進程 2. 修改Microsoft.CloudExperienceHost.winmd 找到C:\Windows\SystemApps\Microsoft.Windows.CloudExperi…

【靜態分析】在springboot使用太阿(Tai-e)03

參考:使用太阿(Tai-e)進行靜態代碼安全分析(spring-boot篇三) - 先知社區 1. JavaApi 提取 1.1 分析 預期是提取controller提供的對外API,例如下圖中的/sqli/jdbc/vuln 先看一下如何用tai-e去獲取router…

淺談分布式系統

目錄 一、單機架構二、分布式架構1、應用服務與數據庫分離2、負載均衡3、數據庫讀寫分離4、引入緩存5、數據庫分庫分表6、引入微服務 一、單機架構 單機架構,只有一臺服務器,這個服務器負責所有工作。 絕大多數公司的產品,都是這種單機架構。…

[論文筆記]REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

引言 今天帶來一篇經典論文REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS的閱讀筆記,論文中文意思是 在語言模型中協同推理和行動。 雖然大型語言模型(LLMs)在語言理解和互動決策任務中展現出強大的能力,但它們在推理(例如思維鏈提示)和…

Rust 中 Mutex 的用法

在 Rust 中,Mutex(互斥鎖)是用于同步并發訪問共享資源的機制。Rust 標準庫中的 Mutex 結構體位于 std::sync::Mutex 中,它提供了線程安全的數據訪問。Mutex 保證了在同一時間只有一個線程可以訪問被鎖定的數據。 以下是 Mutex 的…

畫圖工具之PlantUML插件使用

文章目錄 1 PlantUML插件1.1 引言1.2 什么是PlantUML1.3 PlantUML插件1.3.1 IntelliJ IDEA中插件1.3.2 VS Code中插件1.3.3 使用例子 1.4 PlantUML時序圖語法1.4.1 聲明參與者1.4.2 消息傳遞1.4.2.1 同步消息1.4.2.2 異步消息1.4.2.3 返回消息1.4.2.4 自調用 1.4.3 生命線&…

比特米盒2代刷入ARMBIAN

概述 因為最近在整家庭NAS,類似魔百盒之類的機頂盒無法內置硬盤,所以將目光盯上了比特米盒、私家云以及和逸云,海鮮市場一番對比下來也就比特米盒(CM2-B)的性價比最高,而且還支持雙盤位,所以采…

【大模型】fineturn Q-wen

github上下載qwen1_5源碼 修改finetun.sh 然后在路徑qwen1_5/examples/sft下修改finetun.sh, 內容如下 #!/bin/bash export CUDA_DEVICE_MAX_CONNECTIONS1 DIRpwd# Guide: # This script supports distributed training on multi-gpu workers (as well as single-worker trai…

批處理--將指定磁盤根目錄所有隱藏的文件(包括文件夾)去除隱藏屬性

如下是實現的腳本:-------------------------------------------------- :loopcd / set /p driverName"請輸入驅動器盤符(例如:C或c):"%driverName%: dir /AH %driverName%: pausefor /f "delims"…

Leetcode刷題2

文章目錄 前言尋找兩個正序數組的中位數1?? 雙指針快速排序2?? 第k小數解法 Z 字形變換1?? 個人解法2??巧妙解法13??巧妙解法2 字符串轉換整數 (atoi)1?? 常規方法2?? 作弊方法😫 整數轉羅馬數字1?? 常規方法:按照給定規則寫出判斷條件即…

前端面試題日常練-day32 【面試題】

題目 希望這些選擇題能夠幫助您進行前端面試的準備,答案在文末。 1. 在jQuery中,以下哪個選項用于獲取元素的文本內容? a) text() b) html() c) val() d) attr() 2. jQuery中,以下哪個選項用于在元素上添加一個自定義數據屬性…