多頭機制
transformer結構
歸一化層選擇
歸一化層位置
歸一化層類型
激活函數
Llama2結構
MoE架構 混合專家模型
DeepSeek MLA
為何需要位置編碼
目前的主流位置編碼
正余弦位置編碼
可學習位置編碼
ROPE旋轉位置編碼
推導參考:
https://spaces.ac.cn/archives/8265
https://zhuanlan.zhihu.com/p/642884818
Alibi位置編碼
總結
對于文本類任務,位置信息是重要的
可學習的位置編碼缺點在于沒有長度外推性
相對位置編碼不需要學習,有一定的長度外推性,但是相對位置編碼具有天然的遠程衰減性
目前的主流是RoPE和Alibi兩種相對位置編碼
投機采樣