看了那么多還沒有講特別好的,GPT老師講的不錯關于三角函數編碼。
一、 手撕transformer常用三角位置編碼
GPT說:“低維度的編碼(例如,第一個維度)可以捕捉到大的位置差異,而高維度的編碼則可以捕捉到小的細節差異”,好像是錯的(說反了),我重新整理了下。
Query: 頻率怎么看? 如果sin(wx) 那么i越小代表低維是吧,分母就越小 那么整體w就越大 w是不是頻率 如果是 拿小維度頻率更高呢 有可能我理解錯了
Answer:
?13 【大模型面試 | 位置編碼PE - 草莓師姐 | 小紅書 - 你的生活指南】 😆 mO58Egl5lGXSLX9 😆 https://www.xiaohongshu.com/discovery/item/67ac12e4000000002802aa9e?source=webshare&xhsshare=pc_web&xsec_token=ABecXaiAShhTEnyF7pb2o-V49ONyIegFjiTjRo5qdXHUo=&xsec_source=pc_share
是不是有這個說法 如果用這種(三角)編碼不方便LLM外推?
二、 手撕RoPE編碼
無痛理解旋轉位置編碼RoPE
[通俗易讀]無痛理解旋轉位置編碼RoPE(數學基礎,理論(復數的指數表達,矩陣,幾何意義),代碼,分析) - 知乎
RoPE:旋轉位置編碼增強模型的輸入長度外推能力?#?我艾神制作,必屬精品