動畫講解 Mamba 狀態空間模型_嗶哩嗶哩_bilibili
?
舊文本向量乘權重加殘差 感覺好像transformer
過個llm head輸出y
?
卷積真的很快
參考一文通透想顛覆Transformer的Mamba:從SSM、HiPPO、S4到Mamba(被譽為Mamba最佳解讀)_mamba模型-CSDN博客
偷了
Transformer的二次復雜度哪來的?
為什么rnn會忘記一部分信息,mamba不會?
mamba的A,B,C矩陣是獨立于文本存在的嗎?
參考【官方Mamba庫】原理簡述和代碼解析_mamba模型代碼-CSDN博客
?mamba沒有rnn的tanh激活函數怎么實現非線性化的
?