《deepseek FlashMLA ：高效的 MLA 解碼內核》：此文為AI自動翻譯

FlashMLA

GitHub - deepseek-ai/FlashMLA

FlashMLA 是適用于 Hopper GPU 的高效 MLA 解碼內核，針對可變長度序列服務進行了優化。

當前發布：

BF16、FP16
塊大小為 64 的分頁 kvcache

快速開始

安裝

python setup.py install

基準

python tests/test_flash_mla.py

使用 CUDA 12.8，在 H800 SXM5 上實現高達 3000 GB/s 的內存綁定配置和 580 TFLOPS 的計算綁定配置。

用法

from flash_mla import get_mla_metadata, flash_mla_with_kvcachetile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)for i in range(num_layers):...o_i, lse_i = flash_mla_with_kvcache(q_i, kvcache_i, block_table, cache_seqlens, dv,tile_scheduler_metadata, num_splits, causal=True,)...

要求

Hopper GPU
CUDA 12.3 及更高版本
- 但我們強烈建議使用 12.8 或更高版本以獲得最佳性能
PyTorch 2.0 及更高版本

確認

FlashMLA 的靈感來自?FlashAttention 2&3?和彎刀項目。

引文

@misc{flashmla2025,title={FlashMLA: Efficient MLA decoding kernels},author={Jiashi Li},year={2025},publisher = {GitHub},howpublished = {\url{https://github.com/deepseek-ai/FlashMLA}},
}

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/896662.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/896662.shtml
英文地址，請注明出處：http://en.pswp.cn/news/896662.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！