本改進已集成到 YOLOv8-Magic 框架。
我們提出了Axial Transformers
,這是一個基于自注意力的自回歸模型,用于圖像和其他組織為高維張量的數據。現有的自回歸模型要么因高維數據的計算資源需求過大而受到限制,要么為了減少資源需求而在分布表達性或實現的便捷性上做出妥協。相比之下,我們的架構既保持了對數據聯合分布的完全表達性,也易于使用標準的深度學習框架實現,同時在需要合理的內存和計算資源的同時,達到了標準生成建模基準測試的最先進結果。我們的模型基于axial attention
,這是自注意力的一個簡單泛化,自然地與張量的多個維度在編碼和解碼設置中對齊。值得注意的是,所提出的層結構允許在解碼過程中并行計算大部分上下文,而不引入任何獨立性假設。這種半并行結構極大地促進了甚至是非常大的Axial Transformer
的解碼應用。我們在ImageNet-32
和 ImageNet-64
圖像基準測試以及BAIR
Robotic Pushing視頻基準測試上展示了Axial Transformer
的最先進結果。我們開源了Axial Transformers
的實現。
1 論文簡介
在當今深度學習的研究中,如何有效地處理高維數據,如圖像和視頻,是一個核心問題。Axial Transformers
提供了一種創新的自注意力機制&#x