今天在找論文時,看到一篇比較新奇的論文,在這里跟大家分享一下,希望可以給一些人提供一些思路。雖然現在Transformer 比較火,在分割上面也應用的比較多,但是我一直不喜歡用,其中一個原因是結構太復雜了,平時我主要用一個sel-attention 感覺都有點復雜了,如果用多頭會更復雜。雖然網上有很多人提供了各種解決方法,但是都沒有從根本上解決。直到我看到這篇文章。與自然語言不同,視覺圖片中的特征數量更多,由于自注意力是平方復雜度,直接進行全局自注意力的計算往往會帶來過高的計算量。針對這一問題,先前的工作通常通過減少參與自注意力計算的特征數量的方法來降低計算量。例如,設計稀疏注意力機制(如PVT)或將注意力的計算限制在局部窗口中(如Swin Transformer)。盡管有效,這樣的自注意力方法很容易受到計算模式的影響,同時也不可避免地犧牲了自注意力的全局建模能力。
與這些方法不同,線性注意力將Softmax解耦為兩個獨立的函數,從而能夠將注意力的計算順序從(query·key)·value調整為query·(key·value),使得總體的計算復雜度降低為線性。然而,目前的線性注意力方法要么性能明顯不如Softmax注意力,要么引入了過多的額外計算量導致模型推理速度很慢,難以實際應用。
?當然如果直接使用這個版本,網絡準確性并沒有想象的那么高。后面作者提出個一些解決方法,如果大家想了解這些細節,可以直接看論文。
這篇文章給我最大的感受是:原來不一定要按照傳統的樣式進行,也可以換一種方法。不能總是一成不變。