摘要?
基于 Transformer 的深度神經網絡架構因其在自然語言處理 (NLP) 和計算機視覺 (CV) 領域的各種應用中的有效性而引起了極大的興趣。這些模型是多種語言任務(例如情緒分析和文本摘要)的實際選擇,取代了長短期記憶 (LSTM) 模型。視覺 Transformer (ViTs) 在視覺應用中表現出比傳統卷積神經網絡 (CNN) 更好的模型性能,同時需要更少的參數和訓練時間。針對給定任務和數據集的神經架構設計流程極具挑戰性,因為它需要多個跨學科領域的專業知識,例如信號處理、圖像處理、優化和相關領域。神經架構搜索 (NAS) 是一種有前途的技術,它使用機器學習 (ML) 方法以數據驅動的方式自動化神經網絡的架構設計過程。搜索方法探索了幾種架構,而不需要大量人力,并且搜索到的模型優于手動構建的網絡。在本文中,我們回顧了神經架構搜索技術,目標是 Transformer模型及其架構系列,例如 Transformer 的雙向編碼器表示 (BERT) 和 Vision Transformer。我們對大約 50 種最先進的神經架構搜索方法進行了深入的文獻綜述,并探索了這一快速發展的問題類別的未來方向。