摘要
arxiv.org/pdf/2402.13616.pdf
當今的深度學習方法側重于如何設計最合適的目標函數,以便模型的預測結果能最接近于實際結果。同時,還必須設計一個適當的架構,以便于獲取足夠的預測信息。現有的方法忽略了一個事實,即當輸入數據經歷層層特征提取和空間變換時,會損失大量信息。本文將深入研究數據通過深度網絡傳輸時的重要問題,即信息瓶頸和可逆函數。我們提出了可編程梯度信息(PGI)的概念,以應對深度網絡為實現多個目標所需的各種變化。PGI可以為目標任務提供完整的輸入信息,以計算目標函數,從而獲得可靠的梯度信息以更新網絡權重。此外,還設計了一種基于梯度路徑規劃的新型輕量級網絡架構——廣義高效層聚合網絡(GELAN)。GELAN的架構證實了PGI在輕量級模型上獲得了卓越的結果。我們在基于MS COCO數據集的目標檢測上驗證了提出的GELAN和PGI。結果表明,GELAN僅使用常規卷積運算符,就比基于深度卷積的最先進方法實現了更好的參數利用率。PGI可用于從輕量級到大型的各種模型。它可以用來獲取完整的信息,因此,從頭開始訓練的模型可以比使用大型數據集預訓練的最新模型獲得更好的結果,如圖1所示。源代碼位于:https://github.com/WongKinYiu/yolov9。
1、簡介
基于深度學習的模型在計算機視覺、語言處理和語音識別等各個領域都表現出了比過去的人工智能系統更好的性能。近年來?