文章目錄
- 論文:
- 主要內容
- 一、提出使用PGI(Programmable Gradient Information,可編程梯度信息)來解決信息瓶頸問題和深度監督機制不適合輕量級神經網絡的問題。
- 二、設計了GELAN(Generalized ELAN ,廣義ELAN),一個高效、輕量級的神經網絡。
- 效果如下
論文:
https://arxiv.org/html/2402.13616v1?arxiv.org/html/2402.13616v1
github代碼
GitHub - WongKinYiu/yolov9: Implementation of paper - YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information?
主要內容
主要是提出了兩點:
一、提出使用PGI(Programmable Gradient Information,可編程梯度信息)來解決信息瓶頸問題和深度監督機制不適合輕量級神經網絡的問題。
圖中(d)為提出的PGI。PGI主要包括三個組成部分,即(1)主分支,(2)輔助可逆分支,(3)多級輔助信息。其中推理過程僅使用 main 分支,因此不需要任何額外的推理成本。輔助可逆分支(auxiliary reversible branch)處理神經網絡深化帶來的問題。網絡深化會造成信息瓶頸。多級輔助分支(multi-level auxiliary information),旨在處理深度監管導致的誤差累積問題。
二、設計了GELAN(Generalized ELAN ,廣義ELAN),一個高效、輕量級的神經網絡。
圖c為提出的GELAN,它結合了CSPNet 和 ELAN 。區別與ELAN,將ELAN僅使用卷積層堆疊的功能推廣到可以使用任何計算塊的新架構中(即圖c中any block)。
在yolov9中,gelan被作為block用在了backbone中,關于Gyolov9的backbone以及GELAN運用詳細信息見:
效果如下
在精度方面,新方法優于使用大數據集預訓練的RT DETR [ 43],在參數利用率方面也優于基于深度卷積的設計YOLO MS 。
PGI的引入使得輕量級模型和深度模型都能在精度上實現顯著的提升。結合PGI和GELAN設計的YOLOv9,展現了很強的競爭力。其出色的設計使得深度模型與YOLOv8相比,參數數量減少了49%,計算量減少了43%,但在MS COCO數據集上仍有0.6%的AP提升。
引用:
@article{wang2024yolov9,title={{YOLOv9}: Learning What You Want to Learn Using Programmable Gradient Information},author={Wang, Chien-Yao and Liao, Hong-Yuan Mark},booktitle={arXiv preprint arXiv:2402.13616}, year={2024}}
@article{chang2023yolor, title={{YOLOR}-Based Multi-Task Learning}, author={Chang, Hung-Shuo and Wang, Chien-Yao and Wang, Richard Robert and Chou, Gene and Liao, Hong-Yuan Mark}, ournal={arXiv preprint arXiv:2309.16921}, year={2023}}