深度學習論文: FastVLM: Efficient Vision Encoding for Vision Language Models
FastVLM: Efficient Vision Encoding for Vision Language Models
PDF: https://www.arxiv.org/abs/2412.13303
PyTorch代碼: https://github.com/shanglianlm0525/CvPytorch
PyTorch代碼: https://github.com/shanglianlm0525/PyTorch-Networks
1 概述
在視覺語言模型(VLM)中,提升輸入圖像分辨率是增強模型性能的關鍵,尤其在富文本圖像理解任務中尤為顯著。然而,主流視覺編碼器如視覺 Transformer(ViT)在高分辨率場景下,因標記數量爆炸式增長和編碼延遲居高不下而效率驟降。針對不同操作分辨率,VLM 視覺編碼器的優化可聚焦于兩大核心維度:降低編碼延遲,以及最小化傳遞給大型語言模型&#