目錄
VideoRefer
VideoPrism 核心解密:通用視頻編碼器的力量
VideoRefer
VideoRefer 是由浙江大學和阿里達摩院聯合推出的視頻對象感知與推理技術,增強視頻大型語言模型(Video LLMs)的空間-時間理解能力。簡單一點來說就是可以讓大模型真的理解視頻內容,從視頻里的對象、空間、時間的維度來真的『看懂』一個視頻。
通過細粒度的視頻對象理解、復雜關系分析、推理預測及多模態交互,為視頻內容的精確理解、推理和檢索提供了強大的技術支持。
https://github.com/DAMO-NLP-SG/VideoRefer
作者:MansFlower
鏈接:https://www.zhihu.com/question/540409978/answer/1921603242212693118
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
?
VideoPrism 核心解密:通用視頻編碼器的力量
什么是 VideoPrism?
VideoPrism 并非一個簡單的視頻應用,而是一個強大的基礎視覺編碼器。它能夠將輸入的視頻幀轉化為緊湊的特征嵌入(embeddings),這些嵌入可以方便地輸入到分類器、大型語言模型(LLMs)或檢索模型中,從而執行各種復雜的視頻理解任務。其設計目標是實現通用視頻理解,這意味著一個單一的、凍結的模型就能處理從視頻分類、檢索到問答等廣泛任務,而無需針對特定任務進行額外的微調。這對于實際生產者和開發者而言,極大地降低了技術門檻和開發成本。
技術架構與創新亮點
VideoPrism 的強大能力源于其創新的預訓練數據和建模策略。
該模型架構基于標準的 Vision Transformer (ViT),并采用了 ViViT 的分解設計,能夠順序編碼空間和時間信息。其圖像編碼器和文本編碼器則從 CoCa 初始化,CoCa 是在 WebLI 數據集上訓練的。
VideoPrism 的預訓練過程采用獨特的兩階段訓練方法:
- 視頻-文本對比學習: 第一階段,模型通過對比學習來匹配視頻及其文本描述(包括不完美的描述),最小化正向視頻-文本對的距離,最大化負向對的距離。這為模型建立了語義語言內容與視覺內容匹配的基礎,使其能夠從視頻字幕中捕獲豐富的語義信息 。
- 改進的掩碼視頻建模: 第二階段,模型利用不帶文本描述的視頻數據,在掩碼視頻建模框架上進行訓練。它被要求根據未被掩碼的視頻片段,預測第一階段學到的視頻級全局嵌入和逐令牌嵌入。為了防止模型學習捷徑,預測的令牌會被隨機打亂。這種方法使得 VideoPrism 能夠專注于視頻模態本身,同時利用視頻關聯的寶貴文本信息,使其在兼顧視頻外觀和運動理解的任務上表現出色。