視頻理解學習筆記

VideoRefer

VideoPrism 核心解密：通用視頻編碼器的力量

VideoRefer

VideoRefer 是由浙江大學和阿里達摩院聯合推出的視頻對象感知與推理技術，增強視頻大型語言模型（Video LLMs）的空間-時間理解能力。簡單一點來說就是可以讓大模型真的理解視頻內容，從視頻里的對象、空間、時間的維度來真的『看懂』一個視頻。

通過細粒度的視頻對象理解、復雜關系分析、推理預測及多模態交互，為視頻內容的精確理解、推理和檢索提供了強大的技術支持。

https://github.com/DAMO-NLP-SG/VideoRefer

作者：MansFlower
鏈接：https://www.zhihu.com/question/540409978/answer/1921603242212693118
來源：知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。
?

VideoPrism 核心解密：通用視頻編碼器的力量

什么是 VideoPrism？

VideoPrism 并非一個簡單的視頻應用，而是一個強大的基礎視覺編碼器。它能夠將輸入的視頻幀轉化為緊湊的特征嵌入（embeddings），這些嵌入可以方便地輸入到分類器、大型語言模型（LLMs）或檢索模型中，從而執行各種復雜的視頻理解任務。其設計目標是實現通用視頻理解，這意味著一個單一的、凍結的模型就能處理從視頻分類、檢索到問答等廣泛任務，而無需針對特定任務進行額外的微調。這對于實際生產者和開發者而言，極大地降低了技術門檻和開發成本。

技術架構與創新亮點

VideoPrism 的強大能力源于其創新的預訓練數據和建模策略。

該模型架構基于標準的 Vision Transformer (ViT)，并采用了 ViViT 的分解設計，能夠順序編碼空間和時間信息。其圖像編碼器和文本編碼器則從 CoCa 初始化，CoCa 是在 WebLI 數據集上訓練的。

VideoPrism 的預訓練過程采用獨特的兩階段訓練方法：

視頻-文本對比學習： 第一階段，模型通過對比學習來匹配視頻及其文本描述（包括不完美的描述），最小化正向視頻-文本對的距離，最大化負向對的距離。這為模型建立了語義語言內容與視覺內容匹配的基礎，使其能夠從視頻字幕中捕獲豐富的語義信息。
改進的掩碼視頻建模： 第二階段，模型利用不帶文本描述的視頻數據，在掩碼視頻建模框架上進行訓練。它被要求根據未被掩碼的視頻片段，預測第一階段學到的視頻級全局嵌入和逐令牌嵌入。為了防止模型學習捷徑，預測的令牌會被隨機打亂。這種方法使得 VideoPrism 能夠專注于視頻模態本身，同時利用視頻關聯的寶貴文本信息，使其在兼顧視頻外觀和運動理解的任務上表現出色。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/98061.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/98061.shtml
英文地址，請注明出處：http://en.pswp.cn/web/98061.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！