論文閱讀筆記——雙流網絡

雙流網絡論文
視頻相比圖像包含更多信息:運動信息、時序信息、背景信息等等。
原先處理視頻的方法:

  • CNN + LSTM:CNN 抽取關鍵特征,LSTM 做時序邏輯;抽取視頻中關鍵 K 幀輸入 CNN 得到圖片特征,再輸入 LSTM,進行時間戳上的融合,得到視頻的特征。最后將 LSTM 最終時刻的特征接一個 FC 層得到最終結果。
  • 3D 網絡:輸入 3D CNN,模型參數量大。
    在這里插入圖片描述
    作者認為 CNN 本身適合處理靜態信息(如物體的形狀、大小、顏色等)而非運動信息。于是采取另一個網絡(光溜網絡)抽取運動信息,CNN 只需要學習輸入光流和最后動作信息之間的映射
    最后的融合有兩種方式:1)late fusion:兩個 logits 加權平均得到最終結果;2)將 argmax 結果作為特征再訓練一個 SVM 分類器。
    在這里插入圖片描述

光流是描述視頻中物體的運動信息,對每個點實際上都是需要計算的,故而是一種密集表示。在本文中,作者將光流值壓縮至 [0,255],采用 JPEG 存儲。(光流的弊端——存儲空間大、提取速度慢)
在本文中,光流采取了兩種方式:1)簡單疊加:每個點多次光流的疊加,光流點位置不更新;2)按軌跡疊加:每一幀都根據光流軌跡,更新光流點位置。(在本文實驗中第一種方式更好,但實際上第二種更合理。)
在光流網絡中,對所有視頻首先 rescale 至 256,再固定抽取 25 幀(不管視頻多長,等間距抽取),對抽取出來的每一幀都做 10 crop(每一幀裁剪 4 個邊和 1 個中心,翻轉之后再 crop 五張圖)。

實驗結果

在這里插入圖片描述

  • 空間流網絡:使用預訓練模型更好,可以直接使用從 ImageNet 上預訓練的模型。
    • From scratch:從頭訓練,效果更差。
    • Pre-trained + fine-tuning:微調整個模型。因為數據集過小,擔心過擬合,實驗了 dropout ratio=0.9
    • Pre-trained + last layer:微調最后一層,不擔心過擬合。
  • 時間流網絡:簡單疊加效果更好
    • Single-frame:輸入是單張光流圖。
    • Optical flow stacking、 Trajectory stacking:簡單疊加和按軌跡疊加。

總結

之前的深度學習方法沒有利用運動信息,導致效果遠不如手工特征,由此引入運動信息——光流;同時雙流網絡的應用同時表明了,當魔改單個網絡無法解決時,可以給模型提供一些先驗信息,往往能大幅簡化。同時也證明了數據的重要性,更多更好的數據能夠提升模型效果、泛化性等一系列問題。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/80948.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/80948.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/80948.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SpringBoot Vue MySQL酒店民宿預訂系統源碼(支付寶沙箱支付)+代碼講解視頻

💗博主介紹💗:?在職Java研發工程師、專注于程序設計、源碼分享、技術交流、專注于Java技術領域和畢業設計? 溫馨提示:文末有 CSDN 平臺官方提供的老師 Wechat / QQ 名片 :) Java精品實戰案例《700套》 2025最新畢業設計選題推薦…

右值引用的學習

傳統的C語法中就有引用的語法,而C11中新增了的右值引用語法特性,所以從現在開始我們之前學習的引用就叫做左值引用。無論左值引用還是右值引用,都是給對象取別名。 左值引用和右值引用 在講之前,我們先來看一下什么是左值和右值…

PHP黑白膠卷底片圖轉彩圖功能 V2025.05.15

關于底片轉彩圖 傳統照片底片是攝影過程中生成的反色圖像,為了欣賞照片,需要通過沖印過程將底片轉化為正像。而隨著數字技術的發展,我們現在可以使用數字工具不僅將底片轉為正像,還可以添加色彩,重現照片原本的色彩效…

【Three.js基礎學習】36.particles-morphing-shader

前言 通過著色器如何實現粒子之間動態切換 一、代碼 script.js import * as THREE from three import { OrbitControls } from three/addons/controls/OrbitControls.js import { GLTFLoader } from three/addons/loaders/GLTFLoader.js import { DRACOLoader } from three/a…

【PostgreSQL數據分析實戰:從數據清洗到可視化全流程】附錄-D. 擴展插件列表(PostGIS/PostgREST等)

👉 點擊關注不迷路 👉 點擊關注不迷路 👉 點擊關注不迷路 文章大綱 附錄D. PostgreSQL擴展插件速查表一、插件分類速查表二、核心插件詳解三、安裝與配置指南四、應用場景模板五、版本兼容性說明六、維護與優化建議七、官方資源與工具八、附錄…

【Linux】馮諾依曼體系結構和操作系統的理解

目錄 馮諾依曼體系結構一個例子來深入理解 初識操作系統操作系統的作用設計操作系統的目的操作系統之上和之下分別有啥 管理的精髓,先描述,再組織 馮諾依曼體系結構 我們知道,計算機這個東西發明出來就是幫助人們快速解決問題的。那如果我們想…

kotlin @JvmStatic注解的作用和使用場景

1. JvmStatic 的作用 JvmStatic 是 Kotlin 提供的一個注解,用于在 JVM 上將伴生對象(companion object)中的方法或屬性暴露為 Java 靜態方法或字段。 作用對象:只能用在 companion object 中的函數或屬性。效果: 在 …

Redis實現-優惠卷秒殺(基礎版本)

(一)全局唯一ID 一、全局ID生成器 可以看到在優惠卷訂單表中的主鍵id并沒有設置Auto increment自增長 假如未來訂單量達到數億單,單表無法保存如此多數據,就需要對其進行分表存儲(分布式)。假如每張表都采用自增長,各自從1開始自增&#xf…

c++STL——哈希表封裝:實現高效unordered_map與unordered_set

文章目錄 用哈希表封裝unordered_map和unordered_set改進底層框架迭代器實現實現思路迭代器框架迭代器重載operator哈希表中獲取迭代器位置 哈希表的默認成員函數修改后的哈希表的代碼封裝至上層容器 用哈希表封裝unordered_map和unordered_set 在前面我們已經學過如何實現哈希…

虹科應用 | 探索PCAN卡與醫療機器人的革命性結合

隨著醫療技術的不斷進步,醫療機器人在提高手術精度、減少感染風險以及提升患者護理質量方面發揮著越來越重要的作用。醫療機器人的精確操作依賴于穩定且高效的數據通信系統,虹科提供的PCAN四通道mini PCIe轉CAN FD卡,正是為了滿足這一需求而設…

Yolov8的詳解與實戰-深度學習目標檢測

Yolov8的詳解與實戰- 文章目錄 摘要 模型詳解 C2F模塊 Loss head部分 模型實戰 訓練COCO數據集 下載數據集 COCO轉yolo格式數據集(適用V4,V5,V6,V7,V8) 配置yolov8環境 訓練 測試 訓練自定義數據集 Labelme…

scons user 3.1.2

前言 感謝您抽出時間閱讀有關 SCons 的內容。SCons 是一款下一代軟件構建工具,或者稱為 make 工具,即一種用于構建軟件(或其他文件)并在底層輸入文件發生更改時使已構建的軟件保持最新狀態的軟件實用程序。 SCons 最顯著的特點是…

Java的多線程筆記

創建一個線程的方法有多種,比如可以繼承Thread類或者實現Runnable接口,結論是實現Runnable接口比前者更加優越。 二者代碼對比 Java 不支持多繼承,如果你繼承了 Thread 類,就不能再繼承其他類,實現 Runnable 接口后&am…

PDF Base64格式字符串轉換為PDF文件臨時文件

需求描述: 在對接電子病歷系統與河北CA,進行免密文件簽章的時候,兩者系統入參不同,前者是pdf文件,base64格式;后者要求File類型的PDF文件。 在業務中間層開發時,則需要接收EMR側提供的base64格式…

代碼隨想錄訓練營第二十三天| 572.另一顆樹的子樹 104.二叉樹的最大深度 559.N叉樹的最大深度 111.二叉樹的最小深度

572.另一顆樹的子樹: 狀態:已做出 思路: 這道題目當時第一時間不是想到利用100.相同的樹思路來解決,而是先想到了使用kmp,不過這個題目官方題解確實是有kmp解法的,我使用的暴力解法,kmp的大致思…

【RabbitMq C++】消息隊列組件

RabbitMq 消息隊列組件 1. RabbitMq介紹2. 安裝RabbitMQ3. 安裝 RabbitMQ 的 C客戶端庫4. AMQP-CPP 庫的簡單使用4.1 使用4.1.1 TCP 模式4.1.2 擴展模式 4.2 常用類與接口介紹4.2.1 Channel4.3.2 ev 5. RabbitMQ樣例編寫5.1 發布消息5.2 訂閱消息 1. RabbitMq介紹 RabbitMq - …

鴻蒙NEXT開發動畫案例8

1.創建空白項目 2.Page文件夾下面新建Spin.ets文件,代碼如下: /*** SpinKit動畫組件 (重構版)* author: CSDN-鴻蒙布道師* since: 2025/05/14*/interface AnimationGroup {indexes: number[];delay: number; }ComponentV2 export struct SpinEight {Re…

MySQL全局優化

目錄 1 硬件層面優化 1.1 CPU優化 1.2 內存優化 1.3 存儲優化 1.4 網絡優化 2 系統配置優化 2.1 操作系統配置 2.2 MySQL服務配置 3 庫表結構優化 4 SQL及索引優化 mysql可以從四個層面考慮優化,分別是 硬件系統配置庫表結構SQL及索引 從成本和優化效果來看&#xf…

vue和springboot交互數據,使用axios【跨域問題】

vue和springboot交互數據,使用axios【跨域問題】 提示:幫幫志會陸續更新非常多的IT技術知識,希望分享的內容對您有用。本章分享的是node.js和vue的使用。前后每一小節的內容是存在的有:學習and理解的關聯性。【幫幫志系列文章】&…

FFMPEG 與 mp4

1. FFmpeg 中的 start_time 與 time_base start_time 流的起始時間戳(單位:time_base),表示第一幀的呈現時間(Presentation Time)。通常用于同步多個流(如音頻和視頻)。 time_base …