TGD第十篇:當神經網絡遇到TGD特征

目錄

    • 一、實驗背景
    • 二、實驗設置
    • 三、實驗結果和分析
    • 四、結語

TGD 是我們定義的一種新的“變化率表征”,對連續函數而言是一種新的“廣義導數”,對離散序列而言是一種新的差分。TGD 是一個名字,一個代號。在基于 TGD 的圖像邊緣檢測以及視頻邊緣檢測中,我們發現輸入序列卷積 TGD 算子得到的響應結果,帶來了邊緣檢測的優異結果。為此,我們猜測,信號的 TGD 值能夠被視作一種特征,即「 TGD 特征 」,并且做很多其他事,服務很多 CV 計算機視覺任務。至于能做什么,不知道,既然不知道,那就交給神經網絡作為特征好了。為此則有了本章節“當神經網絡遇到 TGD 特征(When TGD features meet Neural Network)”。感興趣的朋友歡迎閱讀詳見前面的章節:

理論部分:

TGD 第一篇:初心——我想要為“階梯函數”求導。

TGD 第二篇:破局——去除導數計算中的無窮小極限。

TGD 第三篇:革新——卷積計算導數的高效之路。

TGD 第四篇:初瞰——抗噪有效的定性計算。

TGD 第五篇:飛升——給多元函數的導數計算加上全景雷達。

TGD 第六篇:落地——離散序列的 TGD 計算。

傳統計算機視覺應用部分:

TGD 第七篇:一維應用——信號去噪和插值。

TGD 第八篇:二維應用——圖像邊緣檢測。

TGD 第九篇:三維應用——視頻邊緣檢測。

一、實驗背景

2021 年春,我選修了孫延奎老師開設的《小波分析及其工程應用》,課程非常好,并且在課程上遇到了“官佳智”大佬,當時大作業要求用小波做想做的任何事。當時是 2021 年春夏之交,經過調研和論文搜索,官佬找到了 AAAI2020 剛剛入選的一篇文章 MIMAMO Net1(Micro-Macro-Motion Net)。并找到了其 Github 鏈接,基于此開展實驗。該工作將連續視頻幀作為輸入,反正經過“吧啦吧啦吧啦”2得到了一組特征,來表征連續幀之間的時序特征,并將該時序特征引入深度神經網絡中,在“視頻人臉情感識別任務”中取得了 SOTA 的表現。MIMAMO 框架如下圖所示,模型輸入是連續幀圖像。在對每一幀的預測過程中,Spatial stream 由預訓練的 Resnet50 網絡提取該靜態幀的結構特征,Temporal stream 用相位差特征作為輸入,利用一個多層 CNN 進行編碼,最后多幀的空間特征(Spatial Feature)和時序特征(Temporal Feature)拼接后經過 RNN 編碼輸出 valence-arousal 的預測結果。他的大作業就是把 MIMAMO 中的傅立葉相位差特征變成小波系數做差得到的特征。

大作業答辯的時候,聽了官佬的答辯,我說相鄰兩幀直接做差不好,我的研究就是離散序列如何計算變化率!于是就和他交流了 TGD 的思想(當初的取名還叫做窗導數,Window Derivative,所以后面的一些圖中會看到「WD」)。為此,這個實驗是在官佬的大作業基礎上繼續做出來的,下面的實驗當時由官大佬主導完成。

圖1:MIMAMO Net的網絡架構

首先讓我們分析一下“視頻人臉情感識別任務”和TGD的適配性,即根據輸入視頻中人物的面部動作、微表情等特征,判斷人物實時的情感狀態。而臉部在時間維度上的像素值的變化,恰好能夠表征人臉面部器官、肌肉等變化特征。在時間方向的一階TGD響應中,紅色為未來將出現運動的部分,藍色部分為過去消失運動的部分;在時間方向的二階TGD響應中,藍色為當前即將運動的部分,紅色為過去和未來運動的部分,顏色越鮮艷變化速度越快。之前的實驗應用已經看到TGD能夠表征時間上的像素變化,那么將其放入神經網絡,會帶來什么驚喜呢?

圖2:欣欣的微表情及TGD特征

二、實驗設置

【TGD 算子】我們基于正交構造法,使用高斯權重分布函數構造三維一階和二階 TGD 算子,求導方向為時間軸方向。

【數據集】與 MIMAMO 論文保持一致,實驗使用數據集是 Aff-Wild3。該數據集包含了一共 298298298 段從 Youtube 收集的、表達了人們情感變化的長視頻。這些視頻中一共有 200200200 個不同的人物,包含了不同的種族、膚色、性別,總時長超過了 303030 小時。這些視頻的每一幀都由 888 位不同的人員在 valence-arousal 連續空間(取值范圍 [?1,1][-1,1][?1,1] ) 進行了標注,任意一幀圖像的 valence (情感是多么積極或消極、正向或負向) 和 arousal (情感的強度) 值共同表現了當前時刻人物的情感特征。

【評價指標和損失函數】與 MIMAMO 論文保持一致,實驗中評價指標為一致性相關系數 Concordance Correlation Coe?icient (CCC),并且損失函數為最小化負一致性相關系數。

圖3:MIMAMO Net的論文截圖

【對比設置】為了驗證「 TGD 特征 」在的性能,我們僅僅在上圖所示的 MIMAMO Net 的網絡架構替換輸入的時序特征(Temporal Feature),保持其他網絡結構不動,展開實驗。也是結合了剛上完的小波課程,我們嘗試直接在 RGB 域(即不對原始輸入幀進行變換)和小波域,利用三維 TGD 構建更為高效的面部時序特征。實驗共設置了七組時序特征作為對比:

  • 第一組:FT 相位差特征,即 MIMAMO 論文初始配置
  • 第二組:小波系數直接做差,Wavelet Transform Difference(Wavelet-Diff): 利用 Haar 小波變換獲得每一幀的小波系數,使用連續幀之間的小波系數差作為時序特征。
  • 第三組:小波系數+高斯平滑求導,Wavelet Transform & Gaussian Derivative (Wavelet-GD):利用 Haar 小波變換獲得每一幀的小波系數,對幀內小波系數進行二維高斯平滑,且替換相鄰幀差為卷積一維高斯一階和二階導數卷積核作為時序特征(這組實驗的設置和圖像邊緣檢測中的對比設置一致,告訴大家高斯平滑在變化率表征中不好用)。
  • 第四組:小波系數+ TGD,Wavelet Transform & TGD(Wavelet-TGD):利用 Haar 小波變換,替換相鄰幀差為卷積時間方向一階和二階三維 TGD 算子作為時序特征。
  • 第五組:連續幀直接做差,Frame Difference(Frame-Diff):直接利用連續幀之間的差值直接作為時序特征。
  • 第六組:連續幀+ 高斯平滑求導,Frame & Gaussian Derivative (Frame-GD):對幀內進行高斯平滑,且替換相鄰幀差為卷積一維高斯一階和二階導數卷積核作為時序特征。
  • 第七組:連續幀+ TGD,Frame & TGD (Frame-TGD):替換相鄰幀差為卷積時間方向一階和二階三維 TGD 算子作為時序特征。

原始 MIMAMO 通過連續 131313 幀經兩個方向帶通濾波和降采樣獲得 484848 個相位差特征。針對第五至第七組實驗設置, 131313 個連續幀經幀間直接做差得到 121212 個時序特征;對于高斯平滑求導,幀內使用 7×77 \times 77×7 的高斯平滑核 (高斯方差 δ=1\delta = 1δ=1 ),時間方向使用長度為 111111 的高斯一階導算子和二階導算子(高斯方差 δ=1.7\delta = 1.7δ=1.7 )),可獲得 333 個一階以及 333 個二階導數特征,合計 666 個時序特征;對于 TGD,三維 TGD 算子卷積核尺寸為 7×7×117 \times 7 \times 117×7×11 ,由于使用正交構造法,等效于幀內進行 7×77 \times 77×7 高斯積分平滑核進行平滑(高斯方差 δ=1\delta = 1δ=1 ),時間方向高斯方差取 δ=1.7\delta = 1.7δ=1.7 ,可獲取到 333 個一階 TGD 以及 333 個二階 TGD 特征,合計 6 個 TGD 時序特征。而在小波域中(第二至第四組實驗設置),水平和豎直方向的高低頻特征分別計算,所以得到 4 倍于第五至第七組實驗設置的特征數量。

從時空梯度特征的角度來看,對于一秒 202020 幀的視頻,兩幀直接做差的方法得到的單個特征僅使用了 0.05s 內的運動信息,計算得到的數值極易受噪聲影響。相較而言,TGD 算子對連續 111111 幀進行卷積計算,單個特征能使用 0.5s 內的信息,在時間維度上具有更大的跨度( 101010 倍于兩幀做差的算法),能夠一定程度上實現降噪。

為了和 MIMAMO 保持一致,時序特征被設置為與神經網絡訓練解耦合的步驟,即在訓練神經網絡前完成時序特征的計算和存儲。但是值得指出的是,TGD 計算其實是用三維卷積核卷積連續幀。為此,TGD 算子的數值其實可以作為三維卷積層的初始化卷積核參數,構造的卷積層能直接作為神經網絡的一部分在初始階段進行特征提取。每組實驗都運行了三次取平均值。

三、實驗結果和分析

表1:定量比較

定量的實驗結果上表所示,TGD 最優!

實驗看起來小波系數直接做差,比 MIMAMO 論文中的傅立葉系數濾波后做差還要好,然后小波系數的 TGD 作為時序特征,性能還有提升。原始幀直接做差可能不如小波系數(Wavelet-Diff)和傅立葉系數做差(MIMAMO),更令我驚訝的是,直接原始幀的 TGD 作為時序特征,效果最好!并且TGD特征生成速度是傅立葉變換和小波變換的 4.74.74.7 倍和 6.26.26.2 倍。

除了定量的比較,我們還可視化了不同輸入時序特征(圖中 Window Derivative 就是 TGD),首行為連續 131313 個輸入幀;第二行為 MIMAMO 的輸入時序特征,因為是傅立葉變換的相位,基本看不出來幾何屬性, 可解釋性較差 ;第三到第八行的可視化結果則展現了人的面部變化特征,更直觀,具有更強的可解釋性。第三行為連續兩幀直接做差,受到了極大的噪聲影響;第四到第八行看起來效果差不多,小波低頻系數和高斯平滑求導、TGD 都能實現一定的去噪,并且捕捉面部變化的部分。

圖4:不同的時序特征對比圖 圖5:不同的時序特征對比圖

既然看不出什么差別,我就再往后看一層。下圖可視化了不同的時序特征經過神經網絡第一層卷積層后的激活圖(activation map)。MIMAMO 確實可解釋性太差,Frame-Diff 的結果依舊存在很多噪聲。無論是幀像素值還是其小波系數,高斯平滑求導以及 TGD 得到的激活圖中都可見清晰的人臉運動輪廓,然而兩者對比,TGD 得到的激活圖對運動區域的定位更“干凈”更精確,而高斯平滑求導由于定位漂移等缺點,生成的時序特征會一定程度上誤導神經網絡,從而會出現一些奇奇怪怪的“不干凈”的激活圖,我認為這些“不干凈”的激活圖是用來矯正彌補高斯平滑求導帶來的信息失真的。這也是為什么 Frame-GD 不如 Frame-TGD,Wavelet-GD 不如 Wavelet-TGD 的原因。

圖6:激活圖比較 圖7:激活圖比較

四、結語

本次實驗其實是 2021 年的故事,對比研究和分析在當時可能還微微有所貢獻,對于推動今天“視頻人臉情感識別任務”發展基本沒有什么貢獻。應用的每一個篇章我都會強調,做這些實驗的目的不是解決某個具體問題,不是刷榜和SOTA。

馬克思提出: 生產工具是衡量生產力發展水平的客觀標志,生產工具的改進和變革直接反映生產力水平,但需通過人的勞動實現。 TGD 就是一個新的生產工具,用來表征函數和信號變化率,TGD的提出將提升生產力水平,但還需要諸多研究者接續在下游任務中應用實現。我想做的,就是告訴大家TGD這個新的生產工具是有實際使用價值的,希望引起大家的共鳴,僅此而已。

誠然,在如今端到端大語言模型(LLM)的時代,幾乎沒有研究者再來關注一個一個微小的任務,在小眾的數據集上刷指標刷排名。我想要指出的是,哪怕“遇事不決,量子力學;難題有疑,強化學習”,Deepseek-R1 等具有思維鏈的大模型的出現,使得我們人類可以以簡單地結果為導向,讓 LLM 以黑盒形式自己去思考挖掘需要哪些特征,需要如何提取這些特征。但是, 會嚴重加速“人類的懶惰性“

我其實非常喜歡傳統計算機視覺,喜歡去理解當年如何建模這個問題的過程,如何讓問題回歸到數學或者物理的領域去,回歸到筆尖紙張上面去。盡管大模型具有自動特征提取和處理功能, 特征工程(具有數學依據的人工特征) 依然是十分重要和必要的。這部分能力不能丟,因為這其實也是人類發現問題、分析問題、解決問題的能力。

當算力和數據集有限的時候,我們的神經網絡模型不可能太復雜,導致模型的特征空間和解空間不大,這時候特征工程還能和神經網絡抗衡一下。隨著算力和數據集的提升,神經網絡參數越來越多,特征空間和解空間越來越大,這時候人類沒有 LLM 表現好,一方面是我們的特征空間和解空間就沒有LLM大,另一方面是我們暫時還沒有比 LLM 先找到一個更優解。

我不是讓大家從大模型時代往回走,而是說: 大模型時代,算力發展、數據標注和基礎理論都很重要!

我的原文地址:TGD第十篇:當神經網絡遇到TGD特征


  1. D. Deng, Z. Chen, Y. Zhou, and B. E. Shi. MIMAMO net: Integrating micro- and macro-motion for video emotion recognition. In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 2621–2628. AAAI Press, 2020. ??

  2. 大概來說就是,首先獲得輸入幀經傅立葉變換后的頻域系數,將系數經過水平和豎直兩個方向的帶通濾波,再轉換到時域空間得到濾波后的相位,再將相鄰幀之間的相位做差表征時間維度的變化屬性。 ??

  3. S. Zafeiriou, D. Kollias, M. A. Nicolaou, A. Papaioannou, G. Zhao, and I. Kotsia. Aff-wild: valence and arousal’in-the-wild’challenge. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops, pages 34–41, 2017. ??

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/917358.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/917358.shtml
英文地址,請注明出處:http://en.pswp.cn/news/917358.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

FreeRTOS源碼分析二:task啟動(RISCV架構)

系列文章目錄 FreeRTOS源碼分析一:task創建(RISCV架構) 文章目錄系列文章目錄前言vTaskStartScheduler 調度器啟動函數xPortStartScheduler架構特定調度器啟動函數vPortSetupTimerInterrupt啟動 RISCV 定時器中斷xPortStartFirstTask啟動第一…

Python編程基礎與實踐:Python基礎運算符與表達式入門

Python運算符與表達式實戰 學習目標 通過本課程的學習,學員可以掌握Python中算術運算符、比較運算符、邏輯運算符及賦值運算符的使用方法,并能夠構建簡單的表達式來解決實際問題。 相關知識點 Python運算符與表達式 學習內容 1 Python運算符與表達式 1.1…

Git下載全攻略(未更新完)

一、在 Windows 上安裝 Git? ??? 1.1 下載安裝包? 官方版本可在 Git 官方網站下載,打開Redirecting…,下載會自動開始。此安裝包來自名為 Git for Windows 的項目(也稱作 msysGit),它與 Git 本身是相互獨立的項目,更多相關信息可訪問Redirecting Git for Windows…

rocky\centos安裝docker鏡像的命令

1.安裝依賴: sudo yum install -y yum-utils device-mapper-persistent-data lvm22. 選擇倉庫源: sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo阿里源: sudo yum-config-manager --add-r…

扣子,正式擁抱開源!

資料來源:火山引擎-開發者社區 扣子 是新一代 AI Agent 平臺,旗下有四款子產品:「扣子空間」、「扣子開發平臺」、「扣子羅盤」 及 Eino 。 我們始終堅信,AI Agent 的未來屬于每一位開發者和創造者。為了讓前沿的 AI 技術能夠更快…

Git 各場景使用方法總結

以下是對 Git 各場景使用方法的全面總結,涵蓋 20+ 核心場景和 100+ 命令,包含詳細參數、使用示例及原理說明: 一、基礎操作場景 1. 倉庫初始化 # 本地初始化 git init git init --bare # 創建裸倉庫(無工作區) git init -b main # 指…

國際標準組織共聚,智源推動全球AI開源與國際標準雙輪驅動人工智能普惠化發展

7 月 26 日,人工智能標準化國際合作論壇在上海召開。該論壇由聯合國工業發展組織全球工業人工智能聯盟卓越中心主辦,中國電子技術標準化研究院、上海人工智能研究院承辦,工業和信息化部副部長單忠德、國家市場監督管理總局標準創新管理司司長…

《安富萊嵌入式周報》第356期:H7-TOOL的250M示波器模組批量生產中,自主開發QDD執行器,開源14bit任意波形發生器(2025-07-28)

周報匯總地址:嵌入式周報 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬漢嵌入式論壇 - Powered by Discuz! 視頻版 《安富萊嵌入式周報》第356期:H7-TOOL的250M示波器模組批量生產中,自主開發QDD執行器&a…

大模型學習專欄-導航頁

概要 本專欄是小編系統性調研大模型過程中沉淀的知識結晶,涵蓋技術原理、實踐應用、前沿動態等多維度內容。為助力讀者高效學習,特整理此導航頁,以清晰脈絡串聯核心知識點,搭建起系統的大模型學習框架,助您循序漸進掌握…

leetcode熱題——組合

組合題目描述給定兩個整數 n 和 k,返回范圍 [1, n] 中所有可能的 k 個數的組合。你可以按 任何順序 返回答案。示例 1: 輸入:n 4, k 2 輸出: [ [2,4], [3,4], [2,3], [1,2], [1,3], [1,4] ]示例 2: 輸入:…

暑期算法訓練.13

目錄 57 力扣14最長公共前綴 57.1 題目解析: 57.2 算法思路 57.3 代碼演示: ?編輯 57.4 總結反思: 58 力扣 5最長回文字符串 58.1 題目解析: ?編輯 58.2 算法思路: 58.3 代碼演示: ?編輯 …

四、Portainer圖形化管理實戰與Docker鏡像原理

作者:IvanCodes 日期:2025年8月2日 專欄:Docker教程 一、Portainer 安裝與基礎使用教程 Portainer 是一個輕量級、功能強大的Docker圖形化管理界面 (GUI)。它能讓你通過簡單的Web界面來管理和監控你的Docker容器、鏡像、卷、網絡等資源&…

網絡爬蟲(python)入門

一、網絡爬蟲介紹 網絡爬蟲(Web Crawler)是一種自動抓取互聯網信息的程序,它能夠高效地從海量網頁中提取有價值的數據。作為數據采集的利器,爬蟲技術在數據分析、搜索引擎、價格監控等領域有著廣泛應用。本文將帶你全面了解Pytho…

如何解決pip安裝報錯ModuleNotFoundError: No module named ‘plotnine’問題

【Python系列Bug修復PyCharm控制臺pip install報錯】如何解決pip安裝報錯ModuleNotFoundError: No module named ‘plotnine’問題 一、摘要 在使用 PyCharm 進行 Python 開發時,常常需要通過 pip install 安裝第三方包。某天,你在終端或 PyCharm 控制…

語校網收錄東京語言學校150所:數據結構建模與工程實現全解

語校網收錄東京語言學校150所:數據結構建模與工程實現全解 一、為什么語言學校的信息抓取如此困難? 在日語教育領域,“語言學校”是一類極度碎片化的機構體系,尤其在東京地區,2025年時點上已合法設立的語言學校已超1…

【按下電源鍵后,電腦里發生了什么?——BIOS:啟動世界的“第一把鑰匙”】

當你按下電源鍵的瞬間,電腦從一片死寂中“蘇醒”。但你是否想過:是什么讓屏幕亮起、風扇轉動、硬件逐一激活? 這背后,有一個隱藏在主板上的“小程序”在默默掌控全局——它就是 BIOS(Basic Input/Output System&#x…

局域網五子棋工具 多人對戰無限制

軟件介紹 今天推薦一款經典的PC端五子棋游戲——GoBang,綠色免安裝版本,完全免費,即開即用,輕松享受對弈樂趣。 游戲模式 軟件提供三種對戰模式:人人對戰、人機對抗以及局域網聯機游戲,滿足不同玩家的社…

分布式彈幕系統設計

需求:分布式彈幕廣播分布式方案1:適用redis 發布訂閱來進行不同ws服務器之間的通信優點:適用小系統方案2:對ws服務器進行一致性hash獲取ws服務的接入點優點:大型系統缺點:視頻連接不均勻挑戰點:廣播速度聚合廣播和線程池來進行優化

夢幻花瓣雨

1. 花瓣設計四種花瓣類型:創建了四種不同形狀和顏色的花瓣(粉紅、淡紫、淺粉和藍綠色)自然形態:使用CSS漸變和復雜邊框半徑模擬真實花瓣的不規則形狀柔和陰影:為花瓣添加微妙的陰影增強立體感2. 動畫效果物理模擬&…

React 閉包陷阱及解決方案與 React 16/17/18 版本區別

一、React 閉包陷阱詳解1. 什么是閉包陷阱React 閉包陷阱是指在函數組件中使用 Hook(特別是 useEffect 和 useCallback)時,由于閉包特性導致訪問到舊的 state 或 props 值,而非最新值的現象。2. 典型場景示例function Counter() {…