CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation

名詞解釋

1.特征重建
特征重建是一種機器學習中常用的技術,通常用于自監督學習或無監督學習任務。在特征重建中,模型被要求將輸入數據經過編碼器(encoder)轉換成某種表示,然后再經過解碼器(decoder)將這種表示轉換回原始的輸入數據。
具體來說,特征重建的過程通常分為以下幾個步驟:

1.編碼(Encoding): 輸入數據經過編碼器,被映射到一個低維度的表示空間中,這個表示通常稱為特征向量或隱藏表示。

2.重建(Reconstruction): 編碼后的特征向量再經過解碼器,被映射回原始的輸入空間,嘗試重建原始輸入數據。

3.損失計算(Loss Computation): 通過比較重建數據與原始數據之間的差異,計算出重建誤差或損失值。

4.優化(Optimization): 模型被訓練以最小化重建誤差,通過調整編碼器和解碼器的參數來提高重建的準確性。

在自監督學習中,通常使用無標簽的數據來進行特征重建,因此模型必須依靠數據本身來學習如何有效地表示和重建輸入。這樣做的好處在于可以在本身是無監督的任務中,圖片本身自己去學習自己的有用表示,有助于提取圖片中的關鍵信息,從而提高后續任務的性能。因為往常的視頻分割任務通常都會有人工標注的昂貴的注釋集,而本文應用特征重建是由于語義的異質性,邊界處的幀很難重建(通常具有較大的重建誤差),這有利于事件邊界檢測(這樣就能很容易檢測出邊界)。

2.語義視覺表示
語義視覺表示是指通過計算機視覺技術將圖像或視頻數據轉換為具有語義含義的向量或特征表示。這種表示捕捉了圖像或視頻中物體、場景和動作等高級概念的語義信息,而不僅僅是低級的像素值或幾何特征。

在語義視覺表示中,模型通常會學習到與物體類別、場景描述或動作等相關的特征,這些特征具有更高層次的抽象性,能夠更好地反映數據的語義內容。這種表示有助于計算機理解圖像或視頻,并支持各種計算機視覺任務,如物體識別、場景理解、行為分析等。

語義視覺表示的生成可以通過多種方式實現,包括傳統的手工設計特征提取器、基于深度學習的端到端表示學習方法以及結合語義信息的生成式模型等。隨著深度學習技術的發展,基于深度神經網絡的方法已經成為生成語義視覺表示的主流方法之一,這些方法可以在大規模數據集上進行端到端的訓練,從而學習到更加豐富和高效的語義表示。

總的來說,語義視覺表示是計算機視覺領域中一種重要的數據表示形式,它將圖像或視頻轉換為具有語義含義的向量表示,為各種視覺任務提供了有力支持。

3.特征空間和像素空間
特征空間和像素空間是在計算機視覺和機器學習中經常提到的兩個概念,它們描述了數據在不同層次上的表示方式和表達內容的不同。

1.像素空間:
在像素空間中,圖像被表示為一個由像素組成的矩陣,每個像素包含有關圖像中某個位置的顏色或灰度信息。像素空間是圖像的原始表示形式,它反映了圖像中每個位置的具體像素值,通常是RGB顏色空間中的值或灰度值。像素空間中的操作通常是基于像素級別的,例如圖像增強、濾波、邊緣檢測等處理都是直接在像素空間上進行的。

2.特征空間:
在特征空間中,圖像被表示為一組抽象的特征向量或特征表示,這些特征捕捉了圖像中的語義信息和高級結構。特征空間中的特征通常是通過特征提取器或深度神經網絡從原始圖像中學習得到的,它們可能表示物體、場景、紋理等高級概念。特征空間的表示更加抽象和語義化,它能夠更好地捕捉到圖像的語義內容,而不僅僅是像素級別的細節。在特征空間中進行的操作通常是基于特征級別的,例如特征重建、特征匹配、語義分割等處理都是在特征空間上進行的。

總的來說,像素空間和特征空間代表了數據在不同層次上的表達方式,像素空間更接近于原始數據的表示,而特征空間則更加抽象和語義化,能夠捕捉到數據的高級結構和語義信息。個人理解就是,像素空間就是一張圖片的原始矩陣,原始矩陣經過卷積等操作后被轉為特征圖,特征圖代表的語義信息 更豐富更抽象,之后特征重建是在特征圖上重建的。

框架

1.Contrastive Temporal Feature Embedding(CTFE)
在這里插入圖片描述
通常,視頻事件由語義相關的幀的序列組成。也就是說,相鄰幀比以長時間間隔采樣的幀更可能在語義上相似。根據這一觀察,我們提出了一個對比時間特征嵌入方案來學習一個有區別的幀表示。從本質上講,它將語義相似的框架投射得更近,而將不相似的框架推開。通過比較,利用這種學習,我們的框架將幀轉換為一種新的表示,在語義上更容易區分。如圖3所示,對比學習的正對由段內幀組成,而負對來自來自相同或其他視頻的其他片段的段間幀,或存儲器中的幀。
總體思路為選取B個視頻,在每個視頻里選擇X個片段(片段幀數為T)。以圖3為例:共選取了視頻的三個片段,S(i)、S’(j)是同一個視頻的不同片段,S(l)是別的視頻的一個片段。首先,取S(i)中的一幀作為查詢鍵Q,其他片段的一幀作為被查詢鍵K,接下來,我們形成與查詢xj i相關聯的三種類型的否定對:1)視頻內否定對:否定幀來自相同的視頻,但來自不同的片段,即X’(j)的幀。2)視頻間負對:負幀選自從不同視頻提取的任何片段,即X(l)的幀。3)存儲器負對:負幀來自在先前迭代期間嵌入在存儲器中的幀。然后,將兩幀進行對比學習,來判斷它們是正樣本還是負樣本,圖3表示的是Q與K來自于同一個視頻的正樣本。
利用這種學習,我們的框架將幀轉換為一種新的表示,在語義上更容易區分。這對本質上是二分類的任務是友好的。
Frame Feature Reconstruction (FFR)
如我們所知,視頻事件之間的過渡幀通常是不一致的,因此較難預測。因此,我們開發了一種無監督的特征重建方法來檢測這些事件的邊界,因為我們推測,邊界幀通常比非邊界幀具有更高的重建誤差。然而,與之前的像素級圖像重建不同,我們的幀重建是在高級語義特征空間中進行的。也就是說,我們的方法旨在重建由CTFE訓練的框架的語義表示。
在這里插入圖片描述
為了從H0(t)重構掩蔽的特征向量,我們修改了Transformer編碼器的多頭注意部分。具體來說,我們采用2層多頭自注意(MSA)和多層感知器(MLP)塊來處理H0,同時隨機將掩碼M(t)應用于第t個特征嵌入。重構模塊的第l層的輸出被定義為
在這里插入圖片描述
重構模塊的第l層的輸出可以用如下方式定義:已知l層的輸入來自于l-1層的輸出
參數為掩掉的某一幀M(t)和l-1層的輸出H(l-1),首先對M(t)和H(l-1)進行層歸一化,保證訓練穩定,再經過多頭注意力機制計算得到具有時間上下文的語義信息,再和上一層輸出相加后經過多層感知機輸出。

整體框架
在這里插入圖片描述
A:train
1.視頻片段經過特征提取網絡變成特征圖。
2.CTFE模塊對特征圖進行處理,得到更高級的表示。
3.經過CTFE得到的表示送入FFR模塊,進行特征重建,得到重建后的特征。
4.重建后的特征圖與原特征圖進行比較,特征重建是由于語義的異質性,邊界處的幀很難重建(通常具有較大的重建誤差),這有利于事件邊界檢測(這樣就能很容易檢測出邊界)。

B:test
將視頻幀送入模型,再逐個地對每一幀進行掩碼,從而重建所有幀的特征,與原特征進行比較后有兩種結果,一種是上半部構建錯誤,即檢測到邊界幀,另一種是下半部構建成功,即無邊界幀。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/11614.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/11614.shtml
英文地址,請注明出處:http://en.pswp.cn/web/11614.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

c/c++對于char*的理解(聯合string容器)

在C和C中,char*是一個指向字符(char)的指針。它經常被用來處理C風格的字符串,這種字符串是以空字符(\0)結尾的字符數組。以下是關于char*的一些關鍵點: C風格的字符串: C風格的字符…

升級Microsoft 365后,SAP GUI中無法打開Excel的解決方案

最近,我們遇到了一個棘手的問題,一位客戶在升級到Microsoft 365后,無法在SAP GUI中打開Excel。這個問題不僅影響了工作效率,也給用戶的日常操作帶來了不便。在本文中,我們將探討問題的成因,并提供一種解決方…

泛微E9開發 添加多個多選框,實現單選框的效果

利用多個多選框實現單選框的效果 1、功能背景2、展示效果3、實現效果 1、功能背景 如下圖所示,在表單中新增四個“選擇框-復選框”類型的字段,并且設置其中的選項,每個多選框都只有一個選項,通過代碼塊實現單選框的效果 1.顯示模…

鄧閑小——生存、生活、生命|真北寫作

人生有三個層次∶生存、生活、生命。 生存就是做必須做的事。生存的模式是鄧,是交易,是買賣。別人需要的東西,你生產出來,賣給他。哪怕這個東西沒啥用,也可以賣,情緒也可以賣。你需要的東西,你花…

分布式與一致性協議之POW算法

POW算法 概述 談起比特幣,你應該并不陌生。比特幣是基于區塊鏈實現的,而區塊鏈運行在因特網上,這就存在有人試圖作惡的情況。有些讀者可能已經發現了,口信消息型拜占庭問題之解、PBFT算法雖然能防止壞人作惡,但只能防…

代碼隨想錄算法訓練營第二十三天 | 530.二叉搜索樹的最小絕對差、501.二叉搜索樹中的眾數、236. 二叉樹的最近公共祖先

目錄 530.二叉搜索樹的最小絕對差 思路 代碼 501.二叉搜索樹中的眾數 思路 代碼 236. 二叉樹的最近公共祖先 思路 代碼 530.二叉搜索樹的最小絕對差 需要領悟一下二叉樹遍歷上雙指針操作,優先掌握遞歸 題目鏈接/文章講解:代碼隨想錄 視頻講解…

Java Spring的定時任務的配置和使用

在Spring框架中,配置和使用定時任務主要涉及Scheduled注解以及Spring的異步任務執行能力。以下是詳細步驟: 1. 引入依賴 對于Spring Boot項目,通常已經包含了Spring框架,因此不需要額外添加定時任務的依賴。如果使用的是Spring框…

AI大模型測評系統opencompass源碼解析

1 注冊器(Registry) 為了管理功能相似的模塊,MMEngine實現了注冊器。注冊器可以被視作這些類或函數的抽象。例如注冊器 MODELS 可以被視作所有模型的抽象。 1.1 什么是注冊器 MMEngine 實現的注冊器可以看作一個映射表和模塊構建方法(build function)的組合。 映射表:…

八、e2studio VS STM32CubeIDE之內存使用情況窗口

目錄 一、概述/目的 二、STM32CubeIDE Build Analyzer 三、e2studio Memory Usage 八、e2studio VS STM32CubeIDE之內存使用情況窗口 一、概述/目的 1、嵌入開發最大特點之一就是資源受限,關注芯片資源使用詳情是優秀工程師的技能之一 2、Keil和IAR都不支持內存…

CTFshow 信息搜集

第一題1 進入靶場 直接看源碼發現flag 第二題 1 按右鍵沒辦法看源碼 按ctrlu可以查看源碼 第三題 0 查看源碼 發現還是什么都沒有 用bp抓包發現flag 第四題1 直接進robots.txt 訪問flagishere.txt獲得flag 第五題 0 提示了phps源碼泄露 用目錄掃描工具沒掃出來 看wp 發現有…

網絡編程套接字詳解

目錄 1. 預備介紹 2.網絡字節序 3.udp網絡程序 4.地址轉換函數 5.udp網絡編程 1.預備介紹 1.1源IP地址和目標IP地址 舉個例子: 從北京出發到上海旅游, 那么源IP地址就是北京, 目標IP地址就是上海. 1.2 端口號 作用: 標識一個進程, 告訴OS這個數據交給那個進程來處理; (1)…

Oracle: 一個用戶多個表空間處理

1.場景描述 今天工作中,同事說建了一個用戶,往里面導入數據時提示表空間不存在,建了表空間后,部分仍然導不進去。期望幫忙創建表空間,并指定默認表空間,成功將數據導入。 (1)創建好的…

K8s:二進制安裝k8s(單臺master)

目錄 一、安裝k8s 1、拓撲圖 2、系統初始化配置 2.1關閉防火墻selinx以及swap 2.2設置主機名 2.3在每臺主機中添加hosts,做映射 2.4調整內核參數,將橋接的ipv4流量傳遞到iptables,關閉ipv6 2.4時間同步 3、部署docker引擎&#xff0…

使用LangChain和Neo4j快速創建RAG應用

大家好,Neo4j 通過集成原生的向量搜索功能,增強了其對檢索增強生成(RAG)應用的支持,這標志著一個重要的里程碑。這項新功能通過向量索引搜索處理非結構化文本,增強了 Neo4j 在存儲和分析結構化數據方面的現…

go語言map底層及擴容機制原理詳解(上)

底層數據結構-哈希表 go語言map的底層數據結構是哈希表:通過哈希表來存儲鍵值對,通過hash函數把鍵值對散列到一個個桶(bucket)中。 什么是哈希表? 在順序結構以及平衡樹中,元素與其的存儲位置之間沒有對應關系,因此…

SwiftUI中的@StateObject和@ObservedObject的區別

SwiftUI中的StateObject和ObservedObject屬性包裝器指示視圖更新以響應被觀察對象的變化。雖然這兩個屬性包裝器看起來很相似,但在使用SwiftUI構建應用程序時,有一個關鍵的區別需要理解。 兩個屬性包裝器都要求對象符合ObservableObject協議。這個協議表…

表征和基于結構的蛋白質工程:黃芪特異性皂苷乙酰轉移酶-文獻精讀14

Characterization and structure-based protein engineering of a regiospecific saponin acetyltransferase from Astragalus membranaceus 表征和基于結構的蛋白質工程:黃芪特異性皂苷乙酰轉移酶,一篇乙酰基轉移酶文章精讀分享~ 摘要 乙酰化有助于許…

【C++】繼承相關(基類與派生類的繼承關系以及細節整理)

目錄 00.引言 01.繼承的定義 02.基類和派生類對象 03.繼承中的作用域 04.派生類的默認成員函數 05.友元、靜態成員 00.引言 繼承是面向對象編程中的一個重要概念,它的作用是創建一個新的類,該類可以從一個已存在的類(父類/基類&#x…

服務攻防——數據庫安全

第一步: 端口掃描:nmap 掃不到端口:端口被修改,防護軟件,放在內網環境 mysql 內置端口3306 第一種官方漏洞 第一步:先掃描有什么端口開發 用這個錯誤密碼一直訪問,最終就進去了 弱口令猜解 不可以直接猜解&#x…

WEB后端復習——MVC、SSM【含登錄頁面代碼】

MVC(Model-View-Controller)是一種軟件設計模式,用于將應用程序分解為三個相互關聯的組件:模型(Model)、視圖(View)和控制器(Controller)。這種模式在構建用戶…