論文閱讀(四):Agglomerative Transformer for Human-Object Interaction Detection

論文來源:ICCV(2023)

項目地址:https://github.com/six6607/AGER.git

1.研究背景

人機交互(HOI)檢測需要同時定位人與物體對并識別其交互關系,核心挑戰在于區分相似交互的細微視覺差異,這依賴于實例級線索(如人體姿勢、注視方向、物體類別等)。傳統方法采用兩階段框架(如先使用目標檢測器生成實例提案),效率低下且難以靈活提取多類型線索。基于 Transformer 的方法(如實例查詢)存在任務偏差,僅關注部分特征區域,導致線索提取不完整。

2.主要創新點

2.1?動態聚類生成實例令牌(Instance Tokens)

提出聚合 Transformer(AGER),通過文本引導的動態聚類機制將圖像塊令牌逐步聚合為實例令牌,確保每個令牌包含實例的完整判別特征區域(如圖 1 所示),解決傳統方法中實例查詢僅關注局部區域的問題。

聚類過程與 Transformer 編碼器結合,無需額外目標檢測器或實例解碼器,實現單階段端到端學習

2.2?多線索靈活提取與高效性

實例令牌的完整性支持通過輕量級 MLP 并行提取多種實例級線索(如人體姿勢、空間位置、物體類別),避免傳統方法中多階段或定制化模型的復雜性。

動態聚類減少冗余計算,相比基線方法(如 QPIC),GFLOPs 降低 8.5%,FPS 提升 36%,且圖像分辨率越高,效率優勢越明顯。

2.3?文本引導的語義對齊

利用 CLIP 預訓練模型生成文本表示,通過余弦相似性和分類概率引導實例令牌與真實實例語義對齊,增強表示的泛化性,避免任務偏差。

3.總體框架

3.1?實例編碼器(Instance Encoder)

分層 Transformer 結構:包含兩個階段,每個階段由自注意力層和聚類層組成。

動態聚類機制

初始化可學習的聚類中心(分為人類和物體),通過自注意力更新表示。

使用 Gumbel-Softmax 計算聚類中心與圖像塊的相似性,將語義相關的塊聚合為更大的令牌,最終生成包含完整實例特征的令牌(如圖 2 所示)。

文本引導通過 CLIP 文本編碼器生成類別文本表示,與視覺令牌的余弦相似性損失優化聚類過程。

3.2?線索提取與聚合(Cues Extraction & Aggregation)

從實例令牌中提取三種線索:

人體姿勢(P):5 層 MLP 預測 17 個關鍵點坐標。

空間位置(S):3 層 MLP 預測邊界框。

物體類別(T):1 層 FFN 預測類別概率,結合 Word2Vec 文本嵌入。

聚合線索時通過置信度閾值(γ=0.7)過濾噪聲,與實例令牌拼接后投影到統一特征空間。

3.3?交互解碼器(Interaction Decoder)

采用 3 層 Transformer 解碼器,枚舉所有可能的人-物對,通過多模式位置嵌入處理同一對的多種交互標簽。

交互查詢結合人體與物體的位置嵌入,通過交叉注意力和自注意力識別交互類別。

4.損失函數

交互識別損失:焦點損失。

線索提取損失:L2 損失(姿勢和位置回歸)。

實例令牌生成損失:結合分類概率和文本 - 視覺余弦相似性,通過匈牙利算法匹配真實實例與生成令牌。

5.實驗

5.1 計算要求

未提及

5.2 實驗結果

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/81955.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/81955.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/81955.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

部署java項目

1.編寫shell腳本部署服務 restart.sh #!/bin/bash # # start the user program # echo "-------------------- start jk service --------------------" LOG_DIR"/home/joy/usr/app/ers-log" LOG_FILE"$LOG_DIR/log_$(date "%Y%m%d").txt&…

第18天-NumPy + Pandas + Matplotlib多維度直方圖

示例1:帶樣式的柱狀圖 python 復制 下載 import numpy as np import pandas as pd import matplotlib.pyplot as plt# 生成數據 df = pd.DataFrame(np.random.randint(10, 100, size=(8, 4)),columns=[Spring, Summer, Autumn, Winter],index=[2015, 2016, 2017, 2018, 20…

關于 Web 安全實踐:4. 文件上傳功能的風險分析與防護

定義:文件上傳風險點是指應用程序允許用戶上傳文件,但沒有嚴格校驗上傳文件的類型、內容、路徑等屬性,導致攻擊者可以上傳并執行惡意代碼。 繞過方式: 前端繞過 1. 前端限制的原理 前端限制上傳文件類型的常見方式有三種&#…

升級SpringBoot2到3導致的WebServices升級

背景 WebServices 是基于開放標準(XML、SOAP、HTTP 等)的 Web 應用程序,它們與其他 Web 應 用程序交互以交換數據。WebServices 可以將您現有的應用程序轉換為 Web 應用程序。 老代碼中有一個19年前的包,由于漏洞原因,…

Vue3中插槽, pinia的安裝和使用(超詳細教程)

1. 插槽 插槽是指, 將一個組件的代碼片段, 引入到另一個組件。 1.1 匿名插槽 通過簡單的案例來學習匿名插槽,案例說明,在父組件App.vue中導入了子組件Son1.vue,父組件引用子組件的位置添加了一個片段,比如h2標簽,然…

【Redis】AOF日志

目錄 1、背景2、工作原理3、核心配置參數4、優缺點5、AOF文件內容 1、背景 AOF(Append Only File)是redis提供的持久化機制之一,它通過記錄所有修改數據庫狀態的寫命令來實現數據庫持久化。與RDB(快照)方式不同&#…

【HTTP】connectionRequestTimeout與connectTimeout的本質區別

今天發現有的伙伴調用第三方 httpclient 的配置中 connectTimeout 和 connectionRequestTimeout 配置的不到 1 S,問了一下他,知不知道這兩個參數的意思,他說不知道。那我們今天就來了解一下這兩個參數的區別 一、核心概念解析 1.1 connectT…

react中運行 npm run dev 報錯,提示vite.config.js出現錯誤 @esbuild/win32-x64

在React項目中運行npm run dev時,如果遇到vite.config.js報錯,提示esbuild/win32-x64在另一個平臺中被使用,通常是由于依賴沖突或緩存問題導致的。解決方法是刪除node_modules文件夾,并重新安裝依賴。 如下圖: 解決辦…

EMQX開源版安裝指南:Linux/Windows全攻略

EMQX開源版安裝教程-linux/windows 因最近自己需要使用MQTT,需要搭建一個MQTT服務器,所以想到了很久以前用到的EMQX。但是當時的EMQX使用的是開源版的,在官網可以直接下載。而現在再次打開官網時發現怎么也找不大開源版本了,所以…

Python:操作Excel按行寫入

Python按行寫入Excel數據,5種實用方法大揭秘! 在日常的數據處理和分析工作中,我們經常需要將數據寫入到Excel文件中。Python作為一門強大的編程語言,提供了多種庫和方法來實現將數據按行寫入Excel文件的功能。本文將詳細介紹5種常見的Python按行寫入Excel數據的方法,并附上…

vue3中RouterView配合KeepAlive實現組件緩存

KeepAlive組件緩存 為什么需要組件緩存代碼展示緩存效果為什么不用v-if 為什么需要組件緩存 業務需求&#xff1a;一般是列表頁面通過路由跳轉到詳情頁&#xff0c;跳轉回來時&#xff0c;需要列表頁面展示上次展示的內容 代碼展示 App.vue入口 <script setup lang"…

【JAVA】比較器Comparator與自然排序(28)

JAVA 核心知識點詳細解釋 Java中比較器Comparator的概念和使用方法 概念 Comparator 是 Java 中的一個函數式接口,位于 java.util 包下。它用于定義對象之間的比較規則,允許我們根據自定義的邏輯對對象進行排序。與對象的自然排序(實現 Comparable 接口)不同,Comparat…

浪潮服務器配置RAID和JBOD

目錄 1 配置RAID2 設置硬盤為JBOD模式3 驗證結果 1 配置RAID 進入 bios 界面 選擇 “高級” - “UEFI-HII配置” 選擇 raid 卡 進入 Main Menu 點擊 Driver Management&#xff0c;可以查詢當前硬盤 返回上一級&#xff0c;點擊 Configuration Management - Create virtu…

mongodb管理工具的使用

環境&#xff1a; 遠程服務器的操作系統&#xff1a;centOS stream 9; mongoDB version:8.0; 本地電腦 navicat premium 17.2 ; 寶塔上安裝了mongoDB 目的&#xff1a;通過本地的navicat鏈接mongoDB,如何打通鏈接&#xff0c;分2步&#xff1a; 第一步&#xff1a;寶塔-&…

03-Web后端基礎(Maven基礎)

1. 初始Maven 1.1 介紹 Maven 是一款用于管理和構建Java項目的工具&#xff0c;是Apache旗下的一個開源項目 。 Apache 軟件基金會&#xff0c;成立于1999年7月&#xff0c;是目前世界上最大的最受歡迎的開源軟件基金會&#xff0c;也是一個專門為支持開源項目而生的非盈利性…

實景VR展廳制作流程與眾趣科技實景VR展廳應用

實景VR展廳制作是一種利用虛擬現實技術將現實世界中的展覽空間數字化并在線上重現的技術。 這種技術通過三維重建和掃描等手段&#xff0c;將線下展館的場景、展品和信息以三維形式搬到云端數字空間&#xff0c;從而實現更加直觀、立體的展示效果。在制作過程中&#xff0c;首…

Python爬蟲實戰:獲取天氣網最近一周北京的天氣數據,為日常出行做參考

1. 引言 隨著互聯網技術的發展,氣象數據的獲取與分析已成為智慧城市建設的重要組成部分。天氣網作為權威的氣象信息發布平臺,其數據具有較高的準確性和實時性。然而,人工獲取和分析天氣數據效率低下,無法滿足用戶對精細化、個性化氣象服務的需求。本文設計并實現了一套完整…

幾種超聲波芯片的特點和對比

一 CX20106A ZIP - 8 CX20106A ZIP - 8 的核心競爭力在于高性價比、易用性和抗光干擾能力&#xff0c;尤其適合消費電子、短距離工業檢測和低成本物聯網場景。盡管在距離和精度上不及高端芯片&#xff0c;但其成熟的電路方案和廣泛的市場應用&#xff08;如經典紅外遙控升級為超…

利用ffmpeg截圖和生成gif

從視頻中截取指定數量的圖片 ffmpeg -i input.mp4 -ss 00:00:10 -vframes 1 output.jpgffmpeg -i input.mp4 -ss 00:00:10 -vframes 180 output.jpg -vframes 180代表截取180幀, 實測后發現如果視頻是60fps,那么會從第10秒截取到第13秒-i input.mp4&#xff1a;指定輸入視頻文…

系統架構設計師案例分析題——數據庫緩存篇

一.核心知識 1.redis和MySQL的同步方案怎么做的&#xff1f; 讀數據&#xff1a;先查詢緩存&#xff0c;緩存不存在則查詢數據庫&#xff0c;然后將數據新增到緩存中寫數據&#xff1a;新增時&#xff0c;先新增數據庫&#xff0c;數據庫成功后再新增緩存&#xff1b;更新和刪…