論文來源:ICCV(2023)
項目地址:https://github.com/six6607/AGER.git
1.研究背景
人機交互(HOI)檢測需要同時定位人與物體對并識別其交互關系,核心挑戰在于區分相似交互的細微視覺差異,這依賴于實例級線索(如人體姿勢、注視方向、物體類別等)。傳統方法采用兩階段框架(如先使用目標檢測器生成實例提案),效率低下且難以靈活提取多類型線索。基于 Transformer 的方法(如實例查詢)存在任務偏差,僅關注部分特征區域,導致線索提取不完整。
2.主要創新點
2.1?動態聚類生成實例令牌(Instance Tokens)
提出聚合 Transformer(AGER),通過文本引導的動態聚類機制將圖像塊令牌逐步聚合為實例令牌,確保每個令牌包含實例的完整判別特征區域(如圖 1 所示),解決傳統方法中實例查詢僅關注局部區域的問題。
聚類過程與 Transformer 編碼器結合,無需額外目標檢測器或實例解碼器,實現單階段端到端學習。
2.2?多線索靈活提取與高效性
實例令牌的完整性支持通過輕量級 MLP 并行提取多種實例級線索(如人體姿勢、空間位置、物體類別),避免傳統方法中多階段或定制化模型的復雜性。
動態聚類減少冗余計算,相比基線方法(如 QPIC),GFLOPs 降低 8.5%,FPS 提升 36%,且圖像分辨率越高,效率優勢越明顯。
2.3?文本引導的語義對齊
利用 CLIP 預訓練模型生成文本表示,通過余弦相似性和分類概率引導實例令牌與真實實例語義對齊,增強表示的泛化性,避免任務偏差。
3.總體框架
3.1?實例編碼器(Instance Encoder)
分層 Transformer 結構:包含兩個階段,每個階段由自注意力層和聚類層組成。
動態聚類機制:
初始化可學習的聚類中心(分為人類和物體),通過自注意力更新表示。
使用 Gumbel-Softmax 計算聚類中心與圖像塊的相似性,將語義相關的塊聚合為更大的令牌,最終生成包含完整實例特征的令牌(如圖 2 所示)。
文本引導通過 CLIP 文本編碼器生成類別文本表示,與視覺令牌的余弦相似性損失優化聚類過程。
3.2?線索提取與聚合(Cues Extraction & Aggregation)
從實例令牌中提取三種線索:
人體姿勢(P):5 層 MLP 預測 17 個關鍵點坐標。
空間位置(S):3 層 MLP 預測邊界框。
物體類別(T):1 層 FFN 預測類別概率,結合 Word2Vec 文本嵌入。
聚合線索時通過置信度閾值(γ=0.7)過濾噪聲,與實例令牌拼接后投影到統一特征空間。
3.3?交互解碼器(Interaction Decoder)
采用 3 層 Transformer 解碼器,枚舉所有可能的人-物對,通過多模式位置嵌入處理同一對的多種交互標簽。
交互查詢結合人體與物體的位置嵌入,通過交叉注意力和自注意力識別交互類別。
4.損失函數
交互識別損失:焦點損失。
線索提取損失:L2 損失(姿勢和位置回歸)。
實例令牌生成損失:結合分類概率和文本 - 視覺余弦相似性,通過匈牙利算法匹配真實實例與生成令牌。
5.實驗
5.1 計算要求
未提及