Arxiv-Daily

Daily Paper Report - 2025-07-24 12:53

Today’s Recommended Papers

1. Multi-modal Multi-task Pre-training for Improved Point Cloud Understanding

Authors: Liwen Liu, Weidong Yang, Lipeng Ma, Ben Fei

Deep-Dive Summary:

多模態多任務預訓練以改善點云理解

預印本

Liwen Liu’，Weidong Yang’，Lipeng Ma, Ben Fei
1 復旦大學
2 香港中文大學
liwenliu21@m.fudan.edu.cn, wdyang@fudan.edu.cn, lpma@m.fudan.edu.cn, benfei@cuhk.edu.hk

摘要

最近，多模態預訓練方法的進步顯示出通過對齊 3D 形狀與其對應 2D 對應物的多模態特征來學習 3D 表示的有效性。然而，現有的多模態預訓練框架主要依賴于單一預訓練任務來收集多模態數據，這限制了模型從其他相關任務中獲取豐富信息，從而影響其在下游任務中的性能，尤其是在復雜和多樣的領域。為解決這一問題，我們提出 MMPT（Multi-modal Multi-task Pre-training），這是一個設計用于增強點云理解的多模態多任務預訓練框架。具體來說，我們設計了三個預訓練任務：（i） Token-level reconstruction (TLR) 旨在恢復被掩碼的點 token，從而賦予模型代表性學習能力；（ii） Point-level reconstruction (PLR) 整合用于直接預測被掩碼的點位置，重建的點云可視為后續任務中的變換點云；（iii） Multi-modal contrastive learning (MCL) 結合了模態內和模態間的特征對應關系，從而從 3D 點云和 2D 圖像模態中以自監督方式匯集豐富的學習信號。而且，該框架無需任何 3D 標注，使其適用于大型數據集。訓練后的編碼器可以有效轉移到各種下游任務。為了證明其有效性，我們在廣泛使用的基準上評估了其在各種判別性和生成性應用中的性能，并與其他最先進方法進行了比較。

多任務 · 預訓練 · 點云 · 自監督

1 引言

3D 視覺理解近年來備受關注，因為其在增強現實 (AR)、虛擬現實 (VR)、自動駕駛、元宇宙和機器人等領域中的應用日益增多 [Fei et al., 2022a, 2023, Zhu et al., 2024]。點云理解的初始階段涉及提取判別性幾何特征，使用各種神經網絡，如 PointNet [Qi et al., 2017a]、PointNet++ [Qi et al., 2017b] 和 DGCNN [Wang et al., 2019]，以改善下游任務，如分類和分割 [Zhang et al., 2024, Xie et al., 2024, Xu et al., 2025]。然而，收集和標注 3D 數據的過程代價高昂且勞動密集 [Yu et al., 2022, Huang et al., 2021]。雖然在合成掃描上訓練顯示出緩解真實世界標注數據稀缺的潛力，但以此方式訓練的 GRL 模型容易受到域移位的影響 [He et al., 2022, Zhang et al., 2022a]。

自監督學習 (SSL) 作為一種無監督學習范式，為監督模型的局限性提供了解決方案，并在 2D 領域取得了成功 [Chen et al., 2020, Liu et al., 2025a,b]。這激發了最近對利用自監督學習提取 3D 點云強大特征的興趣 [Fei et al., 2024a,b,c]。現有的自監督學習方法大多采用編碼器-解碼器架構，其中編碼器的參數基于解碼器對點云對象的重建來更新 [Liu et al., 2022]。然而，這些方法面臨幾個挑戰，包括：i) 由于點云的離散性質，重建 3D 對象并非總是可行的；ii) 單模態損失，如均方誤差和交叉熵，無法充分捕捉原始數據中的各種幾何細節。

為此，研究人員探索了更豐富的可用模態，如圖像，以為 3D 表示學習提供額外的監督信號 [Afham et al., 2022, Zhang et al., 2022b]。這種方法不僅改善了單模態數據的表示能力，還促進了更全面的多模態表示能力的發展 [Zhu et al., 2022]。這些努力顯示出有前景的結果，并部分緩解了 3D 領域對密集標注單模態數據的需求。然而，這些多模態預訓練方法仍依賴于單一預文本任務，這限制了從其他相關預文本任務中獲取豐富信息，從而阻礙了預訓練模型在下游任務中的性能。

為應對這些挑戰，我們引入 MMPT（Multi-modal Multi-task Pre-Training），這是一個用于自監督點云表示學習的框架。具體來說，我們設計了三個預文本任務：（i） Token-Level Reconstruction (TLR) 通過交叉熵恢復被掩碼的 token，這是一種常見的點云數據預訓練方法。如前所述，雖然該預文本任務有助于學習全局表示，但它不足以捕捉點云的詳細幾何；為了增強編碼器的代表性學習能力，我們結合了其他兩個預文本任務；（ii） Point-Level Reconstruction (PLR) 旨在解決點云離散性質帶來的重建挑戰。此外，從該預文本任務重建的點云可視為變換點云，并用于最終任務；（iii） Multi-modal Contrastive Learning (MCL) 包括模態內學習和模態間學習。在無需手動標注的多模態多任務預訓練后，我們可以將訓練后的編碼器轉移到各種下游任務。我們通過與廣泛使用的基準比較來證明我們的優越性能。

MMPT 的貢獻可總結如下：

我們提出 MMPT，這是一個新穎的多模態多任務預訓練框架，用于改善點云理解。這是首次將多任務預訓練整合到 3D 點云預訓練中。
MMPT 框架包括三個預文本任務：token-level reconstruction、point-level reconstruction 和 multi-modal contrastive learning。這些任務協同工作，產生一個強大的編碼器，可無縫轉移到下游任務中，并高度有效。
在五個不同的下游任務上，我們實現了可比性能，超過了競爭對手，并展示了改進的泛化能力。此外，我們通過與現有自監督學習方法比較來分析我們方法的優勢。

2 相關工作

2.1 自監督學習在點云上的應用

自監督學習 (SSL) 旨在從無標注數據中提取魯棒且通用的特征，從而減少耗時的數據標注，并實現優秀的轉移學習性能。

生成方法通過自重建學習特征，將點云編碼成特征或分布，然后解碼回原始點云 [Fei et al., 2024d, 2025a]。最近，基于 Transformer 架構的各種自監督方法被提出。例如，Point-BERT [Yu et al., 2022] 預測離散 token，而 Point-MAE [Liu et al., 2022] 隨機掩碼輸入點云中的 patch 并重建缺失點。生成方法的替代方案是使用生成對抗網絡進行生成建模。

判別方法通過利用輔助手工預設預測任務來學習點云表示。例如，Jigsaw3D [Sauder and Sievers, 2019] 使用 3D Jigsaw 拼圖作為自監督任務，并利用對比技術訓練編碼器以用于下游任務。PointContrast [Xie et al., 2020a] 引入一個預文本任務，強調從不同視角保持單個點云一致的表示，專注于高級場景理解任務。在此基礎上，它調查了一個統一的對比范式，并擴展到 3D 和 2D 模態，強調它們之間的強大共享特征。盡管需要挑戰性的點云渲染結果，該方法簡單且高效。為了促進對比學習任務，Du et al. [Du et al.] 提出了一種基于對比學習的框架，此外，他們主動獲取接近正樣本的硬負樣本以增強判別特征學習過程。STRL [Huang et al., 2021] 是 BYOL 到 3D 點云的擴展，利用了類似的框架。與生成和判別方法不同，我們提出了一種更全面的方法，通過利用多任務預訓練結合兩者的優勢，從而獲得更好的表示。

2.2 多模態表示學習

本文旨在利用 3D 點云以外的模態（如 2D 圖像）固有的額外學習信號。這些模態包含豐富的上下文、紋理信息以及密集語義。然而，該領域的當前方法主要關注全局特征匹配的對比學習 [Afham et al., 2022, Fei et al., 2025b, 2022b]。例如，[Jing et al., 2021] 提出了一種判別中心損失來對齊點云、網格和圖像的特征。[Afham et al., 2022] 呈現了一個模態內和模態間對比學習框架，作用于增強點云及其對應 2D 圖像。另一種方法涉及利用先驗幾何信息建立密集關聯并探索細粒度局部特征匹配。例如，Liu et al. [Liu et al., 2021] 提出了一種對比知識蒸餾方法來對齊細粒度 2D 和 3D 特征，而 [Li et al., 2022] 引入了一個簡單的對比學習框架，用于模態間和模態內密集特征對比，使用匈牙利算法來改善對應。最近，通過直接利用預訓練 2D 圖像編碼器進行監督微調，已經取得了重大進展。同時，P2P [Wang et al., 2022] 提出將 3D 點云投影到 2D 圖像上，并通過一個可學習的著色模塊將它們輸入圖像主干。

2.3 多任務預訓練

多任務學習涉及訓練模型從單個輸入預測多個輸出域。一種常見技術是使用一個單一編碼器獲取共享表示，然后通過多個任務特定解碼器 [Ghiasi et al., 2021]。與此不同，我們的方法在輸入和輸出中都整合了多個任務，并伴隨掩碼。此外，一些研究表明，僅從單一任務學習是不夠的，使用一組任務可以更全面地涵蓋視覺中的潛在下游任務。我們的 MMPT 利用多個任務來獲取更通用的表示，從而能夠處理多個下游任務。

3 MMPT 框架

3.1 概述

我們的 MMPT 整體框架如 Figure 1: The overall framework of our MMPT 所示。MMPT 框架包括三個主要預文本任務：TLR 中的掩碼點 token 預測任務、PLR 中的掩碼點組預測任務，以及 MCL 中的 2D 圖像-3D 點云對應任務，如第 3.2 節所述，這增強了 Transformer 架構的分類能力。然后，在第 3.3 節中，我們介紹了掩碼點組預測任務，這改善了主干的生成能力。最后，在第 3.4 節中，我們詳細說明了 2D 圖像-3D 點云對應網絡。

3.2 TLR 中的掩碼點 token 預測任務

掩碼和嵌入階段。由于點云是一組無序點，將其分組成點 patch 已顯示能更好地理解和描述 3D 形狀的局部信息。如 Figure 2: Illustrations of the masked point tokens prediction task 所示，掩碼和嵌入階段旨在提供更準確、詳細和語義化的點云數據。在此階段，輸入點云被分為不規則點 patch，然后這些 patch 被隨機掩碼并嵌入成 token。

具體來說，假設輸入點云為 $\in \mathbb{R}^{N \times 3}$ ，我們首先使用 Furthest Point Sampling (FPS) 采樣 $M$ 個中心點，以固定采樣比率從整體點云 $X$ 中下采樣。然后，通過中心點及其鄰域點形成點 patch，使用 K-nearest neighborhood 算法 (KNN)：

$Xc=FPS(X)Xp=KNN(X,Xc)\begin{array}{c} X_c = \text{FPS}(X) \\ X_p = \text{KNN}(X, X_c) \end{array}$

我們選擇隨機掩碼策略，以盡可能分開掩碼點 patch，同時通過考慮點 patch 重疊保持信息完整。對于掩碼比率，我們根據實驗結果設置為高比率 $γ=0.8\gamma = 0.8$ ，以更好地從可見點 patch $PvisP_{\text{vis}}$ 中獲取潛在表示。

應用隨機掩碼策略后，我們使用 mini-PointNet 實現 token 嵌入，作為編碼器的輸入，該網絡由多層感知機 (MLP) 和最大池化組成：

$Dγvi:s?DDO?DDDD(Dv1˙S)\begin{array}{l} \mathcal{D}^{\gamma} v_i : s \implies \mathcal{D}^{\mathcal{D}} O^{\bullet} \mathcal{D} \mathcal{D} \mathcal{D} \mathcal{D} \left( \mathcal{D}_{v \dot{1} \mathcal{S}} \right) \end{array}$

特別是，點云在 3D 數據中具有位置信息。由于點 patch 是中心歸一化的，附加中心的位置嵌入是必要的。遵循先前研究 [Yu et al., 2022]，我們使用一個小型 MLP 網絡從中心坐標學習位置嵌入。

不對稱自編碼器階段。在此階段，我們采用將掩碼 token 轉移到解碼器的策略，這不僅避免了泄露位置信息，還提高了計算效率。受 MAE [He et al.] 啟發，我們設計了一個不對稱編碼器-解碼器。在預訓練期間，編碼器以可見 token $TvisT_{\text{vis}}$ 為輸入，并在每個 Transformer 塊中添加位置嵌入 (PE) 以提供 patch 位置信息。處理后，輸出為 $Tenc∈Rb×DT_{\text{enc}} \in \mathbb{R}^{b \times D}$ （其中 $D$ 表示嵌入維度），公式為：

$Tenc=ΛbD(Tvis,PF)T_{\text{enc}} = \Lambda_{b D} \left( T_{\text{vis}}, P_{\mathcal{F}} \right)$

解碼器類似于 Point-MAE [Pang et al., 2022]，使用標準 Transformer 具有更少的塊。解碼器將編碼的可見 token $TencT_{\text{enc}}$ 、掩碼 token $TmaskT_{\text{mask}}$ 及其位置嵌入 PE 輸入標準 Transformer，定義為：

$Hmask=D3D(concat(Tenc,Tmask),PE)H_{\text{mask}} = D_{3D} \left( \text{concat} \left( T_{\text{enc}}, T_{\text{mask}} \right), P_{\mathcal{E}} \right)$

最后，解碼器輸出 $HmaskH_{\text{mask}}$ 輸入全連接 (FC) 層以重建掩碼點 patch：

$Ppre=NdesJdLU(F(Hmask))P_{\text{pre}} = \mathcal{N}_{des} \mathcal{J}_d \mathcal{L} \mathcal{U} \left( \mathcal{F} \left( H_{\text{mask}} \right) \right)$

3.3 PLR 中的掩碼點組預測任務

在掩碼點組預測任務中，包括兩個主要部分：掩碼 Transformer 和判別解碼器。掩碼 Transformer 用于建模稀疏分布的未掩碼組之間的相關性，而判別解碼器輔助網絡基于少量可見點組預測 3D 形狀。

分組和掩碼階段。如 Figure 3: Illustrations of the masked point groups prediction task 所示，首先考慮輸入點云 $\in \mathbb{R}^{N \times 3}$ ，使用 FPS 下采樣產生 patch 中心。然后，對于每個 patch 中心，我們找到一個鄰域，通過隨機掩碼一比例，將點組分為掩碼組 $XmaskX_{\text{mask}}$ 和未掩碼組 $XvisX_{\text{vis}}$ 。

掩碼 Transformer 階段。編碼器以可見局部組為輸入，輸出全局表示，由堆疊的多頭自注意力層 (MSA) 和全連接前饋網絡 (FFN) 組成。在輸入編碼器前，可見組 $XvisX_{\text{vis}}$ 通過輕量級 PointNet 實例化為組嵌入 $TgroupT_{\text{group}}$ ，并通過 MLP 轉換為位置嵌入 $TposT_{\text{pos}}$ 。

形式上，我們定義深度表示作為輸入嵌入 $TinputT_{\text{input}}$ ，這是 $TgroupT_{\text{group}}$ 和 $TposT_{\text{pos}}$ 的組合。受 ViT 啟發，我們在輸入序列前面附加一個 [CLS] token，這在學習點云整體結構中起關鍵作用，并應用于下游任務。經過編碼器網絡的多個塊后，我們獲得最后一層的輸出 $Ti={[C’LS],t1,t2}T_i = \{ [\text{C'LS}], t_1, t_2 \}$ ，表示輸入組的編碼表示，具有全局感受野。

判別解碼器階段。解碼器以特征表示為輸入，通過 MLP 分類頭輸出 logits $S_{3D}$ 和預測查詢 $QpreQ_{\text{pre}}$ 。特別地，我們表示一系列從掩碼組采樣的真實查詢 $QrealQ_{\text{real}}$ 和從整個 3D 空間采樣的假查詢 $QfakeQ_{\text{fake}}$ 。隨后，一層 Transformer 解碼器輸入 ${Qreal+pos}∪{Qfake+pos}\{ Q_{\text{real}} + \text{pos} \} \cup \{ Q_{\text{fake}} + \text{pos} \}$ ，并對每個查詢 $\in \{ Q_{\text{real}}, Q_{\text{fake}} \}$ 通過交叉注意力 $CA(q,t′+pos)\text{CA}(q, t' + \text{pos})$ 與編碼器輸出進行操作。這種策略訓練解碼器區分真實和假查詢，具有兩個優勢：首先，它幫助網絡基于少量可見點組推斷 3D 結構；其次，它不預測掩碼組的坐標，從而防止位置信息泄露。

3.4 MCL 中的 2D 圖像-3D 點云對應任務

為了增強對 3D 點云的理解，我們以自監督方式從 3D 點云和 2D 圖像中學習可轉移表示，基于最近的模態內學習 [Chen et al., 2020] 和模態間學習 [He et al., 2022, Pang et al., 2022, Zhang et al., 2022a]。

模態內學習。模態內學習的目標是鼓勵相同點云的不同投影向量相似，同時與其它點云的投影向量不同。我們在 IMID 中應用常見的 3D 變換，包括縮放、旋轉、歸一化、彈性扭曲、平移和點丟失。

這些是通過對輸入點云 $X$ 應用變換 $T$ 的順序組合隨機獲得的。為了產生變換版本的特征嵌入并構建特征向量 $Z^T$ 在不變空間，我們依次使用特征提取器 $f_{3D}()$ 和投影頭 $g_{3D}()$ 。作為學習目標，我們最小化變換版本的均值與 3D logits $S_{3D}$ 之間的相對距離，使用超參數 $T$ 通過 NT-Xent 損失 [Chen et al., 2020] 調整動態范圍，定義為：

$?i,z3D,s3D=?log?exp?(sim(zi3D,zk3D)/τ)+∑k=1Nexp?(sim(zi3D,sk3D)/τ)∑k=1N(zii1+zit2),ZT=g3D(f3D(XT))\begin{array}{l} \ell_{i,z^{3D},s^{3D}} = \\ -\log \frac{\exp(\text{sim}(z_i^{3D}, z_k^{3D})/\tau) + \sum_{k=1}^{N} \exp(\text{sim}(z_i^{3D}, s_k^{3D})/\tau)}{\sum_{k=1}^{N} \left( z_i^{i_1} + z_i^{t_2} \right)}, \\ Z^T = g_{3D} \left( f_{3D} \left( X^T \right) \right) \end{array}$

其中 $T$ 是控制輸出分布平滑度的溫度超參數， $z^{3D}$ 表示點云 $X$ 的均值投影向量。

模態間學習。模態間學習的目標是利用 2D 圖像和 3D 點云之間的隱式幾何和語義相關性，從而輔助 3D 表示學習。與稀疏且不規則的點云不同，2D 圖像可以提供細粒度幾何和高水平語義。

我們將 2D 圖像投影到特征空間作為 $f_{2D}()$ 。在 2D 特征向量之上，使用圖像投影頭 $g_{2D}()$ 將它們投影到不變空間作為向量 $Z^{2D}$ 。為此，我們使用對比學習確保相似性，如：

$?i,s3D,z2D=?log?exp?(sim(si3D,sk2D)/τ)+∑k=1Qexp?(sim(si3D,zk2D)/τ)∑k=1Qexp?(sim(si3D,zk2D)/τ)where?sim(si3D,zi2D)=si3D?zi2D∥si3D∥∥zi2D∥\begin{array}{l} \ell_{i,s^{3D},z^{2D}} = \\ -\log \frac{\exp(\text{sim}(s_i^{3D}, s_k^{2D})/\tau) + \sum_{k=1}^{\mathcal{Q}} \exp(\text{sim}(s_i^{3D}, z_k^{2D})/\tau)}{\sum_{k=1}^{\mathcal{Q}} \exp(\text{sim}(s_i^{3D}, z_k^{2D})/\tau)} \\ \text{where } \text{sim}(s_i^{3D}, z_i^{2D}) = \frac{s_i^{3D} \cdot z_i^{2D}}{\| s_i^{3D} \| \| z_i^{2D} \|} \end{array}$

3.5 損失函數

損失函數包括四個部分：重建項 $LrecL_{\text{rec}}$ 、MoCo 項 $LMoCoL_{\text{MoCo}}$ 、模態內學習項 $LIMLL_{\text{IML}}$ 和模態間學習項 $LCMLL_{\text{CML}}$ 。整體聯合損失為：

$Ljoint=αLrec+βLMoCo+γLIML+γLCML\mathcal{L}_{\text{joint}} = \alpha \mathcal{L}_{\text{rec}} + \beta \mathcal{L}_{\text{MoCo}} + \gamma \mathcal{L}_{\text{IML}} + \gamma \mathcal{L}_{\text{CML}}$

其中 $α\alpha$ 、 $β\beta$ 和 $γ\gamma$ 是平衡不同損失項的超參數。

重建項。我們通過 L2 歸一化 Chamfer Distance (CD) 和二元焦點損失最小化預測 patch 與真實 patch 之間的相對距離，如：

$$
\begin{array}{c}
\mathcal{L}{\text{rec}} = \mathcal{L}{\text{rec.cd}}(P_{\text{pre}}, P_{\text{gt}}) + \mathcal{L}{\text{rec.bce}}(Q{\text{pre}}, Q_{\text{labels}}) \
= \frac{1}{|P_{\text{pre}}|} \sum_{p \in P_{\text{pre}}} \min_{g \in P_{\text{gt}}} | p - g |2^2 + \frac{1}{|P{\text{gt}}|} \sum_{g \in P_{\text{gt}}} \min_{p \in P_{\text{pre}}} | g - p |_2^2 \

\frac{1}{N} \sum_i^N \sum_i^N \phi_i^N | l \times \log§ + (1 - l) \times \log(1 - p) |
\end{array}
$$

MoCo 項。基于掩碼點組預測模塊，我們獲得 3D logits $S_{3D}$ 。MoCo 損失為：

$LMoCo=1N∑i=1N?log?exp?(si3D?skilabels/τ)∑j=0Kexp?(si3D?skjlabels)\mathcal{L}_{\text{MoCo}} = \frac{1}{N} \sum_{i=1}^{N} -\log \frac{\exp( s_i^{3D} \cdot s_{ki}^{\text{labels}} / \tau )}{\sum_{j=0}^{K} \exp( s_i^{3D} \cdot s_{kj}^{\text{labels}} )}$

模態內學習項。擴展方程 6，我們定義模態內學習損失為：

$LIML=12M∑i=1N(?i,z3D,s3D+?i,s3D,z3D)\mathcal{L}_{\text{IML}} = \frac{1}{2M} \sum_{i=1}^{N} \left( \ell_{i, z^{3D}, s^{3D}} + \ell_{i, s^{3D}, z^{3D}} \right)$

模態間學習項。擴展方程 7，我們獲得模態間對比學習目標：

$LCML=∑i=1N(?i,s3D,z2D+?i,z2D,s3D)\mathcal{L}_{\text{CML}} = \sum_{i=1}^{\mathcal{N}} \left( \ell_{i, s^{3D}, z^{2D}} + \ell_{i, z^{2D}, s^{3D}} \right)$

4 實驗

4.1 預訓練設置

預訓練數據集。我們使用 ShapeNetRender [Afham et al., 2022] 作為預訓練數據集，用于幾個下游點云理解任務。此外，我們還利用 ShapeNetRender [Afham et al., 2022] 中的彩色單視圖圖片。每個 RGB 圖像與深度圖像、法線圖和反照率圖像相關聯，具有更大的相機角度多樣性。

Transformer 架構。我們的目標是通過多任務預訓練開發一個具有魯棒泛化能力的預訓練模型。我們使用兩個獨立的 Transformer：一個 Token-Level Transformer Auto-Encoder 用于獲取點特征，以及 MaskTransformer 用于點級重建。遵循 Point-BERT [Yu et al., 2022]，我們構建了一個 12 層的標準 Transformer 編碼器。

預訓練細節。與 [Yu et al., 2022] 一致，我們使用 AdamW 優化器，權重衰減為 0.05，學習率為 $\times 10^{-4}$ ，并余弦衰減。模型以批量大小 4 訓練 100 個周期，包括隨機縮放和平移數據增強。

4.2 下游任務

4.2.1 合成數據上的 3D 對象分類

我們在 ModelNet40 基準上評估 3D 對象分類方法。如 Table 1 所示，我們的方法在 ModelNet40 上實現了 93.9% 的準確率，超過了競爭對手。

4.2.2 真實世界數據上的 3D 對象分類

我們在 ScanObjectNN 數據集上評估方法。如 Table 2: The comparison of shape classification performance on ScanObjectNN 所示，我們的方法在最具挑戰性的 PB-T50-RS 上達到 86.4% 的準確率。

4.2.3 3D 部分分割

如 Table 4: The comparison of part segmentation performance on the ShapeNetPart 所示，我們的方法在 ShapeNetPart 上取得了領先的 mIoU。

其他實驗結果如 Table 6 和 Table 8 所示，證明了 MMPT 在 3D 對象檢測和形狀完成任務中的優越性能。

4.2.4 少樣本分類

少樣本學習的目的是通過利用先驗知識，在有限的標記訓練樣本下處理新穎任務。在本研究中，我們在k類和m樣本的條件下，將我們的方法與其他方法的性能進行比較，其中我們從ModelNet40中為每k類采樣m個樣本。具體來說，我們在Table 3中呈現了k ∈ {5, 10}和m ∈ {10, 20}的設置。結果顯示，我們的方法在所有四個不同設置下 consistently 實現了最高的平均準確率，比其他方法有顯著優勢。特別地，我們的MMPT方法相對于Point-MAE模型[Pang et al., 2022]實現了0.4%、0.1%、0.1%和0.7%的顯著改進，這突顯了我們方法強大的泛化能力。

Figure 5: Visualization comparison of semantic segmentation on ShapeNetPart dataset by different methods.

4.2.5 室內3D語義分割

此外，我們評估了我們提出的MMPT在大型場景的3D語義分割中的性能。這一任務面臨重大挑戰，因為它需要理解全局語義和局部幾何細節。我們在Table 5中呈現了實驗的詳細定量結果。顯著地，我們的MMPT相對于從零開始訓練的Transformer，實現了3.2%的平均準確率（mAcc）和4.2%的平均交并比（mIoU）的提升。這證明了我們的MMPT有效地增強了Transformer處理 demanding 下游任務的能力。而且，我們的MMPT超越了其他自監督方法，在mAcc和mIoU上分別比第二好的方法Point-MAE提高了1.4%和0.3%。與依賴場景幾何特征和顏色的方法（如Table 5中排名前四的方法）相比，我們的MMPT展示了優越性能。

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

4.2.6 室內3D物體檢測

此外，我們繼續評估我們的MMPT在3D物體檢測任務中的性能，該任務需要方法對大型場景有 robust 理解。為此，我們在廣泛使用的真實世界數據集ScanNet V2上進行了實驗。結果在Table 6中以AP25和AP50指標呈現。與從零開始訓練的方法和預訓練方法相比，我們的方法實現了最高的AP25和AP50分數。顯著地，我們的模型在AP25和AP50上分別比第二好的方法提高了0.2%。

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

4.2.7 3D形狀補全

在PCN數據集上的結果。為了評估生成能力，我們在PCN數據集上微調預訓練模型。Table 7和補充材料顯示，我們的MMPT在所有八個類別上的平均Chamfer距離[Fan et al., 2017]中取得了 remarkable 性能。與PoinTr[Yu et al., 2021]和Snowflake[Xiang et al., 2021]相比，我們的方法在平均CD-l1上分別實現了65.10%和13.06%的相對改進，最終值為7.396。特別地，在椅子類別上，我們的MMPT實現了7.864的CD-l1，比PoinTr和Snowflake分別高出76.58%和15.76%。

為了評估重建完整形狀的性能，我們在Figure 7中呈現了PCN數據集上各種方法預測的點云視覺比較。這些比較展示了我們的MMPT在缺失點云補全任務中比先前方法有 superior 視覺性能。具體地，Figure 7顯示了在椅子類別的側面和角度區域，我們的MMPT表現特別出色。

在MVP數據集上的結果。此外，我們還在MVP數據集上進行了點云補全。Table 8顯示，我們的MMPT模型在所有16個類別上基于平均CD-l1取得了最佳結果。具體地，我們的MMPT模型的平均Chamfer距離（CD）為6.769，顯著優于PoinTr和Snowflake的8.070和7.597。在燈類別上，我們的方法使CD-l1顯著降低，比PoinTr和Snowflake分別高出55.29%和50.27%。

Figure 9: t-SNE visualization of the features learned from ModelNet4O and ScanObjectNN (OBJ-ONLY)

我們的MMPT在有效重建缺失部分和捕捉 finer 細節方面表現突出，即使輸入點較稀疏。在Figure 7的最后一行，其他方法不僅無法重建摩托車的完整結構，還完全丟失了其原始信息。相比之下，我們的MMPT捕捉了更多 intricate 細節，并產生了更高 fidelity 的結果。

在ShapeNet55數據集上的結果。此外，為了進一步評估MMPT的生成能力，我們在更具挑戰性的數據集上進行了實驗。Table 9顯示，MMPT在F-score和CD-l2指標上取得了 competitive 結果。顯著地，MMPT在平均l1 Chamfer距離（x10^{-3}）上超越了所有其他方法。在ShapeNet55的簡單、中等和困難設置下，我們的MMPT模型分別實現了10.416、12.455和17.093的l1 Chamfer距離，與領先基線方法PoinTr相比，相對改進約為19.92%、13.87%和10.05%。

Figure 8(a)中描繪的定性可視化結果展示了我們的MMPT模型在ShapeNet55數據集的所有類別上顯著提升了形狀質量。基于這些結果，我們可以得出結論：我們的MMPT模型即使處理更均勻和密集分布的物體表面點云，也能實現 comparable 預測準確率。其他方法無法生成更 distinct 結構的形狀或恢復減少噪聲的形狀細節。

在ShapeNetUnseen21數據集上的結果。在點云補全中，評估未見對象上的性能也很必要。因此，我們在ShapeNetUnseen21數據集（源自ShapeNet55）上進行了實驗。Table 10總結了我們的MMPT模型與其他九個 competitive 方法在ShapeNet34和ShapeNetUnseen21數據集上的比較結果。該表顯示，我們的MMPT模型在所有類別上與PoinTr或Snowflake相比實現了 comparable 或 superior 性能。如Table 10所示，我們的方法在55個類別的平均CD上，在簡單、中等和困難設置下，分別比第二好的方法PoinTr提高了14.53%、1.69%、19.15%和13.61%。隨著設置難度增加，所有方法的性能均顯著下降。

Figure 8(b)展示了我們在ShapeNetUnseen21數據集的簡單設置下，與九個方法進行的視覺比較。這些比較揭示了我們方法與基線的顯著性能差距。顯著地，我們的MMPT在處理籃子的不完整點云表示時表現出色，能夠恢復更 precise 的細節，而其他方法無法捕捉 finer 細節。

4.3 特征分布的可視化

為了更全面地理解我們方法的有效性，我們使用t-SNE[Van der Maaten and Hinton, 2008]對學習到的特征進行可視化。Fig. 9（左）顯示了從ModelNet40學習到的特征的t-SNE可視化，而Fig. 9（右）展示了從ScanObjectNN學習到的特征。可視化結果表明，這些特征形成了許多 well-separated 的集群，這證實了我們方法的有效性。

Table 12: Ablation study on the number of views.

消融研究和分析

多任務組合的影響。為了深入了解多任務的有效性，我們對不同多任務組合進行了消融研究。如Table 11所示，Model A僅使用TLR任務預訓練，而Model B和C使用兩個預訓練任務。我們的MMPT在多模態和多任務預訓練下，顯著超越了其他模型，這證明了我們多任務和多模態預訓練框架的有效性。這些預訓練任務能夠協同工作，豐富Transformer’s代表性學習，并進一步提升骨干網絡在下游任務上的性能。

視圖數量的影響。本研究旨在通過操作渲染的2D圖像數量來考察圖像分支對結果的影響。具體地，我們研究了不同數量的渲染2D圖像（從各種隨機方向渲染）如何影響結果。當使用多個渲染2D圖像時，我們計算所有投影特征的均值來進行跨模態實例區分。在ModelNet40數據集上的分類結果如Table 12所示。即使使用單個渲染2D圖像，MMPT也捕捉了跨模態對應關系并獲得了 superior 分類結果。有趣地，當使用超過兩個渲染圖像時，準確率下降，這表明2D圖像模態的信息可能存在冗余。

多任務權重的影響。此外，我們對不同預訓練任務的權重組合進行了消融實驗。我們將TLR和PLR的比率固定為1:1，因為它們從不同視角重建點云。此外，我們將MCL的比率調整為1、0.5、0.2、0.1和0.01。如Table 13所示，MMPT在1:1:0.1的比率下取得了最佳性能。這主要是由于不同預訓練任務之間的 trade-off，使它們能夠協同工作并獲得更強的預訓練模型。

6 結論

總之，本文提出了一個多模態和多任務預訓練框架，這是首次將多任務學習引入點云預訓練領域。為了解決單一預訓練任務在多樣下游任務中的瓶頸，我們設計了三個預訓練任務：TLR、PLR和MCL。這些任務協同工作，獲得了一個具有豐富表示能力的預訓練模型。該模型在五個下游任務上取得了滿意性能。在未來，我們將基于本工作開發更多針對特定下游任務的多任務預訓練模型，以促進3D領域低標注和高遷移性能預訓練的發展。

A 數據集

ModelNet40[Wu et al., 2015]數據集包含來自40個物體類別的12,311個CAD模型，其中9,843個用于訓練，2,468個用于測試。我們遵循先前工作，使用1024個點及其坐標信息作為輸入[Yu et al., 2022, Lu et al., 2022, Ga0 et al., 2022]。

ScanObjectNN[Uy et al., 2019]基于掃描的室內場景數據，分為11,416個訓練實例和2,882個驗證實例。我們在三個變體上評估實驗：OBJ-BG、OBJ-ONLY和PB-T50-RS，與先前工作一致。

ShapeNetPart[Yi et al., 2016]數據集包含16個不同類別和16,881個3D物體，用于評估不同方法的性能，提供全面的理解。

PCN數據集[Yuan et al., 2018]源自ShapeNet數據集，包括8種物體類型，每個完整形狀由16,384個點表示，這些點從原始CAD模型表面均勻采樣。

MVP數據集[Pan et al., 2021]擴展了PCN數據集的8個類別，添加了另外8個類別，包括床、長凳、書架、巴士、吉他、摩托車、手槍和滑板，從而形成一組高質量的部分和完整點云。

ShapeNet55[Yu et al., 2021]用于評估模型的泛化能力，并分為ShapeNet34和ShapeNetUnseen21。

S3DIS數據集[Armeni et al., 2016]提供六大室內區域的實例級語義分割，這些區域共包含271個房間和13個語義類別。按照慣例，我們將區域5指定為測試集，其余用于訓練。

室內檢測基準是ScanNet V2[Dai et al., 2017]，它包含1,513個室內場景和18個物體類。我們采用VoteNet[Qi et al., 2019]的評估程序，使用mAP@0.25和mAP@0.5作為指標。

B 微調設置

我們使用ModelNet40[Wu et al., 2015]和ScanObjectNN[Uy et al., 2019]兩個基準評估物體分類方法，其中ModelNet40包含12,331個網格模型來自40個類別，9,843個訓練網格和2,468個測試網格，從中采樣點。ScanObjectNN是一個更具挑戰性的3D點云分類基準數據集，包含2,880個來自真實室內場景的遮擋物體，來自15個類別。我們遵循[Qi et al., 2017a,b]的設置進行微調。對于PointNet，我們使用Adam優化器，初始學習率為1e-3，每20個epoch衰減0.7，最小值為1e-5。對于DGCNN，我們使用SGD優化器，動量為0.9，權重衰減為1e-4。學習率從0.1開始，使用余弦退火衰減到1e-3。我們在全連接層前應用dropout，PointNet的dropout率為0.7，DGCNN為0.5。我們訓練所有模型200個epoch，batch大小為32。

對于細粒度3D識別任務的部分分割，我們使用ShapeNetPart[Yi et al., 2016]，它包含16,881個物體，2,048個點來自16個類別，共50個部分。與PointNet[Qi et al., 2017a]類似，我們采樣2,048個點。對于PointNet，我們使用Adam優化器，初始學習率為1e-3，每20個epoch衰減0.5，最小值為1e-5。對于DGCNN，我們使用SGD優化器，動量為0.9，權重衰減為1e-4。學習率從0.1開始，使用余弦退火衰減到1e-3。我們訓練模型250個epoch，batch大小為16。

對于點云補全任務，我們使用標準Transformer編碼器和SnowflakeNet[Xiang et al., 2021]中的強大Transformer-based解碼器。我們在點云補全基準上微調模型200個epoch。

Table 15: Point cloud completion on PCN in terms of L2 Chamfer distance x10? (lower is better)

Table 16: Point cloud completion performance on MVP dataset in terms of F-Score@1% (higher is better).

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

Original Abstract: Recent advances in multi-modal pre-training methods have shown promising
effectiveness in learning 3D representations by aligning multi-modal features
between 3D shapes and their corresponding 2D counterparts. However, existing
multi-modal pre-training frameworks primarily rely on a single pre-training
task to gather multi-modal data in 3D applications. This limitation prevents
the models from obtaining the abundant information provided by other relevant
tasks, which can hinder their performance in downstream tasks, particularly in
complex and diverse domains. In order to tackle this issue, we propose MMPT, a
Multi-modal Multi-task Pre-training framework designed to enhance point cloud
understanding. Specifically, three pre-training tasks are devised: (i)
Token-level reconstruction (TLR) aims to recover masked point tokens, endowing
the model with representative learning abilities. (ii) Point-level
reconstruction (PLR) is integrated to predict the masked point positions
directly, and the reconstructed point cloud can be considered as a transformed
point cloud used in the subsequent task. (iii) Multi-modal contrastive learning
(MCL) combines feature correspondences within and across modalities, thus
assembling a rich learning signal from both 3D point cloud and 2D image
modalities in a self-supervised manner. Moreover, this framework operates
without requiring any 3D annotations, making it scalable for use with large
datasets. The trained encoder can be effectively transferred to various
downstream tasks. To demonstrate its effectiveness, we evaluated its
performance compared to state-of-the-art methods in various discriminant and
generative applications under widely-used benchmarks.

PDF Link: 2507.17533v1

3. VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings

Authors: Ramin Giahi, Kehui Yao, Sriram Kollipara, Kai Zhao, Vahid Mirjalili, Jianpeng Xu, Topojoy Biswas, Evren Korpeoglu, Kannan Achan

Deep-Dive Summary:

VL-CLIP：通過視覺定位和LLM增強的CLIP嵌入提升多模態推薦

Ramin Giahi
Walmart Global Tech
Sunnyvale, CA, USA
ramin.giahi@walmart.com

Kehui Yao*
Walmart Global Tech
Bellevue, WA, USA
kehui.yao@walmart.com

Sriram Kollipara
Walmart Global Tech
Sunnyvale, CA, USA
sriram.kollipara@walmart.com

Kai Zhao*
Walmart Global Tech
Sunnyvale, CA, USA
kai.zhao@walmart.com

Vahid Mirjalili*
Walmart Global Tech
Sunnyvale, CA, USA
vahid.mirjalili@walmart.com

Jianpeng Xu
Walmart Global Tech
Sunnyvale, CA, USA
jianpeng.xu@walmart.com

Topojoy Biswas
Walmart Global Tech
Sunnyvale, CA, USA
topojoy.biswas@walmart.com

Evren Korpeoglu
Walmart Global Tech
Sunnyvale, CA, USA
ekorpeoglu@walmart.com

Kannan Achan
Walmart Global Tech
Sunnyvale, CA, USA
kannan.achan@walmart.com

摘要

多模態學習在當今的電子商務推薦平臺中發揮關鍵作用，能夠實現準確的推薦和產品理解。然而，現有的視覺-語言模型，如 CLIP，在電子商務推薦系統中面臨幾個關鍵挑戰：1) 弱對象級對齊，全球圖像嵌入無法捕獲細粒度的產品屬性，導致檢索性能不佳；2) 模糊的文本表示，產品描述往往缺乏上下文清晰度，影響跨模態匹配；3) 領域不匹配，通用的視覺-語言模型可能無法很好地泛化到電子商務特定數據。為解決這些限制，我們提出一個框架 VL-CLIP，通過整合視覺定位來增強 CLIP 嵌入，以實現細粒度的視覺理解，并使用 LLM 代理生成豐富的文本嵌入。視覺定位通過定位關鍵產品來細化圖像表示，而 LLM 代理通過消除歧義來增強文本特征。我們在美國的最大電子商務平臺之一上，對數千萬個商品進行了實驗，驗證了該框架在準確性、多模態檢索有效性和推薦準確性方面的提升，提高了點擊率 (CTR) 18.6%、添加購物車率 (ATC) 15.5% 和總商品價值 (GMV) 4.0%。額外的實驗結果顯示，我們的框架在精度和語義對齊方面優于其他視覺-語言模型，包括 CLIP、FashionCLIP 和 GCL，展示了結合對象感知視覺定位和 LLM 增強文本表示的潛力，用于穩健的多模態推薦。

CCS 概念

· 信息系統 —> 推薦系統；用戶和交互式檢索。

關鍵詞

多模態學習、電子商務、CLIP、視覺定位、大語言模型、圖像-文本表示、檢索、AI 用于推薦

ACM 參考格式

Ramin Giahi, Kehui Yao, Sriram Kollipara, Kai Zhao, Vahid Mirjalili, Jianpeng Xu, Topojoy Biswas, Evren Korpeoglu, Kannan Achan. VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings. In Proceedings of the Nine-22-26, 2025, Prague, Czech Republic. ACM, New York, NY, USA, 19 pages. https://doi.org/10.1145/3705328.3748064

1 引言

電子商務平臺徹底改變了消費者與產品的互動方式，提供廣泛的產品目錄，以滿足多樣化的偏好。隨著產品數量呈指數級增長，提供高度相關的個性化推薦變得越來越復雜。消費者經常依賴多模態互動——使用文本查詢和圖像組合進行搜索——來找到他們想要的產品。因此，提高多模態表示學習對于提升搜索準確性、推薦質量和整體用戶體驗至關重要 [34]。

最近的視覺-語言模型進展顯著改善了跨模態檢索。特別是 CLIP [23]，它通過對比學習在共享嵌入空間中對齊圖像和文本表示。盡管取得了成功，但 CLIP 在電子商務場景中存在幾個限制。

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

首先，CLIP 對圖像進行全局處理，無法捕獲細粒度的產品屬性，這些屬性對于區分視覺相似但語義不同的物品至關重要。例如，兩個手提包在全局嵌入空間中可能看起來幾乎相同，即使其中一個有獨特的紋理或扣設計。這種弱對象級對齊導致了在大型電子商務平臺上的次優檢索性能。

另一個主要挑戰是文本表示的模糊性。電子商務目錄中的產品描述在質量和一致性上差異很大。有些描述過于冗長，包含無關信息，而有些則過于簡略，缺少關鍵細節。CLIP 的文本編碼器難以處理這些不一致性，尤其是在長文本描述中，導致文本和視覺表示之間的語義對齊較差。沒有結構化和豐富的文本輸入，CLIP 可能誤解產品意圖，從而降低多模態檢索的準確性。

此外，現有的多模態模型通常在通用數據集（如 LAION-400M [25]）上訓練，這些數據集包含廣泛的圖像-文本對。雖然這種訓練范式支持廣泛的零樣本學習，但當應用于電子商務時，也會引入顯著的領域不匹配。產品圖像通常包含受控背景、專業照明或生活方式描繪，這些與開放域數據集中的多樣化、嘈雜圖像不同。因此，預訓練模型無法有效泛化到電子商務特定數據，需要領域適應策略 [14]。

為了克服這些限制，我們提出一個新框架，通過兩個關鍵創新來增強 CLIP 嵌入：(1) 整合視覺定位以實現細粒度的對象定位，以及 (2) 使用大語言模型 (LLM) 來細化文本嵌入。視覺定位 [15] 使 CLIP 的視覺編碼器能夠專注于圖像中最相關的區域，從而改善對象級對齊。

在文本方面，我們使用 LLM 代理來豐富產品描述，通過生成結構化、語義上有意義的文本表示來消除噪聲并注入領域特定知識。這種增強緩解了 CLIP 在處理模糊文本時的困難，并確保圖像-文本對齊更穩健、準確和上下文感知。

圖 1 展示了我們的方法在視覺和文本推薦中的有效性。在圖 1 (a) 中，傳統方法基于類別相似性，往往忽略細粒度的視覺一致性。相比之下，我們的視覺推薦系統通過視覺定位和增強 CLIP 嵌入，檢索視覺和語義上對齊的物品，從而改善推薦相關性。同樣，圖 1 (b) 突出了我們的模型如何提升電子商務搜索。傳統基于關鍵詞的搜索在處理復雜查詢（如 “帶有寵物圖案的地毯” 或 “錦緞絲綢床單”）時可能產生不一致結果。我們的模型有效地將文本查詢與最相關的視覺內容對齊，確保搜索結果在文本和視覺上都準確。這些改進驗證了我們的方法在捕獲細粒度細節和提供語義上有意義檢索方面的優勢，最終提升用戶體驗。

本文的貢獻有三方面：首先，我們引入了一個新多模態管道，整合視覺定位和 LLM 增強嵌入，以改善電子商務應用中的細粒度對齊；其次，我們開發了一個可擴展的檢索和排名系統，能夠高效處理大規模產品目錄；第三，我們通過在 Walmart.com 上對數千萬個物品進行的廣泛實驗，驗證了我們的方法在檢索準確性、推薦質量和整體系統性能方面相對于現有最先進多模態模型的顯著提升。

本文的其余部分組織如下。第 2 節討論了多模態學習、視覺-語言模型和電子商務推薦系統的相關工作。第 3 節描述了我們提出的框架，詳細說明了圖像和文本表示的增強。第 4 節呈現了實驗結果，包括比較評估和消融研究。第 5 節總結全文。

2 相關工作

多模態學習長期以來一直是活躍的研究領域。預訓練視覺-語言模型的進展使之應用于各種領域，如醫療 [9, 20]、金融 [7]、社交網絡 [1, 22]、搜索引擎 [6, 31] 和電子商務 [10, 17]。基于 Transformer 的架構 revolutionized 多模態學習，通過自注意力機制和跨注意力機制將文本和視覺輸入整合到統一的潛在空間中，模型如 VL-BERT [26]、ViLBERT [16] 和 LXMERT [27] 奠定了穩健的視覺-語言推理基礎。隨后模型，包括 VisualBERT [11]、UNITER [3] 和 OSCAR [13]，進一步完善了這些能力，在多個基準上實現了最先進性能，并支持了泛化表示學習。

與注意力機制并行，Radford 等人引入了 CLIP [23] 模型，這是一種雙編碼器方法，在大量嘈雜的圖像-文本數據上訓練。它展示了在各種視覺-語言任務上的穩健性能，使用對比學習機制直接在共享空間中對齊視覺和文本嵌入，從而實現了令人印象深刻的零樣本檢索能力。許多工作擴展了 CLIP，通過擴展數據 [4]、改進數據整理 [4, 24]、改變輸入 [8, 28]、細化損失函數或對齊策略 [18, 29]、適應新任務 [21, 32]、排名 [33] 和領域適應 [5, 12]。

基于 CLIP 的能力，我們微調其雙編碼器架構以適應電子商務領域，其中多模態檢索對于匹配文本查詢和產品圖像至關重要。我們的方法利用包含嘈雜和多樣化圖像-文本對的領域特定數據集，這是在電子商務平臺的標志。我們通過定制 CLIP 以處理電子商務特定挑戰，旨在實現優越的對齊和檢索性能，最終改善搜索和推薦系統的客戶體驗。

3 方法論

在本節中，我們介紹 VL-CLIP，這是一個系統框架，用于微調 CLIP 模型以實現穩健的圖像-文本對齊。它整合了先進的視覺-語言技術，包括三個階段：1) 使用視覺定位進行圖像區域細化，2) LLM 驅動的文本查詢合成，以及 3) 與 CLIP 優化的對比訓練。下面，我們對每個組件進行全面分解，包括實現細節和設計理由。這種穩健方法解決了數據噪聲、領域特定對齊和可擴展性的挑戰。所有數學公式都總結如下。

3.1 圖像區域細化使用視覺定位

為了專注于產品相關區域，我們使用了 GroundingDINO (GD)——一個零樣本對象檢測模型，通過文本提示對齊視覺區域 [15]。對于每張圖像，從產品元數據中提取的產品類型（例如，“連衣裙”、“背包”）用作文本提示，以生成候選框和置信度分數。選擇得分最高的框，并對其區域進行裁剪和調整大小。如果沒有框超過置信度閾值，則保留原始圖像，以避免丟失關鍵上下文。視覺定位利用語義文本提示確保精確定位產品中心區域，減少無關背景（如工作室道具）的噪聲。為了增強對產品相關視覺元素的關注，我們采用以下步驟細化圖像輸入：

給定圖像 $I$ ，GroundingDINO 生成一組 $N$ 個邊界框提案：

$B={b1,b2,…,bN}B=\{b_{1},b_{2},\ldots,b_{N}\}$

每個邊界框 $bi∈Bb_i \in B$ 與置信度分數 $s_i$ 相關聯：

$si=exp?(?image(vi)??text(P)/τDINO)∑j=1Nexp(?image(vj)??text(P)/τDINO)s_{i}=\frac{\exp(\phi_{\mathrm{image}}(v_{i})\cdot\phi_{\mathrm{text}}(P)/\tau_{\mathrm{DINO}})}{\sum_{j=1}^{N}\mathrm{exp}(\phi_{\mathrm{image}}(v_{j})\cdot\phi_{\mathrm{text}}(P)/\tau_{\mathrm{DINO}})}$

其中 $?image(vi)\phi_{\mathrm{image}}(v_i)$ 和 $?text(P)\phi_{\mathrm{text}}(P)$ 表示 GroundingDINO 的圖像區域 $v_i$ 和文本提示 $P$ 的編碼器， $τDINO\tau_{\mathrm{DINO}}$ 是溫度參數， $s_i$ 表示 $b_i$ 是最相關區域的概率。選擇置信度最高的邊界框 $b^*$ 使用：

$i?=arg?max?i∈{1,...,N}sii^{*}=\arg\max_{i\in\{1,...,N\}}s_{i}$

如果 $b_i^*$ 的置信度分數低于預定義閾值 $TthreshT_{\text{thresh}}$ ，則保留完整圖像：

Figure placeholder for equation

其中 $Crop(I,bi?)\text{Crop}(I, b_i^*)$ 根據選定的邊界框提取產品中心區域， $IcropI_{\text{crop}}$ 是最終細化圖像輸入。一旦獲得細化圖像 $IcropI_{\text{crop}}$ ，將其傳遞通過：

$v=?CLIP?image(Icrop)∣∣?CLIP?image(Icrop)∣∣v=\frac{\phi_{\mathrm{CLIP-image}}(I_{\mathrm{crop}})}{||\phi_{\mathrm{CLIP-image}}(I_{\mathrm{crop}})||}$

其中 $v$ 是歸一化圖像嵌入。通過利用視覺定位進行區域細化，我們確保提取的嵌入捕獲細粒度的產品屬性，從而改善多模態檢索中的對齊。

3.2 LLM 驅動的文本查詢合成

為了改善多模態檢索中的文本表示，我們引入了一個 LLM 驅動的文本細化過程。該過程通過生成結構化且語義豐富的查詢來增強產品描述，從而更好地與視覺特征對齊。該方法包括三個主要組件：總結、評估和細化。

Figure 2: VL-CLIP model architecture

給定原始文本輸入，包括結構化和非結構化產品信息，我們首先構建一個初始的連接元數據表示 $tconcatt_{\text{concat}}$ 。 $tconcat=[tp∣∣tg∣∣traw∣∣tin-context]t_{\text{concat}} = [t_p \, || \, t_g \, || \, t_{\text{raw}} \, || \, t_{\text{in-context}}]$ ，其中 $t_p$ 表示產品類型（例如，“T 恤”、“手提包”）， $t_g$ 表示年齡和性別屬性（如果適用）， $trawt_{\text{raw}}$ 表示原始產品標題和描述， $tin-contextt_{\text{in-context}}$ 包含少樣本示例，用于指導 LLM 在模糊情況下的行為。此連接信息由 LLM 基于總結器總結，形成初始查詢 $qinit=Summarizer(tconcat)q_{\text{init}} = \text{Summarizer}(t_{\text{concat}})$ 。

考慮到 LLM 的強大少樣本能力 [2]，我們利用一組專門設計來處理 $tin-contextt_{\text{in-context}}$ 中 LLM 錯位的場景的少樣本示例。這允許我們強化期望行為并改善性能，同時保持模型的泛化性。

接下來，我們使用兩個專門的 LLM 基于模塊——評估器和細化器——對初始查詢進行迭代細化。

讓 $Evaluator(q,tconcat)\text{Evaluator}(q, t_{\text{concat}})$ 是一個基于 LLM 的函數，根據以下標準評估查詢 $q$ 的質量：

(1) 屬性一致性：確保查詢反映輸入中的屬性。例如，如果 $q$ 指定顏色為紅色，該標準評估 $tconcatt_{\text{concat}}$ 是否包含顏色屬性且確實為紅色。
(2) 簡潔性：將查詢長度限制在 10-20 詞，同時保留含義。
(3) 與視覺數據的對齊：僅保留可視屬性。例如，如果 $tconcatt_{\text{concat}}$ 提到 T 恤是“條紋和速干的”，則僅保留“條紋”，因為它是可視的，而排除“速干”作為非視覺功能屬性。

評估器輸出一個細化建議或特殊令牌。讓 $Refiner(q,e)\text{Refiner}(q, e)$ 是一個基于 LLM 的函數，使用當前查詢 $q$ 和評估器的反饋 $e$ 生成細化查詢。我們將迭代 $i$ 中的評估器輸出和細化查詢分別記為 $e_i$ 和 $q_i$ 。

從 $qinitq_{\text{init}}$ 作為 $q^0$ 開始，在每個迭代 $i$ (1 ≤ i ≤ $imaxi_{\text{max}}$ ) 中，評估器首先評估前一個迭代的查詢 $q_{i-1}$ 并提供反饋 $ei=Evaluator(qi?1,tconcat)e_i = \text{Evaluator}(q_{i-1}, t_{\text{concat}})$ 。如果評估器指示無需進一步改進（通過返回），則迭代細化過程終止，并使用 $qi=Refiner(qi?1,ei,tconcat)q_i = \text{Refiner}(q_{i-1}, e_i, t_{\text{concat}})$ 。我們經驗性地設置 $imax=5i_{\text{max}} = 5$ ，因為這提供了足夠的收斂迭代，同時保持計算效率。

迭代細化結束后，我們獲得最終查詢 $qfinalq^{\text{final}}$ ，通過文本編碼器 $?T\phi_T$ 在語義空間中生成適合多模態檢索的歸一化嵌入向量 $t$ ：

$t=?CLIP?text(qfinal)∣∣?CLIP?text(qfinal)∣∣t=\frac{\phi_{\mathrm{CLIP-text}}(q^{\mathrm{final}})}{||\phi_{\mathrm{CLIP-text}}(q^{\mathrm{final}})||}$

其中 $t$ 表示用于與圖像嵌入匹配的歸一化文本嵌入。通過采用這種 LLM 驅動的合成方法，文本表示變得更結構化、更與視覺對齊，并適應領域，從而最終提升多模態檢索系統的性能。該迭代循環如圖 3 所示，體現了自反和自糾機制。

Figure 3: Visualization of product summary generator

總結器、評估器和細化器的提示在附錄 C.1 中提供。

3.3 CLIP 的對比微調

為了在共享語義空間中對齊圖像和文本嵌入，我們微調 CLIP，以克服通用模型的限制。我們采用對稱對比損失函數，最大化匹配圖像-文本對的相似性，同時最小化不匹配對的相似性，從而確保跨模態的穩健對齊。微調的 ViT-B/32 處理裁剪圖像，而基于 Transformer 的文本編碼器細化 LLM 增強查詢。兩者產生 512 維嵌入，針對電子商務特定檢索任務進行優化。訓練涉及多個周期，利用領域特定增強來實現檢索和分類任務的更高精度。該損失函數為：

$LCLIP=?12N∑i=1N[log?evi?ti/τ∑j=1Nevi?tj/τ+log?eti?vi/τ∑j=1Neti?vj/τ]\mathcal{L}_{\mathrm{CLIP}}=-\frac{1}{2N}\sum_{i=1}^{N}\left[\log\frac{e^{v_{i}\cdot t_{i}/\tau}}{\sum_{j=1}^{N}e^{v_{i}\cdot t_{j}/\tau}}+\log\frac{e^{t_{i}\cdot v_{i}/\tau}}{\sum_{j=1}^{N}e^{t_{i}\cdot v_{j}/\tau}}\right]$

其中 $τ\tau$ 是對比損失的溫度。我們在附錄 C 中的算法 1 中總結了 VL-CLIP 訓練的步步過程。

3.4 在線部署和可擴展性

在本節中，我們介紹了我們的管道以及如何在 Walmart 的電子商務平臺上對數千萬購物物品進行大規模部署。該生產推理管道結合了多模態處理、高效索引和可擴展檢索，以為電子商務應用提供推薦。以下詳細說明每個組件、其可擴展性和在系統中的作用。

3.4.1 圖像和文本預處理。我們使用感知哈希 (pHash) [30]，這是一種生成緊湊且穩健的圖像哈希表示的技術，可生成對縮放和壓縮不變的指紋。通過感知哈希技術對圖像進行哈希，以識別和移除重復項，減少目錄中的冗余。去重后，圖像通過視覺定位處理以裁剪產品中心區域。這減少了由背景變化（如同一件連衣裙在不同人體模型上）引起的假陽性。視覺定位使用元數據派生的提示（如“手提包”）動態裁剪產品中心區域。

3.4.2 層次可導航小世界 (HNSW) 索引。嵌入使用 HNSW [19] 進行索引，這是一種基于圖的近似最近鄰 (ANN) 算法，針對高召回率和低延遲進行了優化。層次圖結構允許對數時間搜索復雜度。將元數據（如產品類型）與裁剪圖像融合，創建統一數據集。這確保檢索同時考慮視覺和上下文信號。為了處理大規模電子商務數據，我們維護一個圖像嵌入數據庫。在多個配備 T4 GPU 的機器上分配工作負載。

3.4.3 檢索和配對排名。對于查詢嵌入 $e$ ，HNSW 索引使用余弦相似度檢索前 $k$ 候選。我們優化過程，通過基于產品類型分組物品并為每個組構建單獨索引。

3.4.4 可擴展性。該架構已在 Walmart 的電子商務平臺上全面部署，支持實時推薦和多模態檢索。該管道無縫整合數據預處理、嵌入生成和檢索。這些優化減少了搜索空間和內存使用，同時保持質量。pHash 提高了 MRR 7.2%；基于產品類型的 HNSW 索引提高了 Precision@1 9% 并將延遲減少 81%，相比 IVF 索引。附錄 D 中的算法 2 顯示了推理過程。

4 實驗

4.1 數據準備

數百萬產品圖像和元數據（如描述、標題、屬性）來自廣泛的電子商務目錄。該多樣化數據集包括服裝和家居用品，確保類別的全面表示。每個樣本包括產品圖像（可能高質量，但可能包含 distracting 元素，如真實場景或生活方式場景），以及文本元數據，包括結構化屬性（產品類型、性別、年齡組）和非結構化數據（標題、描述）。

我們采用以下預處理步驟清潔輸入數據：1) 圖像歸一化：調整圖像大小并使用 CLIP 的預處理管道歸一化， $Inorm=Iresized?μI_{\text{norm}} = I_{\text{resized}} - \mu$ ，其中 $μ\mu$ 和 $σ\sigma$ 是通道-wise 均值和標準差。2) 文本凈化：移除 HTML 標簽、特殊字符和冗余關鍵詞。保留描述性關鍵詞，同時排除噪聲（如“免費 shipping”），產生語義豐富的輸入。3) 類別平衡：分層采樣確保產品類型的比例表示，以緩解偏差。我們使用 Walmart.com 的時尚和家居類別中的 700 萬產品微調 VL-CLIP 模型，如圖 2 所述。我們在包含時尚和家居物品的數據集上評估模型。為確保多樣性，我們跨不同產品類型（如 T 恤、連衣裙和咖啡桌）等采樣物品，結果為時尚 10 個產品類型和家居 7 個，總計 17 個產品類型。總共，我們獲得時尚類別 10,000 個樣本和家居類別 10,000 個樣本用于評估。

4.2 評估指標

VL-CLIP 的性能與現有方法（如 CLIP [23]、GCL [33] 和 FashionCLIP [5]）在 Walmart 數據上的多模態檢索任務進行比較。CLIP 是一個基礎模型，通過對比學習從大規模圖像-文本對學習聯合表示 [23]。GCL 是一個對比學習框架的泛化，整合排名信息和多個輸入字段 [33]。FashionCLIP 是 CLIP 的專門適應，針對時尚領域設計，利用細粒度注釋和領域特定特征 [5]。

我們使用兩個標準指標測量檢索性能：

· HITS@ k：報告查詢中正確物品位于前 k 結果的比例。對于 N 個查詢，每個查詢 i 有 ground-truth 正確物品 $c_i$ 。根據相似性分數排名后，讓 rank( $c_i$ ) 是 $c_i$ 的位置。 $\frac{1}{N} \sum I(\text{rank}(c_i) \leq k)$ ，其中 I 是指示函數。在我們的評估中，使用 HITS@5。

· 平均倒數排名 (MRR)：對于查詢 i，如果正確物品 $c_i$ 排名為 rank( $c_i$ )，其倒數排名為 $RRi=1/rank(ci)RR_i = 1 / \text{rank}(c_i)$ 。MRR 是這些倒數排名的平均值，該指標特別青睞列表中排名較高的正確物品。

4.3 檢索結果

表 1 展示了 CLIP、GCL、FashionCLIP 和我們提出的 VL-CLIP 在時尚和家居數據集上的 HITS@5 和 MRR 指標。CLIP 作為基線，顯示出適度的檢索能力（時尚 HITS@5 為 0.3080，家居為 0.2355），可能是因為其全球嵌入難以捕獲細粒度產品屬性。多模態檢索任務涉及基于文本描述從給定集合中識別最相關圖像。例如，在產品檢索場景中，目標是將產品描述與其對應圖像匹配。

GCL 通過整合排名信息，實現更高指標（時尚 HITS@5 為 0.3992，家居為 0.3104）。然而，僅依賴排名信息無法完全解決產品圖像和文本描述中的領域特定細微差別。

FashionCLIP 通過針對時尚優化的領域適應策略，進一步改善性能（時尚 HITS@5 為 0.4428，家居為 0.4227）。這允許模型更好地編碼風格和設計元素。

VL-CLIP 在兩個數據集上實現最高的檢索準確性和排名質量（時尚 HITS@5 為 0.6758 和 MRR 為 0.5252，家居為 0.6692 和 0.5100）。通過整合局部對象級定位和 LLM 增強文本嵌入，VL-CLIP 更有效地捕獲關鍵產品細節并解決模糊文本描述。

Table 1 placeholder

4.4 消融研究

為了深入了解 VL-CLIP 框架中每個組件的作用，我們進行消融研究，通過消除關鍵模塊（視覺定位和 LLM 基于查詢細化）并評估其對檢索性能的影響。

表 2 總結了消融分析結果。完整的 VL-CLIP 模型實現最高性能（HITS@5 為 0.6758 和 MRR 為 0.5252）。移除視覺定位導致時尚和家居類別中 HITS@5 和 MRR 平均下降 15.34% 和 11.23%，證明了背景移除和關注主要物品的重要性。此外，移除 LLM 基于查詢細化步驟導致額外下降（相比缺少視覺定位的模型，HITS@5 下降 7.40%，MRR 下降 5.32%），表明細化文本查詢通過提供更清晰、更精確的描述改善了檢索準確性。該消融研究突顯了視覺定位和 LLM 基于查詢增強在提升檢索有效性中的關鍵作用。

Table 2 placeholder

4.5 零樣本分類

除了信息檢索和消融測試，我們還進行了零樣本分類任務。我們執行了兩個時尚物品屬性分類任務：領口分類和圖案分類。對于領口分類，我們手動選擇了 1,000 個時尚物品，每個屬于以下類別：V 領、圓領、挖領、Henley 領、模擬領和船領。我們使用零樣本分類方法，為每個類生成描述性文本（如“帶有挖領的 T 恤”），并通過文本編碼器傳遞。然后，通過比較圖像嵌入與這些文本嵌入找到最近匹配，從而確定預測類。同樣，對于圖案分類，我們使用以下類別：“純色”、“卡通人物”、“心形符號”和“花卉印花”。

表 3 呈現了兩個分類任務的模型準確性。VL-CLIP consistently 優于其他模型，使其成為時尚屬性零樣本分類的最可靠選擇。其優越性能歸功于視覺定位的去噪能力和 LLM 細化查詢，提升了文本-圖像對齊質量。

4.6 VLM-Agent Evaluation

由于文本和圖像信息的對齊非常主觀，我們采用VLM代理進行評估。我們的評估包括兩個檢索任務：基于查詢的檢索和類似物品推薦。基于查詢的檢索特別針對細粒度的產品屬性，以確保準確檢索細微的產品特性。例如，“Teal floral print blouse”是在尋找匹配顏色和圖案特性的物品；“Beige V-neck short-sleeve T-shirt”是在尋找顏色、領型和袖型特性的物品。對于基于查詢的評估，每個查詢對應的檢索圖像與查詢配對，并傳遞給VLM。VLM模型被要求評估提供的圖像是否準確匹配給定查詢，輸出二進制結果：0（不匹配）或1（匹配）。同樣，對于類似物品評估，檢索圖像與錨點圖像配對，VLM被要求評估兩幅圖像在視覺特性方面是否匹配。我們使用VLM-as-judge評估框架來評估方法的有效性。關于自動查詢生成和VLM評估過程的更多細節，請參閱附錄E。

表4展示了Walmart.com電子商務數據集上基于查詢的檢索性能和類似物品推薦性能。性能使用Precision@1、3、5報告。結果顯示，我們的VL-CLIP模型比基準模型（如CLIP、FashionClip和GCL）表現更好。請注意，VL-CLIP的最高值出現在Precision@1，并逐漸下降到Precision@3和Precision@5。這種模式表明，其排名最高的物品幾乎總是相關的，而后續位置雖然相關，但相關性略低。相比之下，像CLIP這樣的模型有時顯示出相反的模式——Precision@1低于Precision@5——表明其頂級推薦 nem總是最佳匹配，盡管它們在較低排名位置包括相關物品。基于查詢和類似物品（SI）推薦任務的示例請參閱附錄B。

這些改進歸功于Visual Grounding和LLM在完善檢索過程中的互補作用。Visual Grounding幫助模型關注圖像中的主要物品，過濾背景干擾，并強調細粒度的產品屬性。同時，LLM通過使查詢更結構化和與真實用戶意圖對齊，從而提升查詢質量。這些增強共同實現了更準確地檢索匹配特定屬性查詢的產品。

4.7 Computation Efficiency

VL-CLIP是在Walmart.com時尚和家居類別中的數百萬產品上進行微調的。使用分層采樣方法確保了超過500種產品類型的多樣化比例表示。VL-CLIP在6個周期內實現了穩健的電子商務檢索性能，并在提前停止前表現良好（見圖4）。模型在視覺和文本嵌入之間顯示出強烈的對齊，驗證集的對比損失從0.38穩步減少到0.28。

Figure 4: The validation loss and Recall@10 over epochs

檢索性能通過Recall@10衡量，表示模型在47%的查詢中有效識別了前10個結果中的相關物品。訓練超過這個點會導致Recall@10的輕微下降，表明過度擬合到噪聲對或學習能力的飽和。這突顯了提前停止的重要性，第6個周期是部署的最佳檢查點。這些結果驗證了我們結合Visual Grounding、LLM和對比損失的管道在可擴展電子商務推薦系統中的有效性。

4.8 Cross-Domain Generalization

為了評估VL-CLIP的泛化能力，我們在公共Google Shopping數據集上進行零樣本評估。該數據集跨越各種電子商務類別，為測試模型在無需額外微調的情況下向新領域轉移知識的能力提供了穩健基準。它專為訓練和基準細粒度排名任務的多模態檢索模型而設計。如表5和表6所示，VL-CLIP在該新數據集上 consistently優于其他模型。

我們進一步在Walmart.com的Art和Toys類別上評估零樣本性能，VL-CLIP再次比其他模型取得優越結果。這些發現突顯了模型對新型產品領域的強大轉移能力（見附錄F）。

Table 6: VLM-evaluation results of query-based retrieval andsimilar item recommendation on Google Shopping dataset

4.9 Online A/B Test

為了驗證VL-CLIP模型的有效性，我們在美國兩大電子商務平臺之一上進行大規模A/B測試。實驗將我們的VL-CLIP與部署的基準模型進行比較。測試持續四周，涉及數百萬用戶交互和各種產品類別。評估的關鍵指標包括：點擊通過率（CTR）、添加至購物車率（ATC）和總商品價值（GMV）。

表7突顯了我們的系統相對于基準模型的相對改進。在線A/B測試驗證了VL-CLIP的有效性，顯示CTR增加了18.6%，ATC率增加了15.5%，GMV提升了4%，這突顯了VL-CLIP的實際功效。這些結果突顯了VL-CLIP在理解用戶意圖和使推薦與用戶偏好對齊方面的性能。

我們在圖5中展示了一些案例研究。第一列是錨點物品，其余是基于VL-CLIP的前五個推薦物品。在圖5(a)中，錨點物品是綠色花朵中長裙。VL-CLIP檢索了類似風格的裙子，捕捉了圖案和長度的變化，同時保持整體美學。圖5(b)中的物品是黑色裹身式長袖裙。VL-CLIP推薦了具有類似袖長和結構輪廓的物品，關注顏色和風格。圖5?、(d)和(e)展示了VL-CLIP的強大時尚理解能力。更多案例研究請參閱附錄B中的圖6-8。

5 Conclusion and Future Work

在本研究中，我們通過引入VL-CLIP框架解決了電子商務多模態表示學習的關鍵挑戰，該框架集成了Visual Grounding用于視覺表示增強和LLM增強的文本嵌入。VL-CLIP在電子商務數據集上展示了比最先進基準模型優越的性能。具體而言，HITS@5在Home數據集上提高了184.16%，在Fashion數據集上提高了119.42%。此外，LLM評估結果表明，基于查詢的檢索提高了62.66%，類似物品推薦提高了12.71%。在線A/B測試進一步驗證了VL-CLIP的有效性，顯示CTR增加了18.6%，ATC率增加了15.5%，GMV提升了4%，突顯了VL-CLIP的實際功效。在Walmart.com上部署VL-CLIP突顯了其可擴展性和現實影響。該框架的層次索引和分布式計算管道高效處理了數百萬目錄物品。

VL-CLIP: Enhancing Multimodal Recommendations via Multimodal Recommendations viaVisual Grounding and LLM-Augmented CLIP Embeddings: -Augmented CLIP Embeddings:Appendix

Ramin Giahi*Walmart Global TechSunnyvale, CA, USAramin.giahi@walmart.com

Kehui Yao *Walmart Global TechBellevue, WA, USAkehui.yao@walmart.com

Sriram Kollipara* 米Walmart Global TechSunnyvale, CA, USAsriram.kollipara@walmart.com

Kai Zhao* *Walmart Global TechSunnyvale, CA, USAkai.zhao@walmart.com

Vahid MirjaliliWalmart Global TechSunnyvale, CA, USAvahid.mirjalili@walmart.com

Jianpeng XuWalmart Global TechSunnyvale, CA, USAjianpeng.xu@walmart.com

Topojoy BiswasWalmart Global TechSunnyvale, CA, USAtopojoy.biswas@walmart.com

Evren KorpeogluWalmart Global TechSunnyvale, CA, USAekorpeoglu@walmart.com

Kannan AchanWalmart Global TechSunnyvale, CA, USAkannan.achan@walmart.com

A Nomenclature

本節呈現了命名表，包括貫穿論文中使用的數學符號的定義和解釋。

B Visualization for Query-based retrieval andSimilar item recommendation task

本節呈現了時尚和家居物品的基于查詢的檢索和類似物品推薦（SI）任務的可視化。圖6、7和8展示了基于文本查詢和錨點圖像的頂級檢索結果。

在圖6和7中，每行第一列是文本查詢，其余列是前5個推薦產品。時尚查詢范圍從特定服裝類型（如“ankara dress”“UCLA football t-shirt”）到主題查詢如“mickey mouse for school”。家居相關查詢包括裝飾和家具物品，如“marble top coffee table with gold legs”和“stripe bed sheet”。結果反映了模型從文本中捕捉細粒度語義細節的能力。

圖8展示了家居產品的類似物品推薦，其中每個錨點圖像后跟視覺相似的物品。示例包括裝飾椅、花紋地毯、床罩和電視柜。推薦物品在材料、顏色方案和整體風格方面與錨點緊密匹配，突顯了模型在基于圖像的相似性檢索中的有效性。

這些示例共同展示了VL-CLIP在跨產品類別的多模態理解和視覺匹配方面的優勢。

query-based recommendations

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

圖8: 家居物品的類似物品推薦示例：第一列是錨點物品，其余是基于圖像相似性的前5個推薦物品。(a) 錨點圖像是現代白金裝飾椅。推薦物品共享類似的白調內飾和金色或金屬腿，保持當代優雅美學。(b) 錨點圖像是色彩鮮艷的幾何圖案地毯。推薦物品特征鮮艷的幾何或抽象圖案，與錨點在顏色和設計上相似。? 錨點圖像是淺藍色薄紗窗簾。推薦物品包括薄紗或半薄紗窗簾，具有花朵、植物或抽象圖案，保留柔和通風外觀。(d) 錨點圖像是帶有紅色和粉紅色玫瑰的花朵圖案床罩。檢索物品強調類似顏色的花朵圖案和復雜設計，保持舒適裝飾外觀。(e) 錨點圖像是帶有開放式架子和黑色金屬框架的木質電視柜。推薦物品特征類似工業或鄉村風格，結合木表面和黑色金屬元素用于結構支持和美學。

C Training Algorithm

算法1概述了構建VL-CLIP模型的逐步過程，包括構建圖像/文本對、定位、查詢細化和最終微調模型。

Algorithm 1 VL-CLIP Algorithm

“productName”: “Unique Bargains Women’s SleevelessHalterNeckBohoElasticWaistFloralMaxiSundressSBlack”,

“productLongDesc”: “Machine Wash Cold with LikeColors. Floral. Regular. Long. Sleeveless. Boho. 100%Polyester. Imported”,

“productShortDesc”: "This floral boho dress is madeof several design point: floral pattern,

halter,sleeveless, beach maxi dress. Styled with theearings, hand bag and high heels as your chic look!Floral Maxi Dress, Boho Dress, Halter Neck, ElasticWaist. Suit for summer and many occasion,such asbeach, party, vacation dating. MoDEL SHow: RegularFit. Wear in size Xs. Wash Cold with Like Color…'productType": “Dresses”

Sleevelesshalterneckfloralmaxisundresswithelastic waist, black, boho style.

<Evaluator iteration 1> 1> # Score: 4/5

Justification: The summary is concise and captureskey visual elements such as the sleeveless halterneck, floral pattern, maxi length, elastic waist, andboho style. However, the inclusion of the materialcomposition (100% polyester) is not visuallyobservable.

Suggestions:

Remove the information of [1oo% polyester].

<Refiner iteration 1> iteration 1>

Sleevelesshalterneckfloralmaxisundresswithelastic waist, black, boho style.

KEvaluatoriteration 2> # C.1 Agent Prompts

在本節中，我們在表9中列出了系統提示，在表10中列出了用戶提示。

C.2 LLM-Driven Textual Query SynthesisExamples

Score: 5/5

Justification: The summary is concise and captureskey visual elements such as the sleeveless halterneck, floral pattern, maxi length, elastic waist, andboho style. It also includes the color (black), whichis visually observable. No non-visual details areincluded, and the summary is less than 20 words.Suggestions: 5. Do nothing.

“productName”: “Caster Chair Company 7-Piece42x[42/60] Caster Dining Set Wood Edge Laminate TableTop & Desert Chairs”,

“productLongDesc”: “DURABLE AND STYLISH: This 7-piecediningsetfeaturesasolidoakwoodedgelaminatetable top with a steel base, paired with 6 casterchairs upholstered in desert polyurethane andoak-finished plywood arms. COMFORTABLE SEATING: The28"D x 23"w x 36"H caster chairs have a 360-degreeswivel and tilt mechanism, making it easy to move andadjust your seating position. Each chair has a weight.·…”.

'productShortDesc": "Introducing Frankie 7-PieceCaster Dining Set by Caster Chair Company \u2013 astunning combination of durability, style, andversatility! ",

'productType": “Dining Furniture Sets”

Summary>

Seven-piece dining set with oak wood edge laminatetable, steel base, and six desert polyurethane casterchairs with oak-finished arms.

<Evaluator iteration 1> iteration 1> # Score: 4/5

Justification: The summary is concise and captureskey visual elements such as the oak wood edge laminatetable, steel base, and desert polyurethane casterchairs with oak-finished arms. However, it couldinclude more specific details about the table’sextendable feature and the solid oak wood crowns onthe chair andtable bases.

Suggestions:

Add the information of [extendable bow-end tabletop] .
Add the information of [solid oak wood crowns onchairandtablebases].

<Refiner iteration 1>

Seven-piece dining set with extendable bow-end oakwood edge laminate table, steel base, and desertpolyurethane caster chairs with oak-finished arms andsolid oak wood crowns.

<Evaluator iteration 2> iteration 2> # Score: 4/5

Justification: The summary is concise and captureskey visual elements such as the extendable bow-end oakwood edge laminate table, steel base, and desertpolyurethane caster chairs with oak-finished arms andsolid oak wood crowns. However, it is slightly overthe word limit.

Suggestions:

Shorten the summary.

<Refiner iteration 2> iteration 2>

Seven-piecediningsetwithoakwoodedgelaminatetable, steel base, and desert polyurethane casterchairs with oak-finished arms.

Score: 5/5

Justification: The summary is concise and captureskey visual elements such as the oak wood edge laminatetable, steel base, and desert polyurethane casterchairs with oak-finished arms.No non-visual detailsare included, and the summary is less than 20 words.Suggestions: 5. Do nothing.

D Deployment Algorithm

本節描述了VL-CLIP框架的部署算法，包括可擴展處理、嵌入生成和使用HNSW索引的效率檢索步驟。

E VLM Evaluation Process

我們使用VLM-based評估框架評估我們在Walmart.com電子商務數據集上基于查詢的檢索方法的有效性。我們的方法遵循結構化管道，包括自動查詢生成和VLM-as-judge評估，如圖9所述。

E.1 Automated Query Generation

● 屬性提取：我們應用Vision-Language Model（VLM）從產品物品的隨機子集提取結構化屬性。給定輸入圖像，提取的屬性可以表示為

$A={(a1,v1),(a2,v2),…,(am,vm)}A=\{(a_{1},v_{1}),(a_{2},v_{2}),\ldots,(a_{m},v_{m})\}$

其中$ a_i $表示屬性類型（如 “ co l or ” ），$ v_i $是其值（如 “ b l u e ” 或 “ m u lt i co l or ” ）。提取的屬性被過濾以確保它們直接相關于圖像中的主要物品，從而得到$ A_{\text{filtered}} $。

· 使用產品數據中存在的細節。· 排除產品細節中未找到的信息。· 將摘要限制在20詞以內。· 僅關注可視可觀察屬性：顏色、紋理、形狀和材料。· 不包括測量、價格、品牌名稱或益處。· 提供一個最終精煉摘要，沒有額外評論。

Figure 9: Query-based evaluation process using VLM

· 查詢生成：我們利用LLM從提取的屬性生成搜索查詢。給定物品X的過濾屬性集$ A_{\text{filtered}} $，查詢由$ Q = \text{LLM}(A_{\text{filtered}}) $生成。例如，一個“T-shirt”產品具有屬性“sleeve_length” = “long sleeves”， “pattern_placement” = “front, center”，會被轉化為查詢：“T-shirt with long sleeves and Mickey Mouse pattern on front”。

這種結構化方法在數據集之間實現了公平比較，同時確保生成的查詢與真實搜索行為對齊。

E.2 VLM-as-judge Evaluation

● Top-K檢索：對于每個查詢，我們檢索前K結果，$ R_k $：

$R_{k}=\{I_{1},I_{2},...,I_{K}\}$

其中K=10。檢索物品基于其與查詢的相關性進行排名。

· 相關性評估：每個檢索圖像$ I_j $與其對應查詢配對，并由VLM（GPT-4o）測量相關性，分配二進制相關性分數：

用于此評估的提示列在表11中。

· 性能指標：我們計算Precision@k，其中k ∈ {1, 3, 5}。

$Precision@k=TPkk\text{Precision}@k = \frac{\text{TP}_k}{k}$

其中，TPk是前k中正確檢索的相關物品數量，k是檢索結果總數。

E.3 Similar Item Recommendation

我們還通過類似物品推薦任務評估模型性能，如下：

· 我們隨機選擇N個錨點物品，其中N=100。對于每個錨點，我們檢索前K推薦，其中K ∈ {1, 3, 5}。每個錨點與其推薦物品配對，并使用大型語言模型（GPT-4o）評估相似性。模型為每個錨點-推薦對分配二進制相關性分數（0或1），其中1表示對相似，0表示不相似。用于評估視覺相似性的特定提示在表11中提供。· 我們使用與基于查詢的檢索方法相同的性能指標。

表11顯示了用于VLM-as-Judge評估的提示。

Table 13: VLM-evaluation results on Walmart Art and Toycategories in zero-shot setting.

FCross-Domain Generalization F

為了評估我們的方法的泛化能力，我們將實驗擴展到原始領域之外，通過在零樣本設置下評估Walmart Art和Toys類別。

表12報告了Art和Toys類別的零樣本多模態檢索結果。我們觀察到VL-CLIP consistently優于其他模型，展示了其對新產品類型的強大轉移能力。

表13顯示了Walmart的Art和Toys類別的基于查詢的檢索和類似物品推薦的LLM-based評估。

Original Abstract: Multimodal learning plays a critical role in e-commerce recommendation
platforms today, enabling accurate recommendations and product understanding.
However, existing vision-language models, such as CLIP, face key challenges in
e-commerce recommendation systems: 1) Weak object-level alignment, where global
image embeddings fail to capture fine-grained product attributes, leading to
suboptimal retrieval performance; 2) Ambiguous textual representations, where
product descriptions often lack contextual clarity, affecting cross-modal
matching; and 3) Domain mismatch, as generic vision-language models may not
generalize well to e-commerce-specific data. To address these limitations, we
propose a framework, VL-CLIP, that enhances CLIP embeddings by integrating
Visual Grounding for fine-grained visual understanding and an LLM-based agent
for generating enriched text embeddings. Visual Grounding refines image
representations by localizing key products, while the LLM agent enhances
textual features by disambiguating product descriptions. Our approach
significantly improves retrieval accuracy, multimodal retrieval effectiveness,
and recommendation quality across tens of millions of items on one of the
largest e-commerce platforms in the U.S., increasing CTR by 18.6%, ATC by
15.5%, and GMV by 4.0%. Additional experimental results show that our framework
outperforms vision-language models, including CLIP, FashionCLIP, and GCL, in
both precision and semantic alignment, demonstrating the potential of combining
object-aware visual grounding and LLM-enhanced text representation for robust
multimodal recommendations.

PDF Link: 2507.17080v1

5. BetterCheck: Towards Safeguarding VLMs for Automotive Perception Systems

Authors: Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger

Deep-Dive Summary:

BetterCheck: 面向汽車感知系統的視覺語言模型安全保障

Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger
University of Gothenburg and Chalmers University of Technology
Gothenburg, Sweden
{malsha.mahawatta,beatriz.cabrero-daniel,christian.berger} @ gu.se, yinan @ chalmers.se

摘要

大型語言模型（LLMs）正日益擴展到處理多模態數據，例如文本和視頻。它們在理解圖像內容方面的表現已超越專用的神經網絡（如YOLO），后者僅支持有限的詞匯表，即可檢測的對象。在不受限制的情況下，LLMs，尤其是最先進的視覺語言模型（VLMs），在描述復雜交通情況方面表現出色，這使得它們可能成為汽車感知系統的潛在組件，以支持理解復雜交通或邊緣情況。然而，LLMs 和 VLMs 容易出現幻覺，即可能忽略真實存在的交通參與者（如易受傷害的道路使用者），或虛構不存在的交通參與者。前者可能導致先進的駕駛員輔助系統（ADAS）或自動駕駛系統（ADS）做出災難性決策，而后者可能導致不必要的減速。在本研究中，我們系統評估了 3 種最先進的 VLMs 在 Waymo Open 數據集的多樣子集上的性能，以支持檢測此類幻覺并為 VLM 支持的感知系統提供安全保障。我們觀察到，專有和開源 VLMs 都表現出卓越的圖像理解能力，甚至能注意人類難以察覺的細微細節。然而，它們仍容易在描述中虛構元素，因此需要如我們提出的 BetterCheck 等幻覺檢測策略。

I. 引言

如今，大型語言模型（LLMs）的采用已擴展到各種領域，包括教育、研究、制造和醫療等領域 [1]，[2]。如預訓練 Transformer（GPT）等 LLMs 的應用，在這些領域產生了積極影響，通過其出色的理解和生成能力開辟了新機遇 [1]。

A. 問題領域和動機

隨著現代車輛發展為智能的網絡物理系統（CPS）[3]，它們能夠容納強大的集中式處理單元和硬件加速器（如 GPU），執行專用的神經網絡（NNs）變得越來越可行，從而支持先進的駕駛員輔助系統（ADAS）和自動駕駛（AD）。這些高級功能使實時感知、決策、控制功能成為可能，甚至可以在本地運行 LLMs，而不依賴云基礎設施 [4]，[5]。

處理多模態數據的 LLMs 提供了計算機視覺和自然語言處理能力，當應用于理解圖像流時，被稱為視覺語言模型（VLMs）[6]。這些 VLMs 旨在理解視覺輸入（如圖像和視頻）并生成基于文本的響應。在圖像描述、視覺問答和多模態推理等任務中，VLMs 顯示出非凡的能力，展示了它們在汽車上下文中的感知和監控任務中的潛力 [7]。由于其出色的自然語言通信能力，它們還可以用作人機界面（HMI）來支持車內乘客，從而使車輛更易訪問和包容 [8]。

然而，由于 LLMs 可能產生的幻覺 [9]，此類 LLMs 輔助系統的可信度仍存疑。因此，在安全關鍵系統（如車輛）中使用 LLMs 時，必須設計包含 VLMs 的數據處理管道，并添加安全保障機制來檢測和緩解潛在幻覺。

B. 研究目標和研究問題

現有文獻提出了針對 LLMs 輔助任務的幻覺檢測策略。Manakul 等人 [10] 評估并擴展了 SelfCheckGPT 技術，用于識別 LLMs 在文本輸出中生成的不合理信息。Dona 等人 [7] 提出 SelfCheckGPT 的變體，用于檢測多模態上下文中的幻覺，特別是針對汽車應用。本研究的目的是確定適應后的 SelfCheckGPT 方法在不同最先進 LLMs 用于圖像描述和幻覺檢測時的性能，特別是關注 LLMs 在描述中忽略關鍵交通參與者的程度，從而影響 LLMs 輔助感知和監控系統的可信度。

RQ-1: 根據人類評估者意見，最先進 VLMs 在描述真實汽車視頻片段方面的質量如何？
RQ-2: 每個測試的 VLM 在虛構或忽略交通參與者的程度上如何？
RQ-3: 選定的 VLMs 在檢查自身結果方面的能力如何，從而丟棄可能包含幻覺或忽略關鍵交通參與者的描述？

C. 貢獻和范圍

我們系統評估了適應后的 SelfCheckGPT 幻覺檢測框架在不同 LLMs 組合下的性能，主要貢獻是擴展該框架以減少忽略潛在交通參與者的可能性，并系統評估 VLMs 作為描述者和檢查者的性能。

D. 論文結構

論文結構如下：第 II 節回顧現有的幻覺檢測和緩解策略；第 III 節概述實驗管道；第 IV 節討論結果和解釋；第 V 節進行分析和討論；第 VI 節總結并展望未來工作。

II. 相關工作

我們探討了 SelfCheckGPT [10] 的采用和使用場景，以識別現有文獻中的空白和限制，并審查選定的研究以了解其在汽車領域的適用性，特別是針對 LLMs 輔助感知系統。

最近，Sawczyn 等人 [11] 提出了基于 SelfCheckGPT 的幻覺檢測技術 FactSelfCheck，該方法在事實級別進行檢測而非句子或段落級別。通過將事實表示為知識圖譜并分析事實一致性來計算句子和段落級一致性。作者聲稱該技術優于 SelfCheckGPT，但要應用于汽車上下文，需要適應處理圖像和視頻數據，而非僅文本。此外，添加映射視覺內容為知識三元組的中間層可能會增加復雜性，挑戰實時檢測需求。

SelfCheckAgent [12] 是一種以 SelfCheckGPT 為基準的幻覺檢測技術，它結合多個代理提供多維方法。作者引入了三個代理：符號代理評估響應的事實性、專門檢測代理使用微調的 Transformer-based LLM 識別幻覺，以及上下文一致性代理利用零樣本和思維鏈提示。雖然上下文一致性代理可適應汽車領域，但前兩個代理限于文本數據，且整體方法不包含多模態數據。

Yang 等人 [13] 提出了一種利用輸入文本中識別的變形關系的新型幻覺檢測技術，聲稱在相同條件下優于 SelfCheckGPT。該技術通過提示 LLMs 使用同義詞和反義詞生成響應，然后使用 SelfCheckGPT 進行一致性檢查。盡管在某些溫度設置下表現更好，但使用同義詞和反義詞可能引入雙重否定等語義問題。

Dona 等人 [7] 為汽車上下文提出 SelfCheckGPT 的適應版本，探索其在圖像序列感知任務中的適用性。作者多次記錄圖像序列的描述，然后將第一描述的句子與剩余描述比較，以評估支持度。基于句子級一致性分數，實現排除機制移除不一致句子。該技術顯示了在汽車感知系統中檢測和緩解幻覺的潛力。

III. 方法論

實驗管道概述如圖 1 所示。我們從 Waymo Open 數據集選擇了 20 個駕駛場景，并提取相應對象標簽。將選定的圖像重復輸入三個最先進的 LLMs（GPT-4o、LLaVA 和 MiniCPM-V），使用預定義提示記錄響應。然后處理和統計分析這些結果以回答研究問題。

A. 數據集整理和準備

我們使用 Waymo Open 數據集 [14]，該數據集于 2021 年由 Google 收集，涵蓋美國城市和郊區地區，包括 2030 個約 20 秒的片段。每幀視頻包含來自五個攝像頭、LiDAR 和雷達傳感器的數據，覆蓋各種駕駛場景、天氣條件、白天/夜晚和社區。

在實驗中，我們從訓練集中采樣每十幀，專注于前置攝像頭圖像（分辨率為 1920x1280 像素）。最終數據集包括從 20 個不同駕駛場景中選出的 500 張圖像，確保多樣性，包括不同社區、天氣和晝夜條件。從每個場景中手動檢查 25 張圖像，以確保圖像差異性。圖 2 顯示了從 Waymo 數據集中選出的樣本圖像。

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

B. 數據收集

如圖 1 所示，我們將整理后的數據集輸入三個最先進的 LLMs：專有模型 GPT-4o [15]，以及本地執行的 LLaVA [16] 和 MiniCPM-V [17]。我們使用 Ollama Python 庫 [18] 訪問這些模型。

首先，使用以下提示讓每個 LLMs 描述圖像中的不同對象，該提示經過多次迭代以獲取簡短句子，每個句子解釋一個對象。我們采用“Best of Three (BO3)”策略 [20]，對每個圖像重復三次提示，以獲得更精確的響應。

提示:
“Describe the different objects visible in the image. Please write very simple and clear sentences. Use the format: “There are [object]”. For example, There are cars. There are people. There are cyclists. Look carefully and make sure to mention all types of objects you see, especially people. If there are multiple types of objects in the image, provide a separate sentence for each type.”

接下來，將每個響應 R 分解為句子級元素 s1…n。由人類標注者評估每個句子與圖像的正確性和與 Waymo 對象標簽的一致性，以檢查 LLMs 是否忽略了可見交通對象。這一點對于感知任務至關重要，因為忽略交通參與者可能導致嚴重后果。

我們使用 Cohen’s kappa [21] 評估人類標注者之間的 inter-rater 一致性。

然后，應用適應后的 SelfCheckGPT [7]，使用相同的 LLMs 檢查自身響應，以檢測幻覺。提示格式為：
Context: CONTEXT Sentence: SENTENCE Is the sentence supported by the context above? Answer Yes or No:

C. 數據分析

數據處理步驟包括：

圖像描述: 對每個圖像使用測試 VLMs 三次生成描述，并存儲響應和執行時間。
正確性標注: 人類標注者評估每個句子的正確性，丟棄超過 50 個字符的句子。
2.1. Inter-rater 一致性: 一致性范圍為 50% 到 80%，部分由于語義差異。
標簽一致性標注: 與 Waymo 標簽比較，檢查忽略的交通對象。
自檢查: 將句子與圖像的其他描述配對。
統計分析: 計算正確率、幻覺率和忽略率等指標。

IV. 結果

A. 描述的評估（步驟 1 和 2）

GPT-4o 生成的描述準確、精確，句子簡短，每個解釋一個對象，未忽略或虛構對象。
示例: “There are cars. There are buildings. There are streetlights. …”

MiniCPM-V 在描述圖像方面表現出色，能識別遠處對象，但有時不嚴格遵守提示，生成較長句子，可能部分不正確。
示例: “There’s an SUV parked on a curb to our left. …”

LLaVA 生成的描述簡短、遵守提示，但經常虛構對象，如消防栓，并忽略某些對象。
示例: “The sky is overcast. There are buildings along the street. …”

不涉及 Waymo 標注交通參與者的描述: GPT-4o 常提及街道、建筑物等（圖 3a）；MiniCPM-V 常提及道路、云等（圖 3b）；LLaVA 常提及街道、建筑物等（圖 3c）。

Fig. 3a: Words in GPT-4o captions that are correct but do not contain references to any of the Waymo-annotated traffic agents.
Fig. 3b: Words in MiniCPM-V captions that are correct but do not contain references to any of the Waymo-annotated traffic agents.
Fig. 3c: Words in LLaVA captions that are correct but do not contain references to any of the Waymo-annotated traffic agents.

B. 描述的質量（步驟 2 和 3）

GPT-4o 的句子級正確率為 99.6%，描述級為 97.1%。MiniCPM-V 的句子級正確率為 94.8%，描述級為 88%。LLaVA 的句子級正確率為 85.6%，描述級為 71.9%。圖 4 顯示了這些結果。

統計指標：GPT-4o 的精確率為 100.0%，召回率為 78.04%；MiniCPM-V 的精確率為 100.0%，召回率為 25.56%；LLaVA 的精確率為 100.0%，召回率為 56.41%。

Fig. 4: Bar chart showing the correctness of the sentences by each model (step 2).

C. BetterCheck（步驟 4）

使用相同 LLMs 檢查自身響應：GPT-4o 的精確率為 99.72%，召回率為 91.43%；MiniCPM-V 的精確率為 100.0%，召回率為 25.56%；LLaVA 的精確率為 88.96%，召回率為 88.81%。

V. 分析和討論

針對 RQ-1，我們比較了 VLMs 生成正確描述的能力。GPT-4o 和 MiniCPM-V 表現出色，但 LLaVA 幻覺較多（圖 4）。

針對 RQ-2，我們分析了幻覺和忽略情況。所有模型都忽略了某些交通參與者，如圖 5 所示。

針對 RQ-3，我們評估了自檢查性能，結果顯示模型能通過重復提示改善描述的一致性。

Fig. 5a: Confusion matrix showing the hallucinations and overlooks for GPT-4o sentences.
Fig. 5b: Confusion matrix for MiniCPM-V sentences.
Fig. 5c: Confusion matrix for LLaVA sentences.
Fig. 6a: Confusion matrix for GPT-4o sentences (against human annotations).
Fig. 6c: Confusion matrix for LLaVA sentences (against human annotations).

VI. 結論和未來工作

最先進的 VLMs 在處理多模態數據方面表現出色，但仍可能忽略或虛構交通參與者。為汽車感知系統添加安全保障機制不可或缺。我們提出的 BetterCheck 是 SelfCheckGPT 的擴展，盡管當前 VLMs 在計算資源上存在挑戰，但未來版本預計會改進這些方面，并優化提示技術以適應感知系統。

ACKNOWLEDGMENTS

本節是對本文研究資助來源的致謝。該研究獲得了以下機構的資助：

瑞典戰略研究基金會 (SSF)，資助編號 FUS21-0004SAICOM。
瑞典研究理事會 (VR)，包括根據資助協議 2023-03810 的支持。
瓦倫伯格人工智能、自主系統和軟件程序 (WASP)，該程序由克努特和艾麗斯·瓦倫伯格基金會提供資金。

Original Abstract: Large language models (LLMs) are growingly extended to process multimodal
data such as text and video simultaneously. Their remarkable performance in
understanding what is shown in images is surpassing specialized neural networks
(NNs) such as Yolo that is supporting only a well-formed but very limited
vocabulary, ie., objects that they are able to detect. When being
non-restricted, LLMs and in particular state-of-the-art vision language models
(VLMs) show impressive performance to describe even complex traffic situations.
This is making them potentially suitable components for automotive perception
systems to support the understanding of complex traffic situations or edge case
situation. However, LLMs and VLMs are prone to hallucination, which mean to
either potentially not seeing traffic agents such as vulnerable road users who
are present in a situation, or to seeing traffic agents who are not there in
reality. While the latter is unwanted making an ADAS or autonomous driving
systems (ADS) to unnecessarily slow down, the former could lead to disastrous
decisions from an ADS. In our work, we are systematically assessing the
performance of 3 state-of-the-art VLMs on a diverse subset of traffic
situations sampled from the Waymo Open Dataset to support safety guardrails for
capturing such hallucinations in VLM-supported perception systems. We observe
that both, proprietary and open VLMs exhibit remarkable image understanding
capabilities even paying thorough attention to fine details sometimes difficult
to spot for us humans. However, they are also still prone to making up elements
in their descriptions to date requiring hallucination detection strategies such
as BetterCheck that we propose in our work.

PDF Link: 2507.17722v1

7. ERMV: Editing 4D Robotic Multi-view images to enhance embodied agents

Authors: Chang Nie, Guangming Wang, Zhe Lie, Hesheng Wang

Deep-Dive Summary:

ERMV: 編輯 4D 機器人多視圖圖像以增強具身代理

作者： Mingming Wang, Zhe Liu, IEEE 會員, 和 Hesheng Wang, IEEE 資深會員

摘要— 機器人模仿學習依賴于 4D 多視圖序列圖像。然而，數據收集的高成本和高品質數據的稀缺性嚴重限制了具身智能策略（如 Vision-Language-Action (VLA) 模型）的泛化性和應用性。數據增強是一種強大的策略來克服數據稀缺問題，但目前缺乏針對操作任務編輯 4D 多視圖序列圖像的方法。因此，我們提出 ERMV（Editing Robotic Multi-View 4D 數據），一個新型的數據增強框架，它基于單幀編輯和機器人狀態條件高效地編輯整個多視圖序列。該任務面臨三個核心挑戰：(1) 在動態視圖和長時序中維護幾何和外觀一致性；(2) 以低計算成本擴展工作窗口；(3) 確保關鍵對象（如機器人臂）的語義完整性。ERMV 通過一系列創新來解決這些挑戰。首先，為了確保運動模糊下的時空一致性，我們引入一個新型的極線運動感知注意力（EMA-Attn）機制，該機制在應用幾何約束之前學習由運動引起的像素偏移。其次，為了最大化編輯工作窗口，ERMV 率先提出一個稀疏時空（STT）模塊，該模塊解耦時空視圖，并通過稀疏采樣將問題重塑為單幀多視圖問題，從而降低計算需求。第三，為了緩解錯誤積累，我們引入一個反饋干預機制，該機制使用多模態大語言模型（MLLM）檢測不一致性，并在必要時請求針對性專家指導。大量實驗表明，ERMV 增強的數據顯著提高了 VLA 模型在模擬和真實世界環境中的魯棒性和泛化性。此外，ERMV 可以將模擬圖像轉化為真實風格，從而有效橋接模擬到真實差距。代碼將發布在 https://github.com/IRMVLab/ERMV。

索引術語： 具身智能，多視圖編輯，機器人數據增強。

I. 引言

模仿學習，通過觀察和模仿專家演示來獲取技能，已經成為訓練具身代理（如 VLA 模型）的基石。該范式的核心在于學習從多視圖、時序圖像（如 4D 序列）到動作軌跡的復雜映射。然而，收集高質量專家演示的高成本和時間密集性導致了顯著的數據瓶頸。這種稀缺性嚴重限制了 VLA 在開放世界場景中的泛化性和魯棒性。雖然數據增強是一種有前景的方法，但現有方法主要針對靜態圖像。這對于現代 VLA（如 RDT [3] 和 OpenVLA [4]）來說是根本不足的，因為它們需要時序連續的 4D 數據進行訓練。這一差異揭示了數據增強的一個未充分探索的領域：編輯 4D 機器人多視圖序列圖像。

編輯 4D 機器人多視圖序列圖像的難度源于三個基本技術障礙：維護時空一致性、在小工作窗口內操作，以及確保任務關鍵對象的質量。首先，最重要的是，在編輯 4D 數據時維護時空一致性。空間上，現有的方法專注于編輯固定多相機圖像（如在自動駕駛車輛上），通過固定相鄰視圖關系維護空間一致性 [5]-[7]。然而，機器人操作涉及動態變化的多相機系統，使得這些固定相機方法無效。時間上，編輯必須在長時序中保持連貫性。當前的多圖像編輯方法僅能實現順序單視圖視頻編輯 [8]-[12]。多視圖視頻編輯尚未解決，因為難以確保時空一致性。此外，重構 3D 場景并編輯它們可以解決多個視點的一致性問題 [13]，[14]。但難以準確編輯機器人與對象之間的交互。而且，一個經常被忽略的難點是運動模糊，由相機和對象的同時運動引起。這種動態效應打破了標準幾何約束（如極線）的假設，使得建立準確特征對應變得困難。因此，缺乏有效運動建模的現有方法難以恢復運動模糊并維護真實性。

另一個重大挑戰是受計算成本和效率限制的小工作窗口。 state-of-the-art 生成視頻模型依賴于密集時空注意力來建立時間相關性。這意味著，使用大工作窗口提取長時序特征需要大量 GPU 內存 [15]-[17]。這種硬件條件限制了它們的可用性和實際應用。相反，大多數機器人操作場景涉及相對靜態的背景，幀間差異不多，因此不需要如此密集的注意力機制。因此，實現一個方便、低成本的序列編輯框架而不犧牲 4D 一致性是提高生成或編輯模型在該領域的可用性的關鍵。此外，一個單一的操作序列可能包含數千張圖像，使得傳統的逐視圖編輯不可行。因此，一個高效且準確的編輯指導方法至關重要。

最后一個挑戰在于錯誤的累積效應。隨著編輯圖像被自回歸地輸入網絡作為歷史幀，積累的錯誤會逐漸導致圖像質量下降。這種問題在機器人多視圖圖像編輯任務中特別嚴重，因為它要求在整個 4D 序列中嚴格保持機器人臂和被操作對象的一致性。這已成為現有方法在長時序數據生成和編輯中的常見障礙 [18]-[20]。因此，建立一個有效的評估和錯誤修正策略對于確保編輯長序列的質量至關重要。

如圖 1 所示，為了解決這些挑戰，我們提出 ERMV（Editing Robotic Multi-View 4D 數據），一個用于增強具身代理的新型編輯框架。ERMV 引入了一系列解決方案來解決 4D 數據編輯的核心挑戰。首先，為了避免文本提示的模糊性，我們采用一個精確的視覺指導策略，使用一個用戶編輯的單幀作為視覺指導，并結合機器人狀態作為物理條件（Sec. II-B）。其次，為了在保持小計算成本的同時擴展工作窗口，我們率先提出一個稀疏時空（SST）模塊。通過在時空解耦的大工作窗口中稀疏采樣視圖，ERMV 將視頻編輯任務重塑為低成本的單幀多視圖編輯問題，從而能夠在單個消費級 GPU 上訓練。

第三，為了建立準確的幾何約束并保留動態環境中的運動模糊，我們設計了一個新型的極線運動感知注意力（EMA-Attn）機制。該機制通過學習預測運動引起的像素偏移，然后應用極線幾何來指導特征聚合，從而確保運動期間的魯棒對應。

最后，為了防止自回歸錯誤積累導致的核心對象（如機器人臂或被操作對象）的逐漸退化，我們引入一個實用的反饋干預機制。該策略使用多模態大語言模型（MLLM）自動檢查編輯前后核心對象的一致性，并在必要時僅涉及專家提供核心對象的分割掩碼。

我們在公共 RoboTwin 模擬基準上驗證了 ERMV，在未知環境中，ERMV 增強的數據顯著提高了 VLA 模型的成功率和泛化性。此外，在真實世界 RDT 數據集和我們的真實雙臂機器人平臺上的實驗表明，ERMV 可以有效編輯和增強真實世界數據，從而改善下游策略的性能和魯棒性。而且，ERMV 甚至可以將模擬數據編輯為匹配真實世界的外觀，從而顯著縮小模擬到真實差距并減少對高保真物理模擬的依賴。

ERMV 的主要貢獻如下：

我們提出 ERMV，一個用于編輯 4D 機器人多視圖序列圖像的新型框架。它能有效緩解 VLA 訓練中的數據稀缺問題，并增強 VLA 模型的魯棒性。
ERMV 通過極線運動感知注意力機制和稀疏時空模塊確保時空一致性。此外，ERMV 引入了一個實用的反饋干預機制，利用 MLLM 以最小專家努力來保護核心對象的一致性。
我們進行了廣泛實驗，包括模擬環境、真實世界和真實機器人平臺。此外，我們驗證了其對下游 VLA 策略的數據增強效果。而且，ERMV 不僅可以作為世界模型，還可以橋接模擬到真實差距。

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

II. 相關工作

A. 機器人圖像生成和編輯

高保真生成和編輯模型的出現，特別是擴散模型，在機器人領域開辟了新前沿。當前的研究主要在兩個方面使用這些模型：機器人高層任務規劃和機器人訓練數據增強。

用于任務規劃的生成。 許多研究使用生成模型產生面向目標的圖像來規劃機器人動作。早期工作探索使用預訓練的文本到圖像模型進行零樣本重排對象的最終位置。例如，DALL-E-Bot [21] 首先推斷場景中對象的文本描述。然后，根據期望目標生成對象最終狀態的圖像。最后，要求機器人根據生成的圖像放置對象。這種過程實現了操作對象的規劃。SuSIE [22] 將長時序任務分解為更易管理的關鍵幀。它采用分層方法，其中一個微調的圖像編輯擴散模型充當高層規劃器，提出一個未來子目標圖像。然后，一個低層、條件目標策略負責達到該特定子目標。最近，生成模型已發展為創建全面的世界模型，作為機器人操作的交互模擬器。總之，這些方法雖然對規劃和生成圖像有用，但其主要焦點是生成期望結果，而不是編輯現有 4D 圖像用于數據增強。

用于數據增強的編輯。 當前的機器人模仿學習需要大量成本和人力來收集高質量數據，這限制了模型如 VLA 的魯棒性和泛化性。一個有前景的方向是數據增強，旨在擴展現有的高質量機器人數據集。早期方法使用文本到圖像生成模型添加語義多樣性。方法如 CACTI [1]、ROSIE [2] 和 GenAug [23] 表明，將修復技術應用于單視圖圖像可以有效修改場景并多樣化訓練數據。例如，CACTI [1] 利用專家收集的數據，并使用生成模型添加場景和布局變化。ROSIE [2] 通過使用文本到圖像擴散模型進行積極數據增強，創建未見對象、背景和干擾項。GenAug [23] 引入一個框架，通過生成對象和背景的語義意義視覺多樣性，同時旨在維護動作的功能不變性來重定向行為。為了實現更精細的控制和更物理合理的結果，后續工作 [24] 納入了顯式 3D 信息，如對象網格和深度指導。方法如 RoboAgent [25] 尋求進一步自動化和擴展該過程。RoboAgent 整合了如 Segment Anything Model (SAM) [26] 的分割模型與修復，以自動識別和編輯幀中的對象。然而，這些方法的基本限制是逐幀編輯。這種方法不僅對視頻數據無效，而且更關鍵地，未能強制執行編輯 4D 機器人操作軌跡所需的時間和多視圖一致性。最近的工作 EVAC [27]，一個生成模型而非編輯模型，嘗試基于機器人動作生成時間連貫的視頻。但它通過合并多視圖輸入并依賴計算密集的視頻模型隱式學習一致性，而不是顯式建模 3D 幾何。這突出編輯機器人 4D 數據面臨的挑戰，需要不僅僅是可伸縮性和豐富的語義，還需要保證時空一致性。

B. 多視圖圖像生成和編輯

除了機器人領域，多視圖一致性生成技術已在自動駕駛和 3D 對象合成等領域得到探索。

結構化環境中的一致性。 在自動駕駛中，生成真實且可控的數據對于魯棒模擬和模型訓練至關重要。幾種方法利用固定環繞相機支架的強先驗，從統一的 Bird’s-Eye-View (BEV) 表示合成街景。這種 BEV 空間作為編輯的共同基礎，允許開發人員構建特定場景。BEVGen [7] 引入一個條件生成模型，從語義 BEV 布局合成周圍視圖圖像。它利用自回歸變壓器架構，并納入一個新穎的成對相機偏差，學習不同相機視圖之間的空間關系以確保一致性。BEVControl [6] 被提出以實現更準確和更細粒度的對單個街景元素的控制。BEVControl 支持更靈活的 BEV 草圖布局，而不是詳細的語義地圖，便于用戶編輯。它采用一個兩階段的基于擴散的方法，包括一個“Controller”用于幾何一致性和一個“Coordinator”帶有跨視圖-跨元素注意力來協調不同視點。更近來，MagicDrive [5] 實現了 state-of-the-art，通過啟用多樣且直接的 3D 幾何控制。它解決了 BEV-only 條件化的限制，可能導致幾何模糊，如不正確對象高度或道路高程。MagicDrive 使用擴散模型分別編碼各種輸入，包括 BEV 路線圖、顯式 3D 邊界框、相機位姿和文本描述。其多視圖一致性通過帶有硬編碼相鄰視圖的跨視圖注意力實現。這些現有的多視圖編輯方法嚴重依賴于多個相機的固定相對位置。然而，這些方法無法解決機器人操作期間動態變化多視圖圖像的編輯問題。

3D 資產生成和編輯。 在 3D 資產相關領域，許多方法通過幾何約束或 3D 表示強制執行多視圖一致性。基礎工作如 Zero-1-to-3 [28] 證明，預訓練的 2D 擴散模型可以微調以理解相對相機變換。然后，該模型可以使用學到的幾何先驗從單個圖像零樣本合成新視圖。在此基礎上，前饋框架如 InstantMesh [29] 通過首先使用多視圖擴散模型生成一組稀疏一致圖像，然后輸入到一個 Large Reconstruction Model (LRM) 來直接在幾秒內產生高質量 3D 網格，從而實現顯著效率。為了進一步增強幾何連貫性，3D-Adapter [30] 引入一個插件模塊，通過“3D 反饋增強”循環將顯式 3D 意識注入去噪過程，其中中間多視圖特征被解碼為 3D 表示，如 3D Gaussian Splatting (3DGS)。而且，在 3D 編輯領域，DGE [31] 跳過緩慢的迭代優化，通過在多視圖一致性下編輯 2D 圖像。其時空注意力和極線約束從場景幾何中提取，允許直接且高效地更新 3DGS 模型。對于不受約束場景的復雜 3D 修復，IMFine [32] 提出一個幾何指導的管道，使用測試時適應微調每個場景的多視圖精煉網絡，修正從修復參考視圖到其他視圖的扭曲偽像。然而，這些方法缺乏處理機器人操作任務中固有的運動模糊圖像和復雜工具-對象交互的機制。

總之，現有的研究未能解決機器人領域的關鍵需求：一種用于動態操作任務的多視圖時序圖像一致且可控編輯的方法。我們的工作旨在填補這一空白，通過提出一個框架來實現 4D 機器人數據的輕松編輯。

III. 方法

A. 問題表述和框架概述

問題表述。 給定一個 4D 機器人操作軌跡 $(X_t, a_t)_{t=1 \dots T}$ ，其中 $Xt={Itv}v=1…NX_t = \{I_t^v\}_{v=1 \dots N}$ 表示時間步 $t$ 的 $N$ 個多視圖圖像集， $at∈Aa_t \in A$ 是對應的機器人動作。主要目標是對圖像序列 $\{X_t\}_{t=1 \dots T}$ 進行針對性編輯，以生成一個新的、視覺上不同但語義上一致的序列 $X^{'}$ 。這個新序列與原始未修改的動作序列 ${at}t=1…T\{a_t\}_{t=1 \dots T}$ 配對，形成增強的數據對 $(X'_t, a_t)_{t=1 \dots T}$ 。這一過程作為一種強大的數據增強策略來緩解具身智能中的數據稀缺問題。

框架概述。 為了實現可控編輯，我們提出 ERMV（Editing for Robotic Multi-view 數據），一個基于潛在擴散模型 (LDMs) [33] 的框架。我們的方法核心是一個條件生成器 $GθG_\theta$ ，它基于原始圖像 $X$ 、細粒度狀態條件 $CstateC_{\text{state}}$ 和記憶特征 $ChistoryC_{\text{history}}$ 合成編輯后的多視圖序列 $X^{'}$ 。整體生成過程可以表述為學習一個條件概率分布：

$D(X′∣X,Cgulde,CState,Chistory)\mathcal{D}\big({\cal X}^{\prime}\big\vert{\cal X}\,,\mathcal{C}_{g\,u l d e},\mathcal{C}_{S\,t a t e},\mathcal{C}_{h\,i\,s t\,o r\,y}\big)$

如圖 2 所示，我們的框架系統地克服了該任務的核心困難。過程從建立精確的視覺指導開始（Section III-B）。為了克服文本提示的模糊性，我們使用一個編輯后的單圖像作為期望修改的豐富視覺藍圖。為了在視圖和時間步上保持一致編輯，我們通過顯式注入相機位姿、機器人狀態及其時間動態的時空注意力將模型 grounding 在場景的物理現實中（Section III-C）。此外，ERMV 通過稀疏時空 (SST) 模塊在有限條件下最大化工作窗口（Section III-D），該策略通過將視頻生成重構為單幀多圖像問題，以低計算成本捕獲長程記憶。在生成模型中，ERMV 引入極線運動感知注意力 (EMA-Attn) 來捕獲運動特征（Section III-E），以真實渲染機器人操作中常見的運動模糊。最后，為了防止語義漂移和錯誤積累，一個反饋干預機制利用 MLLM 來保護關鍵場景元素如機器人臂和被操作對象的完整性（Section III-F）。然后，僅在必要時請求專家修正。在當前工作窗口中編輯的圖像被存儲在記憶中，以自回歸方式編輯未來幀。

擴散過程在潛在空間中操作，以提高計算效率，使用預訓練的自編碼器（編碼器 $E$ 和解碼器 $D$ ）在生成器 $GθG_\theta$ 中。將高斯噪聲 $?\epsilon$ 添加到潛在表示 $Z_0 = E(X)$ 以產生噪聲潛在表示 $Z_t$ 。模型 $GθG_\theta$ 被訓練從 $Z_t$ 預測添加的噪聲，條件于時間步 $t$ 和我們的全面條件集 $\{C_{\text{guide}}, C_{\text{state}}, C_{\text{history}}\}$ 。損失函數為：

$LDM=EZ0(X),t,C,?[∥??Gθ(Zt,t,C)∥2]\mathcal{L}_{\text{DM}} = \mathbb{E}_{Z_0(X), t, C, \epsilon} \left[ \left\| \epsilon - G_\theta(Z_t, t, C) \right\|^2 \right]$

B. 視覺指導條件

編輯機器人圖像的基本挑戰是準確遵循期望。雖然文本提示在創造性圖像編輯中是標準的 [34]-[36]，但它們無法提供對物理 grounding 場景至關重要的細粒度幾何和空間控制。例如，“將背景更改為辦公室”這樣的提示缺乏對顏色、類型或方向的特定性。結果甚至可能與機器人動作沖突。編輯圖像與動作之間的一致性對于訓練魯棒機器人策略至關重要。

提前準確編輯全局圖像以實現期望效果可以有效防止對期望編輯的誤解。因此，ERMV 采用視覺指導策略。我們首先選擇一個全局信息豐富的幀，通常是主相機中的第一幀 $x_1^1$ ，它捕獲整體場景上下文。然后，使用高級修復模型 [35]-[37] 或手動編輯仔細編輯該幀，以創建目標指導圖像 $xguidex_{\text{guide}}$ 。該圖像作為期望修改的顯式、無歧義的視覺藍圖。然后，指導條件 $CguideC_{\text{guide}}$ 通過編碼器如 CLIP [38] 編碼：

$Cguide=ΠCLIP(xguide)\mathcal{C}_{g u i d e} = \Pi_{\text{CLIP}}(x_{\text{guide}})$

這個豐富的嵌入提供了一個精確、空間感知的語義目標，使擴散模型能夠在所有視圖和時間步上一致傳播編輯。

C. 機器人和相機狀態注入

生成連貫的 4D 序列需要不僅僅是視覺目標。模型必須理解機器人和相機在每個時刻的精確幾何和動態狀態。缺乏此信息會阻止正確定位機器人臂在每個視圖中并阻礙運動模糊的真實渲染。為了從機器人相機視點和時間步準確渲染場景，我們將顯式狀態信息作為條件 $CstateC_{\text{state}}$ 的一部分，其中包括兩個組件：

位姿和狀態條件。 對于每個目標圖像，位姿 $qt∈SE(3)q_t \in \text{SE}(3)$ 和機器人動作 $qt∈Rdq_t \in \mathbb{R}^d$ （例如，關節位置，其中 $d$ 是自由度）。這允許模型在正確的幾何上下文中 grounding 生成。

運動動態條件。 機器人操作圖像的常見且具有挑戰性的特征是運動模糊，由相機和對象的同步運動引起。未能建模此現象將導致不自然的銳利和不現實的視頻。為了顯式捕獲這些動態，我們計算位姿和動作的時間差 $Δqt=qt?qt?1\Delta q_t = q_t - q_{t-1}$ 。

這些靜態和動態特征被連接以形成每個圖像的全面狀態向量 $C_{t,v}$ ，使用帶有位置編碼的 Multi-Layer Perceptron (MLP) 編碼為序列嵌入標記，然后輸入 U-Net 主干的交叉注意力層：

$Cstate(t,v)=Ψ(MLP(Ct,v))\mathcal{C}_{s t a t e}^{(t,v)} = \Psi(\text{MLP}(C_{t,v}))$

D. 稀疏時空模塊

先前的方法通常使用視頻擴散模型 [39] 來處理多視圖時序圖像 [27], [40]。這種模型通過密集幀間交叉注意力隱式提取幾何信息，導致計算成本過高，尤其是對于大工作窗口。然而，在許多操作場景中，背景 largely 靜態且圖像變化緩慢。受此啟發，我們提出稀疏時空 (SST) 模塊，以在有限 GPU 內存內最大化工作窗口。

如圖 3 所示，給定一個滑動窗口的 $L$ 個連續時間步，而不是處理所有 $\times N$ 張圖像，我們隨機采樣固定大小的子集 $K$ 張圖像，其中 $\ll L \times N$ 。讓采樣集為 $Xsample={Ik}k=1…KX_{\text{sample}} = \{I_k\}_{k=1 \dots K}$ ，其中包括歷史視圖 $ChistoryC_{\text{history}}$ 和未來視圖。每個采樣圖像 $I_k$ 對應于原始圖像 $I_{t_k}^{v_k}$ 來自時間步 $t_k$ 和視圖 $v_k$ 。為了保留采樣期間丟失的原始時空結構，我們顯式編碼原始索引 $t_k, v_k)$ 并將它們作為每個相應圖像的條件注入。值得注意的是，ERMV 不僅將歷史幀作為條件注入網絡，還與未來幀一起生成。這種同時生成方法允許未來幀更好地從歷史幀提取幾何結構信息，從而改善時間一致性。通過建模聯合概率分布：

$P(Xsample∣E(Xk)k=1…K)\mathcal{P}(X_{\text{sample}} \mid E(X_k)_{k=1 \dots K})$

模型學習整個稀疏幀集的特征。因此，SST 模塊允許模型以固定計算預算推理更廣泛的時間上下文，有效地將視頻生成問題重構為低成本的單幀多視圖生成任務。

E. 極線運動感知注意力

雖然稀疏采樣是低成本的，但它提出了一個新挑戰：如何在稀疏選擇的幀之間有效傳播信息并強制幾何一致性。極線指導注意力 [41] 提供了一個強大的幾何基礎。然而，標準實現未能考慮機器人領域的運動模糊，因為在模糊圖像中沿精確極線采樣的特征可能不對應于真實像素位置。

為了解決這個挑戰，我們引入一個新型的極線運動感知 (EMA) 注意力。如圖 4 所示，對于視圖 $v$ 中的查詢像素 $p$ ，ERMV 沒有假設其對應位于另一個視圖 $v^{'}$ 中的極線 $l = Fp$ 上。相反，ERMV 首先使用一個小網絡 $?\phi$ 預測一個運動引起的偏移 $Δp\Delta p$ ：

$Δp=?(p,Cstatet,v)\Delta p = \phi(p, C_{\text{state}}^{t,v})$

然后，在對應的新的點 $\Delta p$ 的極線上執行特征聚合。如圖 5 所示，注意力機制從點 $pm′,m=1…Mp'_m, m=1 \dots M$ 沿修改后的極線 $l^{'} = F p^{'}$ 聚合特征：

$AttentionEMA(qi,Kj,Vj)=∑m=1Msoftmax(qi?kj,mdk)vj,m\text{Attention}_{\text{EMA}}(q_i, K_j, V_j) = \sum_{m=1}^{M} \text{softmax}\left( \frac{q_i \cdot k_{j,m}}{\sqrt{d_k}} \right) v_{j,m}$

其中 $q_i$ 是 $p^{'}$ 處的查詢特征， $k_{j,m}, V_{j,m}$ 是視圖 $v^{'}$ 中運動感知極線上的采樣點的關鍵/值對。這允許模型學習運動特定的對應，提高幾何一致性和真實性。

Fig. 5. Multi-View Feature Aggregation via EMA-Attn. This block projectsview. The attention mechanism is then constrained to the key/value pixels a query pixel from the source view to a shifted epipolar line in the targetalong this line, enabling efficient aggregation of multi-view features undergeometric constraints to capture underlying motion.

F.Feedback Intervention Mechanism

自回歸圖像生成容易出現錯誤積累 [42]-[44]，這會導致圖像質量下降，并使圖像偏離預期。此外，在訓練視覺語言動作 (VLA) 模型時，被操縱物體的圖像質量和機器人臂的圖像質量尤為重要。這些關鍵區域的質量下降不僅會導致視覺不準確，還會使策略學習數據無效。因此，保持這些區域的質量至關重要。

一個簡單的解決方案是，在每個幀中分割核心物體（如機器人臂和被操縱物體），以強制保留它們。這種方法可以有兩種實現方式：一方面，訓練一個通用的分割模型來處理被操縱物體。然而，被操縱物體多樣且經常是新穎的。此外，許多機器人攝像頭的視角具有挑戰性且以自我為中心。這些障礙使得這種訓練在技術上不可行。另一方面，手動標注核心物體可以取得很好的結果。但需要標注數千張圖像，這將耗費大量人力。

左側圖像是原始圖像，右側圖像是背景已編輯的圖像。編輯后的圖像中的與原始圖像匹配嗎？如果將物體的退化程度從0-10進行評分，請評估退化程度。
步驟1：僅觀察兩張圖像中的；其他背景無需關注。
步驟2：如果右側圖像中未找到，則圖像嚴重退化，直接評分10。
步驟3：比較兩張圖像中的相似性，然后評分圖像的退化程度。
步驟4：如果分數大于5，則表示嚴重退化，輸出 {“is consistent”:False} 的 JSON 格式；否則，表示退化不嚴重，輸出 {“is consistent”:True}。

為了解決這一困境，我們提出了一個反饋干預機制。對于第 k 步生成的圖像 ( v_t^{(k)} )，我們使用多模態大型語言模型 (MLLM) Φ 作為自動檢查器。它通過基于 Chain-of-Thought (CoT) 的任務描述提示 ( P_{\text{coT}} ) 將生成的圖像與原始圖像 ( c_t ) 進行比較，以檢查關鍵物體的一致性：

$KaTeX parse error: Undefined control sequence: \y at position 28: …{i}\mathrm{S}_{\?y?\atop}}\mathrm{…$

示例提示 ( P_{\text{coT}} ) 如 TABLE I 所示。如果 ( \text{is_consistent} ) 為 false，則系統標記該圖像，并建議專家為核心物體提供分割掩碼 ( M_t )，以用于糾正再生的額外條件 ( C_{\text{mask}} )。這種反饋循環的優勢在于，它能以手術般的精確性有效防止語義漂移，同時將專家標注負擔最小化，僅限于模型失敗的少數情況。這種反饋確保了增強數據的完整性，而不會創建難以管理的流程。

IV. EXPERIMENTS

本節全面評估 ERMV 在機器人操縱的多視圖時序圖像編輯任務中的性能。我們首先介紹實驗設置。隨后，通過模擬環境中的一系列實驗，我們定量評估 ERMV 作為數據增強技術的有效性，以及其提升下游具身代理策略性能的能力。然后，我們在公共真實世界數據集上驗證 ERMV 的編輯質量。此外，我們在物理機器人平臺上部署并測試 ERMV，以檢查其在物理世界的實際適用性。最后，通過詳細的消融研究，我們分析模型關鍵組件的貢獻。

A. Implementation Details

ERMV 使用 Stable Diffusion 2.1 [33] 的 U-Net 骨干網絡。模型以批量大小 4 進行訓練。我們使用 AdamW 優化器，學習率為恒定的 1e-5。所有模型均在 PyTorch 中實現，并在單個 NVIDIA RTX 4090 GPU 上訓練和評估。為了平衡生成質量和計算效率，我們采用 SST 采樣策略：歷史上下文窗口從過去 8 幀的 4 個視圖中隨機采樣圖像，而未來動作窗口從未來 8 幀的 6 個視圖中采樣圖像。在反饋干預機制中，我們使用 Qwen2.5-VL [45] 作為多模態大型語言模型 (MLLM) 來評估和指導生成過程。

B. Simulation Experiments

我們在雙臂模擬平臺 RoboTwin [47] 上進行實驗，該平臺提供了一系列標準化的機器人操縱任務。對于所有任務，我們收集 4D 軌跡數據 ( T = (X_t, a_t) )，其中 ( t = 1 \ldots T )，包括多視圖圖像、機器人和攝像頭狀態，用于模型訓練。我們要求 ERMV 編輯這些收集的數據以增強訓練數據。此外，SOTA 單圖像編輯方法 Step1X-Edit [46] 也被用作比較。

我們首先比較模擬環境中不同方法的編輯效果定量結果，如 TABLE II 所示。與其他圖像編輯方法 [49] 使用的指標類似，我們使用 SSIM (結構相似性指數)、PSNR (峰值信噪比)和 LPIPS (學習感知圖像補丁相似性) 作為評估指標。結果顯示，ERMV 的編輯結果大大領先于單幀編輯方法 Step1X-Edit。這歸功于 ERMV 通過 EMA-Attn 保持的出色時空一致性。此外，定性比較結果如 Fig. 7 所示，ERMV 實現了高保真度的編輯效果。特別是，桌子上的陰影和瓶子表面的光折射被準確編輯。這歸因于視覺引導條件能準確表示所需的細節效果。

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

整個編輯后的 4D 序列準確響應了輸入。相比之下，即使是 SOTA 單圖像編輯方法 Step1X-Edit，通過文本提示引導，也難以準確表達所需的編輯效果，甚至完全破壞了原始圖像的語義。此外，ERM 編輯后同一幀的多視圖之間的一致性被準確維護。這是因為 ERMV 提出的極點運動感知注意力模塊利用多視圖幾何約束，確保了不同視角的靜態背景高度一致。同時，SST 模塊結合運動注入有效保持了被操縱物體和機器人臂的運動與歷史幀一致，確保了平滑的時空一致性。相反，Step1X-Edit 由于沒有維護時間一致性的機制，即使使用相同的文本提示，也會編輯出完全不同的內容。

為了量化 ERMV 生成數據的作用，我們將其作為數據增強方法訓練下游具身代理策略。我們選擇 RDT [3] 和 Diffusion Policy (DP) [48] 作為策略模型。有三種訓練配置：“Baseline”，僅在原始收集的模擬數據上訓練策略模型；“+Step1X-Edit”，用 Step1X-Edit 編輯的數據替換 80% 的原始數據；“+ERMV”，用 ERMV 增強的數據替換 80% 的原始數據。然后，我們在 RoboTwin 的標準測試任務中評估不同配置下策略模型的平均成功率 (SR)。

如 TABLE II 所示，使用 ERMV 生成數據增強的模型 (“+ERMV”) 在 RDT (AVG: 0.40 vs. 0.48) 和 DP (AVG: 0.37 vs. 0.41) 上顯示出顯著的成功率提升。這是因為基線模型僅在單一簡單場景上訓練，而 ERMV 增強數據包含了各種復雜場景。這一結果證實了 ERMV 增強數據的有效性，源于 ERMV 強大的維護時空一致性的能力。特別是 SST 模塊確保了整個時序范圍內的操縱圖像連續性，從而為策略模型提供高質量且物理一致的訓練信號。然而，Step1X-Edit 編輯的數據導致 VLA 模型性能嚴重下降，因為它嚴重破壞了原始圖像的語義。

為了全面評估增強策略模型的泛化能力，我們基于 RoboTwin 的原始測試任務創建更具挑戰性的“雜亂場景”。為此，我們在環境中引入隨機 distracting 對象，并隨機化桌子的紋理和背景，同時保持核心被操縱物體不變。

值得注意的是，在新穎的“未見雜亂場景”的零樣本泛化測試中，基線模型的性能急劇下降。這是因為基線模型在非常單一的場景上訓練。相比之下，使用 ERMV 增強數據訓練的模型表現出優越的魯棒性和泛化能力，在 RDT (AVG: 0.19 vs. 0.37) 和 DP (AVG: 0.15 vs. 0.32) 上成功率遠超基線模型。這一結果有力證明了 ERMV 作為強大數據增強引擎的能力，它可以通過創建多樣、高質量的域外訓練數據顯著提升下游策略的泛化能力。通過對場景元素的控制編輯，ERM 可以輕松增強現有高質量數據。這種增強的魯棒性直接緩解了收集大規模多樣數據的挑戰。

C. Real-World Experiments

Real-World Dataset Experiments: 為了評估 ERMV 在真實場景中的編輯能力和長時序穩定性，我們在公共雙臂操縱數據集 RDT-ft-data [3] 上進行實驗。

如 Fig. 8 所示，ERM 可以成功編輯真實世界的機器人操縱序列，例如替換相同的 grasping 動作的背景和桌子環境。值得注意的是，模型在編輯過程中準確保留了核心被操縱物體的形態和運動，如 grasped box，以及機器人臂。這主要歸功于我們的 EMA-Attn 機制，它通過建模多視圖幾何關系有效區分動態前景和靜態背景，從而實現對被操縱物體的精確保留。此外，編輯后的圖像甚至能準確再現由攝像頭移動或快速機器人臂運動引起的運動模糊效果。這證明了運動信息的多層注入成功捕獲并渲染了這些微妙動態特征。雖然 Step1X-Edit 能夠基于文本提示編輯原始圖像到相應的樣式，但它不僅破壞了單幀的語義，而且時間變化也不一致。

Real Robot Experiments: 我們進一步在由兩個 Franka Emika Panda 機器人臂組成的定制雙臂機器人平臺上進行物理實驗，如 Fig. 10 (a) 所示。我們首先為幾個 pick-and-place 任務收集操縱數據，并在這些數據上訓練 Action Chunking with Transformers (ACT) [50] 策略模型作為基線。隨后，如 Fig. 9 所示，我們使用 ERMV 編輯這些數據以增強訓練集，并重新訓練 ACT 模型。

如 Fig. 10 (b) 所示，我們首先在簡單原始場景中進行測試。ACT 和增強后的 ACT+ERM 都成功完成了任務。然而，在雜亂的未見場景 (Fig. 10 ?) 中，基線 ACT 由于過度干擾而無法正確 grasping 對象。由于 ERMV 通過編輯先前收集的數據進行增強，訓練后的 ACT+ERM 顯著提升了魯棒性。ACT+ERM 能夠在未見雜亂場景中成功完成任務。

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

定量實驗結果如 TABLE V 所示，在原始場景中，增強訓練后的 ACT+ERM 的平均成功率從 0.52 增加到 0.91。這表明 ERMV 增強數據能提升下游 VLA 模型的穩定性。在未見雜亂場景中，ERM 的效果更加明顯。ACT+ERM 的平均成功率保持在 0.89，而基線 ACT 的成功率僅為 0.02。這證明了 ACT+ERM 的魯棒性得到了極大提升。這歸功于 ERMV 準確編輯了收集的數據。這種高質量且多樣的增強數據使下游策略模型能夠學習到對真實世界視覺變化更魯棒的特征，從而有效提升其在物理世界中的性能。這一實驗結果也證實了 IV-B 節中模擬環境中的結論。

D. Generation Capabilities

ERMV 的一個新興應用是作為世界模型，用于低成本、高效率的具身代理驗證，而無需物理交互。此外，將模擬圖像編輯成真實場景也是一個新穎應用，可彌補模擬到真實差距。我們通過兩個實驗驗證這一點。

World Model for Policy Validation. 當以單個初始原始幀和 VLA 模型的動作序列為條件時，ERM 可以作為世界模型預測性地生成相應的多視圖時空圖像序列。如 Fig. 11 所示，生成的交互序列與 Ground Truth (GT) 圖像高度一致。這種準確預測主要歸功于我們的機器人和攝像頭狀態注入機制，它確保生成過程嚴格遵守輸入動作命令。這證明了 ERMV 可以作為一個可靠且確定性的世界模型，用于排練和驗證機器人策略，從而顯著加速策略迭代周期，避免在不成熟階段進行風險物理試驗，并消除構建高保真模擬環境的需求。

Bridging the Sim-to-Real gap. 我們進行實驗探索 ERMV 在彌合模擬到真實差距方面的潛力。ERM 首先用真實世界視覺樣式編輯模擬軌跡的初始幀。然后，使用此作為視覺條件以及模擬中的原始機器人動作序列，ERM 編輯一個完整的“偽真實”4D 多視圖軌跡，該軌跡在外觀上真實且在運動上物理一致。如 Fig. 12 所示，生成的數據成功融合了真實場景的紋理和照明與連貫的物理動作。我們使用這些“偽真實”數據訓練 ACT 策略模型，并將其部署到真實機器人。Fig. 12 顯示，該 ACT 能夠在真實場景中直接完成任務，這有力證明了 ERMV 在緩解真實數據稀缺性和彌合模擬與真實差距方面的潛力。

Fig. 11. Results of ERMV as a world model. Guided by the first frameimage and robot actions, ERMV can be used as a world model to generatecompletesequences of images.

Fig. 12. ERMV edits virtual images as real scene style images. Conditionedon an edited image and simulation actions, ERMV can convert the datacollected in the simulation environment to real-world style data. This canmake up for the sim-to-real gap and quickly expand real data by utilizing theconvenience of collecting data in the simulation environment.

Fig. 13. The effect of Motion Conditioning in ERMV. Benefiting fromthe multi-layer injection of motion information, ERMV can effectively editimageswithmotionblur.

E. Ablation Study

為了驗證 ERMV 中每個關鍵組件的有效性，我們進行了全面的消融研究。

Effect of Motion Conditioning. 我們移除了 Motion Dynamics Conditioning 和 EMA-Attn 模塊。如 Fig. 13 所示，模型失去了準確捕獲運動信息的能力，從而無法生成具有現實運動模糊效果的圖像。雖然生成的圖像在視覺上類似，但它們無法模擬真實相機捕獲的動態。這證明了多層運動信息注入能夠有效模擬攝像頭和機器人臂的動態。

Efficiency of Sparse Spatio-Temporal Module. 我們將稀疏方法與密集方法進行比較。TABLE VI 顯示，ERM 中的 SST 模塊取得了更好的性能。因為稀疏方法在相同的 GPU 內存下可以設置更大的工作窗口。這樣，稀疏方法允許更好地提取歷史信息，并在長時序上維護一致性。

此外，當固定相同的工作窗口時，稀疏方法可以將 GPU 內存需求減少 50%。這使 ERMV 能夠在內存較小的消費級 GPU 上訓練，從而大大提高了算法的實用性和可擴展性。

Effect of Feedback Intervention Mechanism. 在處理長時序 4D 數據時，傳統的自回歸模型往往由于錯誤積累導致語義漂移和細節模糊。如 Fig. 14 所示，我們禁用了反饋干預策略來評估其效果。沒有該策略的模型會逐漸質量下降，表現出嚴重的 artifacts 和語義漂移。由于錯誤積累。而使用反饋干預機制的模型在整個序列中保持高質量和一致性。這歸功于反饋干預機制，它在推理過程中進行自我評估，及時檢測并糾正潛在偏差，從而確保長序列的高質量和一致編輯。

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

V. DISCUSSION

在本論文中，我們引入了 ERMV 框架，其主要目標是打破機器人模仿學習中的數據瓶頸。我們的研究證實了一個關鍵論點：通過高效且一致地編輯現有高質量數據，可以顯著提升視覺語言動作 (VLA) 模型的性能。除了架構創新外，ERM 實用地融入了反饋干預機制。這種“MLLM 審查 + 專家糾正”范式為構建可信賴 AI 系統提供了一個實用的中間路徑。它不僅是一種確保數據質量的技術工具，還是使 AI 系統行為與高層任務目標（如維護機器人臂的物理真實性）一致的有效策略。

此外，ERM 的強大編輯能力為研究機器人策略的泛化性和魯棒性開辟了一個新范式。通過改變任務場景的背景、照明甚至物體布局，我們可以低成本、大規模地將現有高質量數據編輯成真實世界中難以構建的測試環境。這使研究者能夠在不投資大量資源構建復雜實驗場景或高保真模擬環境的情況下，有系統地擴展機器人策略可用數據類型。ERM 甚至可以編輯難以從真實機器人中收集的數據，例如碰撞前 4D 機器人圖像。同樣，其作為世界模型生成從單個幀和動作的連續 4D 數據的能力，為機器人運動規劃提供了一個安全、高效的離線評估解決方案，有效減少了對高風險物理硬件測試的需求。

盡管這些鼓舞人心的結果，我們也認識到 ERMV 的局限性。當前的 ERMV 框架未引入諸如深度圖像、3D 高斯飛濺等富含 3D 結構信息的數據。這是因為這些數據的編輯比單幀圖像更復雜。然而，很明顯，添加這些數據可以顯著提升 4D 數據編輯的有效性。我們將在未來探索如何引入更多 3D 信息來增強性能。此外，為了完全自動化數據編輯管道，我們將探索使用先進的語義分割或物體檢測技術來替換當前部分手動標注和干預過程，從而進一步提高 ERMV 框架的效率和可擴展性。

最后，ERM 中應用的根本原則，如 SST 模塊和運動感知注意力，為其他動態視頻生成領域提供了啟發。它們可能適用于更廣泛的應用。

VI. CONCLUSION

在本論文中，我們通過引入 ERMV 緩解了機器人模仿學習中的關鍵數據瓶頸，這是一個用于增強 4D 多視圖順序數據的新穎框架。在詳細的單幀圖像編輯指導下，ERM 高效且準確地控制了整個序列的編輯目標。借助稀疏時空模塊，ERM 能夠在有限硬件下最大化工作窗口。此外，極點運動感知注意力通過幾何指導確保了多視圖一致性和運動模糊恢復。而且，反饋干預策略有效緩解了錯誤積累并提升了自回歸編輯的質量。我們的大量實驗證明，ERM 增強的數據可以顯著提升 VLA 模型的性能和魯棒性。此外，ERM 不僅可以用作策略評估工具，還能彌合模擬與真實差距。

Original Abstract: Robot imitation learning relies on 4D multi-view sequential images. However,
the high cost of data collection and the scarcity of high-quality data severely
constrain the generalization and application of embodied intelligence policies
like Vision-Language-Action (VLA) models. Data augmentation is a powerful
strategy to overcome data scarcity, but methods for editing 4D multi-view
sequential images for manipulation tasks are currently lacking. Thus, we
propose ERMV (Editing Robotic Multi-View 4D data), a novel data augmentation
framework that efficiently edits an entire multi-view sequence based on
single-frame editing and robot state conditions. This task presents three core
challenges: (1) maintaining geometric and appearance consistency across dynamic
views and long time horizons; (2) expanding the working window with low
computational costs; and (3) ensuring the semantic integrity of critical
objects like the robot arm. ERMV addresses these challenges through a series of
innovations. First, to ensure spatio-temporal consistency in motion blur, we
introduce a novel Epipolar Motion-Aware Attention (EMA-Attn) mechanism that
learns pixel shift caused by movement before applying geometric constraints.
Second, to maximize the editing working window, ERMV pioneers a Sparse
Spatio-Temporal (STT) module, which decouples the temporal and spatial views
and remodels a single-frame multi-view problem through sparse sampling of the
views to reduce computational demands. Third, to alleviate error accumulation,
we incorporate a feedback intervention Mechanism, which uses a Multimodal Large
Language Model (MLLM) to check editing inconsistencies and request targeted
expert guidance only when necessary. Extensive experiments demonstrate that
ERMV-augmented data significantly boosts the robustness and generalization of
VLA models in both simulated and real-world environments.

PDF Link: 2507.17462v1

9. Triple X: A LLM-Based Multilingual Speech Recognition System for the INTERSPEECH2025 MLC-SLM Challenge

Authors: Miaomiao Gao, Xiaoxiao Xiang, Yiwen Guo

Deep-Dive Summary:

Triple X: A LLM-Based Multilingual Speech Recognition System for the INTERSPEECH 2025 MLC-SLM Challenge

1 Aerospace Information Research Institute, Chinese Academy of Sciences
2 LIGHTSPEED
3 University of Chinese Academy of Sciences
4 Independent Researcher

xiangxiaoxiaol8@mails.ucas.ac.cn, gaomiaomiao20@mails.ucas.ac.cn

摘要

本文介紹了我們提交到多語言對話語音語言建模（MLC-SLM）挑戰賽 Task 1 的 Triple X 語音識別系統。我們的工作重點是通過創新的編碼器-適配器-LLM 架構優化多語言對話場景下的語音識別準確性。該框架利用了基于文本的大型語言模型（LLM）的強大推理能力，同時結合了特定領域的適應性。為進一步提升多語言識別性能，我們使用了廣泛的多語言音頻數據集。實驗結果顯示，我們的方法在開發集和測試集上實現了具有競爭力的詞錯誤率（WER）表現，在挑戰賽排名中獲得第二名。

索引術語：語音識別、多語言對話環境、多階段訓練

1. 引言

語音識別是將語音轉錄成文本的任務。它在廣泛的應用中發揮著至關重要的作用，包括人機交互、語音助手、實時轉錄和內容創建。高精度的語音識別系統可以顯著提升用戶體驗和可訪問性，尤其是在多語言和對話環境中。

經典的端到端自動語音識別（ASR）框架近年來取得了巨大成功。代表性方法包括 Paraformer [1]、OWSM v3.1 [2]、FireRedASR-AED [3] 和 Whisper [4]。這些模型通常采用編碼器-解碼器范式，并可分為幾個主流建模方法：連接主義時序分類（CTC）[5]、循環神經網絡轉錄器（RNN-T）[6]、循環神經網絡對齊器（RNA）[7] 和編碼器-解碼器方法[8]。所有這些方法都旨在通過利用大規模配對的語音和文本數據集，學習聲學特征序列與文本標記序列之間的復雜映射。

最近，基于文本的大型語言模型（LLM）在各種下游任務中展示了出色的性能，包括機器翻譯、問答和長文本生成。模型如 DeepSeek [9]、GPT [10]、Qwen [11] 和 LLaMA [12] 已成為自然語言理解和生成的基石，因為它們能夠從海量文本語料中捕獲豐富的語言和上下文知識。受到預訓練 LLM 在文本領域成功的啟發，最近的研究探索了將它們的推理和生成能力整合到 ASR 管道中。值得注意的例子包括 Qwen-Audio [13] 和 FireRedASR-LLM [3]，這些方法在語義復雜或噪聲條件下提升了性能。然而，盡管這些進展，現有的 LLM 增強 ASR 系統尚未充分解決真實世界多語言對話場景的挑戰，這些場景涉及代碼切換、說話者多樣性和非正式語音模式。這突顯了需要更魯棒的架構和專門針對多語言對話 ASR 的訓練策略。

MLC-SLM 比賽的 Task 1 旨在開發基于 LLM 的 ASR 系統，以提高多語言對話場景中的語音識別準確性。為此，我們采用編碼器-適配器-LLM 架構，利用 LLM 的能力。編碼器從語音中提取豐富的聲學和語義表示，而適配器將編碼器輸出橋接到 LLM 的語義空間。然后，LLM 通過解釋音頻派生特征和給定任務指令來生成轉錄。通過利用 LLM，Triple X 利用了它們的先進文本處理能力和推理潛力，從而實現更準確的語音到文本轉換，并更好地適應多樣化的語言模式和上下文。

采用這種方法，我們在驗證集和測試集上分別實現了 9.73% 和 9.67% 的詞錯誤率，在官方排行榜上獲得第二名。這些結果證明了我們架構在多語言環境下的 ASR 性能提升，與其他最先進模型相比具有競爭力。

2. 方法

在本節中，我們首先介紹網絡架構，然后描述實驗中使用的數據集。最后，我們詳細說明實驗設置，包括訓練策略、輸入特征和損失函數。

2.1. 網絡架構

我們提出的 Triple X 系統采用了廣泛使用的編碼器-適配器-LLM 架構，如圖 1 所示。具體來說，我們使用 Whisper-large-v3 編碼器從輸入語音中提取豐富的聲學和語義特征。該編碼器遵循標準的 Transformer 架構。然而，編碼器的輸出序列比文本的序列更長，這可能對 LLM 的處理效率產生負面影響。為了減少序列長度并將音頻編碼器的輸出維度與預訓練文本-based LLM 的輸入嵌入維度對齊，我們的適配器首先應用一個下采樣模塊來減少序列長度，然后使用 Linear-ReLU-Linear 變換將編碼器的輸出語義信息映射到 LLM 的語義空間。值得注意的是，我們使用最簡單的幀拼接作為下采樣模塊，因為我們發現不同的下采樣方法會產生類似的結果。對于 Triple X 中的 LLM 組件，我們使用 Qwen-3B 的預訓練權重進行初始化。如圖 1 所示，LLM 的輸入包括編碼器的輸出特征和用戶提示。

Figure 1: The schematic diagram of the Triple X architecture, which includes an encoder, an adapter and an text-based LLM.

2.2. 數據集

在我們的實驗中，我們使用了兩種類型的訓練集。第一種訓練集由比賽組織者提供的約 1,500 小時多語言對話語音數據組成。它涵蓋了約 11 種語言，包括英語、法語、德語、意大利語、葡萄牙語、西班牙語、日語、韓語、俄語、泰語和越南語。英語部分包括約 500 小時來自不同地區的錄音，包括英國、美國、澳大利亞、印度和菲律賓英語，而其他每種語言大約貢獻 100 小時。我們應用了預言分割并使用說話者標簽對長話語進行分割。第二種訓練集是從公開可用數據集構建的，包括 GigaSpeech2 [14]、KsponSpeech [15]、Reazonspeech [16] 和 Multilingual LibriSpeech [17]。我們從這些數據集選擇了 30,000 小時音頻數據，數據集的語言分布和數據量統計信息如圖 2 所示。

為了評估模型，我們使用了比賽組織者提供的開發集和評估集，評估集包含每種語言 4 小時的錄音。

Figure 2: Illustration of the dataset distribution across different languages and their respective data volumes.

2.3. 實驗設置

我們采用精心設計的三階段訓練策略來提高多語言語音識別準確性。首先，我們微調 Whisper-large-v3，并使用結果的編碼器權重初始化 Triple X 的編碼器。這增強了編碼器的語音特征表示能力，并促進了后續訓練階段的更快收斂。接下來，我們凍結編碼器并訓練適配器參數，以將編碼表示中的語義信息與 LLM 的語義空間對齊。最后，我們應用可訓練的低秩適應（LoRA）來微調 LLM，同時保持其核心參數固定。這種方法在適應性和保留預訓練知識之間取得了平衡。對于輸入語音，類似于傳統的端到端 ASR 系統，我們應用 SpecAug [18] 和速度擾動 [19] 進行數據增強。我們提取 128 維的 log-Mel 譜圖作為編碼器的輸入特征，使用 25ms 的窗口、10ms 的跳長，而不應用全局均值和方差歸一化。在訓練過程中，使用交叉熵損失，僅在對應于文本轉錄的位置計算損失。

Table 2: WER(%) results on interspeech 2025 MLC-SLM Task1evaluationset.TheBoLDvaluesshowthebestresults

3. 評估

我們最初使用比賽組織者提供的訓練集優化模型，以便快速模型選擇和性能驗證。表 1 展示了 Qwen3-8B 和 Qwen3-8B-Base 在評估集上的結果，揭示了幾個關鍵洞見。首先，Qwen3-8B-Base 在各種 beam 設置下 consistently 實現了更高的語音識別準確性，這體現在更低的 WER 分數上。這表明基礎版本可能更適合語音識別任務。其次，增加 beam 大小最初提高了識別準確性，但隨后導致了下降，最佳性能（最低 WER）出現在 beam 大小為 8 時。因此，為了平衡計算效率和識別準確性，我們在后續實驗中采用 beam 大小為 8 作為最優設置。

即使不加入額外數據，這些模型已經取得了令人印象深刻的性能，超過了 80% 的參與者。為了進一步提升結果，我們收集了大量公開可用數據集，以更好地將編碼表示的語義信息映射到 LLM 的語義空間。這些數據集的分布如圖 2 所示。在預訓練后，我們使用官方訓練集以降低的學習率微調適配器和 LoRA 模塊。如表 2 所示，所提出的方法在官方評估集上實現了 9.67% 的 WER，對應的識別準確率為 90.33%。這比基線的 79.83% 準確率提高了 13.15%。總體上，我們的模型在驗證集和評估集上分別實現了 9.73% 和 9.67% 的 WER，在比賽排行榜上獲得第二名。

4. 結論

我們開發了一個名為 Triple X 的多語言語音識別系統，該系統利用了 LLM。通過采用多階段訓練策略，我們的系統在 MLC-SLM 評估集上實現了 9.67% 的 WER，在排行榜上獲得第二名。對于未來的工作，我們計劃收集更多廣泛的多語言對話數據集，以進一步提升多語言對話場景下的識別準確性。此外，我們旨在將當前的 ASR 模型擴展為支持語音識別和響應生成在內的統一框架。

5. 參考文獻

[1] Z. Gao, S. Zhang, I. McLoughlin, and Z. Yan, “Paraformer: Fast and accurate parallel transformer for non-autoregressive end-to-end speech recognition, arXiv preprint arXiv:2206.08317, 2022.
[2] Y. Peng, J. Tian, W. Chen, S. Arora, B. Yan, Y. Sudo, M. Shakeel, K. Choi, J. Shi, X. Chang et al., “Owsm v3. 1: Better and faster arXiv preprint arXiv:2401.16658, 2024. open whisper-style speech models based on e-branchformer,"
[3] K.-T. Xu, F-L. Xie, X. Tang, and Y. Hu, “Fireredasr:Open-source industrial-grade mandarin speech recognition mod-els from encoder-decoder to llm integration,’ arXiv preprint arXiv:2501.14350, 2025.
[4] A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, “Robust speech recognition via large-scale weak supervision,” in International conference on machine learning. PMLR, 2023, pp. 28 492-28 518.
[5] A. Graves, S. Fernandez, F. Gomez, and J. Schmidhuber, “Con-nectionist temporal classification: labelling unsegmented se-quence data with recurrent neural networks,” in Proceedings of the 23rd international conference on Machine learning, 2006, pp. 369-376.
[6] A. Graves, A.-r. Mohamed, and G. Hinton, “Speech recognition with deep recurrent neural networks,’ in 2013 IEEE international conference on acoustics, speech and signal processing. IEEE, 2013, pp. 6645-6649.
[7] H. Sak, M. Shannon, K. Rao, and F. Beaufays, “Recurrent neural aligner: An encoder-decoder neural network model for sequence to sequence mapping” in Interspeech, vol. 8, 2017, pp. 1298-1302.
[8] W. Chan, N. Jaitly, Q. Le, and O. Vinyals, “Listen, attend and spell: A neural network for large vocabulary conversational speech recognition,” in 2016 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2016, pp. 4960-4964.
[9] A. Liu, B. Feng, B. Xue, B. Wang, B. Wu, C. Lu, C. Zhao, C. Deng, C. Zhang, C. Ruan et al., “Deepseek-v3 technical re-port, arXiv preprint arXiv:2412.19437, 2024.
[10] J. Achiam, S. Adler, S. Agarwal, L. Ahmad, I. Akkaya, F. L. Ale-man, D. Almeida, J. Altenschmidt, S. Altman, S. Anadkat et al., "Gpt-4 technical report,” arXiv preprint arXiv:2303.08774, 2023.
[11] J. Bai, S. Bai, Y. Chu, Z. Cui, K. Dang, X. Deng, Y. Fan, W. Ge, Y. Han, F. Huang et al., “Qwen technical report,” arXiv preprint arXiv:2309.16609, 2023.
[12] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Roziere, N. Goyal, E. Hambro, F. Azhar et al., "Llama: Open and efficient foundation language models,” arXiv preprint arXiv:2302.13971, 2023.
[13] Y. Chu, J. Xu, X. Zhou, Q. Yang, S. Zhang, Z. Yan, C. Zhou, and J. Zhou, “Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models,” arXiv preprint arXiv:2311.07919, 2023.
[14] Y. Yang, Z. Song, J. Zhuo, M. Cui, J. Li, B. Yang, Y. Du, Z. Ma, X. Liu, Z. Wang et al., “Gigaspeech 2: An evolving, large-scale and multi-domain asr corpus for low-resource languages with au-arXiv:2406.11546, 2024.
[15] J.-U. Bang, S. Yun, S.-H. Kim, M.-Y. Choi, M.-K. Lee, Y-J. Kim, D.-H. Kim, J. Park, Y-J. Lee, and S.-H. Kim, “Ksponspeech: Korean spontaneous speech corpus for automatic speech recog-nition,” Applied Sciences, vol. 10, no. 19, p. 6936, 2020.
[16] Y. Y. D. M. S. Fujimoto, "Reazonspeech: A free and massive cor-pus for japanese asr,” 2016.
[17] V. Pratap, Q. Xu, A. Sriram, G. Synnaeve, and R. Collobert, “Mls: A large-scale multilingual dataset for speech research, arXiv preprint arXiv:2012.03411, 2020.
[18] D. S. Park, W. Chan, Y. Zhang, C.-C. Chiu, B. Zoph, E. D. Cubuk, and Q. V. Le, “Specaugment: A simple data augmen-tation method for automatic speech recognition,” arXiv preprint arXiv:1904.08779, 2019.
[19] T. Ko, V. Peddinti, D. Povey, and S. Khudanpur, “Audio augmen-tation for speech recognition.” in Interspeech, vol. 2015, 2015, p. 3586.

Original Abstract: This paper describes our Triple X speech recognition system submitted to Task
1 of the Multi-Lingual Conversational Speech Language Modeling (MLC-SLM)
Challenge. Our work focuses on optimizing speech recognition accuracy in
multilingual conversational scenarios through an innovative encoder-adapter-LLM
architecture. This framework harnesses the powerful reasoning capabilities of
text-based large language models while incorporating domain-specific
adaptations. To further enhance multilingual recognition performance, we
adopted a meticulously designed multi-stage training strategy leveraging
extensive multilingual audio datasets. Experimental results demonstrate that
our approach achieves competitive Word Error Rate (WER) performance on both dev
and test sets, obtaining second place in the challenge ranking.

PDF Link: 2507.17288v1