【論文筆記】Visual Alignment Pre-training for Sign Language Translation

🍎個人主頁：小嗷犬的個人主頁
🍊個人網站：小嗷犬的技術小站
🥭個人信條：為天地立心，為生民立命，為往圣繼絕學，為萬世開太平。

基本信息

標題: Visual Alignment Pre-training for Sign Language Translation
作者: Peiqi Jiao, Yuecong Min, Xilin Chen
發表: ECCV 2024

基本信息

摘要

手語翻譯（Sign Language Translation, SLT）旨在將手語視頻翻譯為文本句子。

盡管gloss序列為SLT中的視覺表征學習提供了有效的對齊監督信息，但標注gloss的高成本限制了其可擴展性。

現有工作在gloss-free的情況下尚未取得令人滿意的結果。

在本研究中，我們將這一挑戰歸因于視覺token和文本token之間的靈活對應關系，并通過從文本句子中構建類似gloss的約束來解決這一問題。

具體而言，我們提出了一種 視覺對齊預訓練（Visual Alignment Pre-training, VAP） 方案，通過以貪婪的方式對齊視覺和文本token來利用視覺信息。

VAP方案增強了視覺編碼器捕獲語義感知視覺信息的能力，并促進了與在大規模語料庫上預訓練的翻譯模塊的更好適配。

針對四個SLT基準的實驗結果證明了VAP的有效性，能夠生成合理的對齊，并顯著縮小與gloss-based方法之間的性能差距。

介紹

Illustration of the alignment generated by VAP for a given sign video and its text sentence

主要貢獻

探討了gloss annotation在手語翻譯（SLT）中的作用，并展示了在gloss-free設置下利用視覺信息的重要性。
提出了視覺對齊預訓練（Visual Alignment Pre-training, VAP），通過以貪婪的方式對齊視覺和文本token來促進視覺表征學習。
對gloss-free的SLT模型訓練進行了深入的實驗。實驗結果表明，VAP具有良好的效果，能夠生成可靠的對齊結果，并接近gloss-based的方法。

方法

Overview of the proposed visual alignment pre-training

gloss標注在手語翻譯中的作用

手語翻譯旨在將手語視頻翻譯為對應的文本句子。如圖2所示，通用的SLT網絡可以劃分為一個視覺編碼器 $\psi_V$ 和一個翻譯模塊 $\psi_T$ 。給定一個手語視頻或其他類型的輸入（例如，骨架數據） $\mathcal{X}$ 和對應的文本句子 $\{s_1, \cdots, s_U\}$ ， $\psi_V$ 從視頻中提取視覺特征 $\mathcal{V} = \{v_1, \cdots, v_r\}$ ，而 $\psi_T$ 基于 $\mathcal{V}$ 預測 $s$ 。網絡通過最小化負對數似然來優化，其公式為：

$\mathcal{L}_{SLT} = -\log p(s | \mathcal{V}; \theta_{\psi_V}, \theta_{\psi_T}).$

在自然語言處理（NLP）中，單詞對齊通常指的是在平行文本中指示對應單詞 $a = \{a_i\}_{i=1}^m$ 和 $b = \{b_j\}_{j=1}^n$ 的過程，可以表示為矩陣 $\mathcal{A} \in \mathbb{R}^{m \times n}$ ，其中 $A_{ij} \in \{0, 1\}$ 表示 $a_i$ 是否與 $b_j$ 對應。考慮到 $\mathcal{V}$ 和 $s$ 之間的對齊關系 $\mathcal{A}$ ，最近gloss-based的SLT研究中使用的損失函數可以重新表述為：

$\mathcal{L} = \mathcal{L}_{SLT} + \mathcal{L}_{SLR} = -\log \sum_{\mathcal{A}} p(\mathcal{A} | \mathcal{V}) p(s | \mathcal{V}, \mathcal{A}) - \log p(g | \mathcal{V}),$

其中 $\{g_1, \cdots, g_M\}$ 表示包含 $M$ 個gloss的gloss標注，它與 $\mathcal{V}$ 單調對齊。如上文公式所示， $\mathcal{L}_{SLT}$ 的監督來自兩個方面：對齊本身和翻譯與對齊的結合。gloss-based的方法通過引入額外的監督來提高視覺信息的利用率。然而，之前的gloss-free方法表現較差，主要原因在于 $\mathcal{V}$ 和 $s$ 之間的靈活對應關系，這阻礙了最佳對齊的尋找，并無法為視覺編碼器提供足夠的監督。

基于以上分析，我們認為解決該問題的關鍵在于從文本句子中構建類似gloss的約束，并提出了 視覺對齊預訓練（Visual Alignment Pre-training, VAP） 方案。

視覺對齊預訓練

gloss-based的傳統方法通常利用CTC（連接時序分類）對 $\psi_V$ 進行監督，假設 $\psi_V$ 中所有的單調對齊均成立，公式如下：

$L_{CTC}(g, V) = -\log(p(g|V; \theta_{\psi_V})) = -\log\left(\sum_{\pi}p(\pi|V; \theta_{\psi_V})\right)$

其中 $\pi$ 表示 $V$ 和 $g$ 之間的一種對齊關系。我們假設視頻中每個手勢的近似含義可以在對應的文本句子中找到，并嘗試利用 $V$ 和 $s$ 之間的對齊關系來監督 $\psi_V$ 。然而， $V$ 和 $s$ 之間存在多達 $2^{T \cdot U}$ 種潛在的對齊方式，這對在沒有適當約束的情況下（例如單調關系或gloss注解所具有的約束）識別最佳對齊關系提出了挑戰。受近期視覺-語言預訓練技術的啟發，我們提出了一種VAP方案，用于簡化對齊過程，以貪婪方式近似最佳對齊，并為視覺編碼器提供逐幀標簽。

具體而言，給定一個文本句子 $s$ ，我們首先使用文本編碼器 $\psi_E$ 提取其對應的文本特征 $\psi_E(s)$ ，然后通過兩個簡單的線性層將 $V$ 和 $\psi_E(s)$ 投影到一個聯合特征空間：

$\tilde{v}_t = \text{Linear}(v_t), \quad \tilde{s}_u = \text{Linear}(\psi_E(s_u)).$

隨后，通過識別每個視覺特征與最相似的文本特征，可以計算對齊關系 $\mathbf{A}^{V2S} \in \mathbb{R}^{T \times U}$ ：

$A^{V2S}_{t,u} = \begin{cases} 1, & \text{for } u = \arg\max_{u'} f(\tilde{v}_t, \tilde{s}_{u'}), \\ 0, & \text{otherwise}. \end{cases}$

其中， $f(\cdot, \cdot)$ 以余弦相似度的形式實現。為了確保 $\mathbf{A}^{V2S}$ 的合理性，我們通過以下公式計算視頻和文本的相似性 $\rho(\mathcal{X}, s)$ ：

$\rho(\mathcal{X}, s) = \frac{1}{T} \sum_{t=1}^{T} f(\tilde{v}_t, A^{V2S}_t \tilde{s}),$

并采用對比學習模式優化 $\mathbf{A}^{V2S}$ 。然而，僅依賴 $\rho(\mathcal{X}, s)$ 進行預訓練可能會導致 $\psi_V$ 的輸出坍縮為一個恒定值。為了避免這種情況，我們還計算文本與視頻的相似性 $\rho(s, \mathcal{X})$ ，該相似性通過為每個文本特征識別最相似的視覺特征 $\mathbf{A}^{S2V}$ 來計算。

在此基礎上，對于包含 $N$ 個視頻-文本對 $\{ \mathcal{X}^i, s^i \}_{i=1}^N$ 的小批量，可以通過以下公式計算對比損失：

$L_{\text{Align}} = -\frac{1}{2N} \left( \sum_{i=1}^N \log\frac{\text{exp}(\rho(\mathcal{X}^i, s^i) / \sigma)}{\sum_{j=1}^N \text{exp}(\rho(\mathcal{X}^i, s^j) / \sigma)} + \sum_{i=1}^N \log\frac{\text{exp}(\rho(s^i, \mathcal{X}^i) / \sigma)}{\sum_{j=1}^N \text{exp}(\rho(s^i, \mathcal{X}^j) / \sigma)} \right),$

其中， $\sigma$ 是用于縮放logits的預定義溫度。通過所提出的 $L_{\text{Align}}$ ，我們增大了成對的視覺和文本特征序列之間的相似性，這將鼓勵每個特征找到其最相關的配對特征并靠攏。

此外，對齊的計算僅依賴于gloss級別的信息，缺乏對齊時間一致性的約束。上文公式的分解表明，翻譯損失也顯著增強了對齊質量。我們通過實驗（表3）展示，僅通過重新初始化翻譯模塊就可以提升性能，這表明優化對齊過程與提升翻譯能力同步進行的重要性。因此，我們將 $L_{\text{SLT}}$ 納入進來，以確保所用翻譯模塊的時間一致性，從而達到對齊的時間一致性。預訓練階段的最終監督目標如下：

$L_{\text{pre-train}} = L_{\text{Align}} + L_{\text{SLT}}.$

通過以上設計，我們可以計算視覺和文本token之間的近似對齊，并獲得一個語義感知的視覺編碼器。

端到端微調

與一般的機器翻譯數據集相比，公共的手語翻譯（SLT）數據集仍然規模有限。因此，我們采用在大規模語料庫（如 mBART, T5）上預訓練的翻譯模塊來替代淺層翻譯模塊，從而在微調過程中緩解對大量訓練數據的需求。此外，類似于文獻中的 G2T（Gloss2Text）任務，我們設計了一個偽gloss到文本（P2T，Pseudo-gloss2Text）任務，用于微調預訓練翻譯模塊以更好地適應任務。

具體來說，我們可以基于對齊矩陣 $A^{v2s}$ 為每個手語視頻生成一個偽gloss序列 $\tilde{g}$ 。由于 $A^{v2s}$ 為每個視覺特征識別出最相似的文本token，而視頻的連續性導致局部窗口內的特征可能會引用相同的token，我們簡單地合并重復的token，通過以下公式獲得 $\tilde{g}$ ：

$\tilde{g} = \mathcal{B}(A^{v2s}s),$

其中， $\mathcal{B}$ 表示合并操作。P2T 的訓練目標可以表述為：

$\mathcal{L}_{P2T} = -\log p(s|\tilde{g}).$

至此，我們已經有了預訓練良好的視覺編碼器和微調良好的翻譯模塊。接下來是對整個模型的端到端微調。我們采用一個兩層的 MLP 作為視覺-語言映射器（V-L 映射器），與之前工作中相同，該模塊負責將視覺特征投影到文本空間。在微調期間，我們仍然包括 $\mathcal{L}_{Align}$ 損失以持續改進視覺編碼器，最終的總損失可以表示為：

$\mathcal{L}_{fine-tune} = \mathcal{L}_{Align} + \mathcal{L}_{SLT}.$

對齊質量評估

在上文中，我們假設視頻中每個手語的大致含義可以在文本句子中找到，并通過識別最相似的文本token來計算對齊關系。基于這一假設，生成的偽gloss $\tilde{g}$ 也應該與手語視頻單調對齊。然而，由于不同詞匯之間的差異，我們無法直接通過gloss來評估生成對齊關系的質量。因此，我們提出了兩種方法來間接評估生成對齊關系的質量。

如果 $\tilde{g}$ 與手語視頻單調對齊，它應該能夠像gloss一樣指導 SLT 網絡的學習。因此，我們從零開始訓練一個 SLT 網絡，類似于大多數gloss-based的 SLT 方法，但用偽gloss $\tilde{g}$ 替代了gloss，其損失函數可以表述為：

$\mathcal{L} = \mathcal{L}_{SLT} + \mathcal{L}_{CTC}(\tilde{g}, V),$

通過這種基于偽gloss的模型與 VAP 的性能差距可以隱式反映生成對齊關系的質量。

與通過翻譯性能（如詞錯誤率，WER）評估對齊質量相比，通過對齊性能進行評估更為直觀。因此，我們提出通過在預訓練中用偽gloss替換文本句子，計算生成偽gloss與對應gloss之間的 WER 來評估對齊方法的質量。換句話說，這種方法旨在檢查對齊方法是否能夠從無序序列中找到正確的順序。

總的來說，所提出的方法能夠評估對齊關系的質量，包括生成結果和對齊方法本身的質量。

訓練與推理

訓練

如圖 3 所示，VAP 的訓練流程包括三個階段。

Illustration of the training pipeline of VAP

視覺編碼器在第 1 階段使用 $L_{\text{pre-train}}$ 進行預訓練。翻譯模塊基于大規模語料庫進行預訓練，并在第 2 階段使用 $\tilde{g}$ 進行微調。最后，在第 3 階段，整個模型使用 $\mathcal{L}_{fine-tune}$ 進行端到端微調。

需要注意的是，VAP 是一種gloss-free方法，gloss僅用于如上文所述的偽gloss質量評估。

推理

在經過第3階段的微調后，整個模型被用于推理。具體來說，視覺編碼器首先提取視覺特征 $\mathcal{V}$ ，然后視覺-語言映射器（V-L mapper）將這些特征投射到文本空間中。接下來，翻譯模塊以自回歸的方式生成文本句子。

實驗

主實驗

Performance comparison on PHOENIX14T and CSL-Daily

Performance comparison on How2Sign and OpenASL

消融實驗

Ablation results of pre-training objectives. Ablation results of fine-tuning and pseudo-gloss-based training. Ablation results of gloss-based VAP

Comparison with SOTA retrieval method on PHOENIX14T test set. Ablation results of aggregation method

可視化

Qualitative results of translation and alignment. Visualization of the retrieval results of two German words. Visualization of the CTC and VAP predictions