5.10.8 Transformer in Transformer

Transformer iN Transformer (TNT)。具體來說，我們將局部補丁（例如，16×16）視為“視覺句子”，并將它們進一步劃分為更小的補丁（例如，4×4）作為“視覺單詞”。每個單詞的注意力將與給定視覺句子中的其他單詞一起計算，計算成本可以忽略不計。單詞和句子的特征將被聚合以增強表示能力。

1. 介紹

Transformer是一種主要基于自注意力機制的神經網絡，它可以提供不同特征之間的關系。

CV 任務中的輸入圖像和真實標簽之間存在語義差距。ViT 將給定??圖像劃分為多個局部塊作為視覺序列。然后，可以自然地計算任意兩個圖像塊之間的注意力，以便為識別任務生成有效的特征表示。

文章貢獻

一種用于視覺識別的新型 Transformer-in-Transformer (TNT) 架構。為了增強視覺 Transformer 的特征表示能力，首先將輸入圖像劃分為多個塊作為“視覺句子”，然后進一步將它們分成子補丁作為“視覺單詞”。

除了用于提取視覺句子的特征和注意力的傳統Transformer Block之外，我們進一步將子變壓器嵌入到架構中以挖掘較小視覺單詞的特征和細節。

具體來說，每個視覺句子中視覺單詞之間的特征和注意力是使用共享網絡獨立計算的，因此增加的參數量和 FLOP（浮點運算）可以忽略不計。然后，單詞的特征將被聚合成相應的視覺句子。該類令牌還通過全連接頭用于后續視覺識別任務。通過所提出的TNT模型，我們可以提取細粒度的視覺信息并提供更多細節的特征。

2. 方法

2.1 預先工作

多頭自注意力

在自注意力模塊中，輸入 $X\in\mathbb{R}^{n\times d}$ 被線性變換為三個部分，查詢 $Q\in\mathbb{R}^{n\times d_{k}}$ ，鍵 $K\in\mathbb{R}^{n\times d_{k}}$ 和值 $V\in\mathbb{R}^{n\times d_{v}}$ 。其中 n 是序列長度， $d$ 、 $d_k$ 、 $d_v$ 分別是輸入、查詢（鍵）和值的維度。縮放點積注意力： $Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V$ 最后，使用線性層來產生輸出。多頭自注意力將查詢、鍵和值拆分為 $h$ 個部分并并行執行注意力函數，然后將每個頭的輸出值連接并線性投影以形成最終輸出。

多層感知器（MLP）

MLP 應用于自注意力層之間，用于特征變換和非線性：

$MLP(X)=FC(\sigma(FC(X))),\quad FC(X)=XW+b$ 其中W和b分別是全連接層的權重和偏置項，σ(·)是激活函數。

層歸一化（LN）

層歸一化是 Transformer 中穩定訓練和更快收斂的關鍵部分。LN 應用于每個樣本 $x\in R^d$ ，

$LN(x)=\frac{x-\mu}{\delta}\circ\gamma+\beta$ ，其中 $\mu \in R, \delta \in R$ 分別是特征的平均值和標準差， $\circ$ 是逐元素點積，

$\gamma\in R^d,\beta\in R^d$ 是可學習的變換參數。

2.2 Transformer in Transformer

給定一個 2D 圖像，我們將其均勻分割為 n 個補丁 $\mathcal{X}=[X^{1},X^{2},\cdots,X^{n}]\in\mathbb{R}^{n\times p\times p\times3}$ ，其中

$(p,p)$ 是每個圖像塊的分辨率。ViT 僅利用標準轉換器來處理補丁序列，這會破壞補丁的局部結構，Transformer-in-Transformer (TNT) 架構來學習圖像中的全局和局部信息。

在 TNT 中，我們將補丁視為代表圖像的視覺句子。每個補丁又分為m個子補丁，即一個視覺句子由一系列視覺單詞組成： $X^i\to[x^{i,1},x^{i,2},\cdots,x^{i,m}]$ ，其中 $x^{i,j}\in\mathbb{R}^{s\times s\times3}$ 是第 i 個視覺句子的第 j 個視覺詞； $(s,s)$ 是子塊的大小， $j=1,2,\cdots,m$ 。

通過線性投影，我們將視覺單詞轉換為一系列單詞嵌入：

$Y^{i}=[y^{i,1},y^{i,2},\cdots,y^{i,m}],\quad y^{i,j}=FC(Vec(x^{i,j}))$

其中 $y^{i,j}\in\mathbb{R}^c$ 是第 j 個詞嵌入，c 是詞嵌入的維度，Vec(·) 是向量化操作。

在 TNT 中，我們有兩個數據流，其中一個數據流跨視覺句子進行操作，另一個數據流處理每個句子內的視覺單詞。對于詞嵌入，我們利用Transformer Block來探索視覺單詞之間的關系：

$Y{'}_{l}^{i}=Y_{l-1}^{i}+MSA(LN(Y_{l-1}^{i}))$

$Y_{l}^{i}=Y{'}_{l}^{i}+MLP(LN(Y{'}_{l}^{i}))$

其中 $l=1,2,\cdots,L$ 是第? $l$ ?個塊的索引，L是堆疊塊的總數。第一個塊 $Y_o^i$ 的輸出就是 $Y^i$ 。變換后圖像中的所有詞嵌入均為 $\mathcal{Y}_{l}=[Y_{l}^{1},Y_{l}^{2},\cdots,Y_{l}^{n}]$ ，可以看作內部Transformer Block，表示為 $T_{in}$ 。該過程通過計算任意兩個視覺單詞之間的交互來構建視覺單詞之間的關系。

對于句子級別，創建句子嵌入記憶來存儲句子級別表示的序列：

$\mathcal{Z}_{0}=[Z_{\mathrm{class}},Z_{0}^{1},Z_{0}^{2},\cdots,Z_{0}^{n}]\in\mathbb{R}^{(n+1)\times d}$ ?其中 $Z_{class}$ 是類似于ViT的類標記，并且它們都被初始化為零。在每一層中，詞嵌入的序列通過線性投影變換到句子嵌入的域中，并添加到句子嵌入中： $Z_{l-1}^i=Z_{l-1}^i+FC(Vec(Y_l^i))$ ，其中 $Z_{l-1}^i\in\mathbb{R}^d$ 。使用標準Transformer Block來轉換句子嵌入：

$\mathcal{Z}^{\prime}{}_{l}=\mathcal{Z}_{l-1}+MSA(LN(\mathcal{Z}_{l-1}))$

$\mathcal{Z}_{l}=\mathcal{Z}^{\prime}{}_{l}+MLP(LN(\mathcal{Z}^{\prime}{}_{l}))$

外部變壓器塊 $T_{out}$ 用于對句子嵌入之間的關系進行建模。

TNT塊的輸入和輸出包括視覺詞嵌入和句子嵌入。 $\mathcal{Y}_l,\mathcal{Z}_l=TNT(\mathcal{Y}_{l-1},\mathcal{Z}_{l-1})$

在TNT 塊中，內部 Transformer 塊用于對視覺單詞之間的關系進行建模以進行局部特征提取，外部 Transformer 塊從句子序列中捕獲內在信息。最后，分類標記用作圖像表示，并應用全連接層進行分類。

位置編碼

空間信息是圖像識別的重要因素。對于句子嵌入和詞嵌入，我們都添加相應的位置編碼來保留空間信息，使用標準的可學習一維位置編碼。具體來說，每個句子都分配有一個位置編碼：

$\mathcal{Z}_0\leftarrow\mathcal{Z}_0+E_{sentence}$ ，其中 $E_{sentence}\in\mathbb{R}^{(n+1)\times d}$ 是句子位置編碼。對于句子中的視覺單詞，每個單詞嵌入都添加一個單詞位置編碼： $Y_0^i\leftarrow Y_0^i+E_{word}, i=1,2,\cdots,n$