今天介紹的一篇論文是針對無人機場景下的行人重識別,論文題目為:"無人機場景下基于 Transformer 的輕量化行人重識別"。該論文針對無人機場景下行人呈現多角度多尺度的特點、以及傳統CNN網絡在行人重識別任務中受限于感受野和下采樣導致的無法充分提取特征,同時也為了便于算法的部署而提出了一種基于Transformer輕量化Reid網絡(Lightweight Transformer-based Person Re-Identification, LTReID)。
注:該論文并未開源任何資源(比如代碼和數據集),因此論文的真實性并不清楚,本人這里并不負責復現,只是通過該論文為讀者提供一個研究思路。
目錄
國內外ReID研究難題
國內外ReID在無人機領域的研究現狀
Transformer存在的問題
論文對于算法改進的思路
基于Transformer 的輕量化行人重識別關鍵技術
面向Transformer 的掩碼搜索剪枝算法
損失函數設計?
面向無人機場景的空間信息嵌入
參考文獻
國內外ReID研究難題
論文首先介紹了國內外圍繞ReID的研究難題,比如人物遮擋問題的重識別、全局和局部特征提取效果差的問題。大多數研究主要從添加注意力機制、引入無監督學習和修改網絡結構等多個方面提高網絡性能,但這些方法無法避免由于卷積和池化帶來的識別度下降的問題,同時部分算法會導致模型參數較大,推理實踐慢。
對上述部分,這里說一下個人觀點供大家參考,首先為什么說卷積和池話帶來識別度下降的問題,這是因為卷積獲得的特征基本都是局部特征,無法像Transformer一樣獲取全局特征(或者可以理解為Transformer就是一個特殊的卷積),雖然網絡的加深,網絡的感受野勢必也會受到影響,池化層也影響到周邊像素的特征提取,因為這些種種問題會導致識別率低。
國內外ReID在無人機領域的研究現狀
然后作者又討論了國內外Reid在無人機領域的研究,例如,作者指出,近些年元學習和遷移學習被引入無人機場景下的行人重識別[1],利用元學習提高特征提取能力,利用遷移學習改進所獲得的元知識,用這兩種策略解決無人機場景下人物圖片差異較大的挑戰。還有使用卷積后特征圖的子空間池化來表征輸入的圖像[2],用該方法讓網絡學習到更具判別性和緊湊性的特征表示。還有在模型訓練中加入協方差信息提高網絡的魯棒性。但不論怎樣,作者指出這只是將一些經典算法應用到無人機場景中,沒有專門針對無人機場景下的特點對模型進行改進,比如沒有利用最新基于注意力機制的 Transformer 模型對無人機場景下的行人圖像進行全局特征的提取(我覺得這里說法有問題,只能說你可能沒有找到這類論文,而不能說沒有)。
Transformer存在的問題
隨后作者又指出了Transformer存在的一些問題,比如參數量大導致推理和部署困難,因此作者想到了剪枝進行輕量化。通常剪枝分為結構化剪枝(通道剪枝)和非剪枝化剪枝(權重剪枝),非結構化剪枝一般是需要特定的硬件或者算法庫的支持,所以作者選擇了結構化剪枝(也是最為常用的方法)。多數結構化剪枝方法由于剪枝后或者剪枝期間需要進行額外的訓練,并且剪枝流程需要引入額外的超參數進行調整,因此在實際中阻礙了結 構化剪枝方法的應用。(這里作者附上了一個參考文獻,是說Transformer可以不用在訓練中剪枝,而是在推理中進行動態剪枝,這個想法很有意思,后面有時間我會研究下并進行分享[3-4])
論文對于算法改進的思路
針對以上問題,我對作者在論文中的算法改進進行了以下總結:
1.?利用多頭多注意力機制獲取長距關聯,提升網絡的特征提取能力。
2.針對無人機場景下特點(多角度,多尺度),用Circle和邊界樣本挖掘損失進行訓練。
3.在transformer網絡中加入邊信息嵌入技術,將空間角度非視覺信息特征嵌入到輸入中進行學習。
4.使用快速的掩碼搜索剪枝[5]進行Transfomer輕量化,可在不進行重訓練情況下的輕量化剪枝。
網絡結構圖如下所示:
圖中的空間角度信息就是作者說的使用邊信息嵌入技術,將空間信息嵌入到輸入中進行訓練學習。
基于Transformer 的輕量化行人重識別關鍵技術
面向Transformer 的掩碼搜索剪枝算法
為了實現在不對模型進行重訓練的情況下進行輕量化,通過費雪信息矩陣對Transformer 網絡中頭部和濾波器進行輕量化剪枝。(這部分也等我后面研究一下這個算法)
首先Transformer 的剪枝問題可以歸納為以下優化方法:
其中L為損失函數,m為掩碼向量,C 為對浮點運算或時延等成本限制,為了有效的優化該方法,對損失函數圍繞 m = 1 進行二階泰勒展開,并且假設模型收斂到局部最優,損失函數優化可以表示如下:
其中, l表示 K 維全 1 向量, H 為損失函數對應掩碼向量的海森矩陣,海森矩陣 H 是二階偏導數矩陣,計算過于復雜,因此 H 需要進一步簡化為對角矩陣形式的費雪信息矩陣,則簡化為:
損失函數設計?
由于無人機多視角多尺度特點,不同行人之間的圖像差別度減少,相同行人不同視角和高度的圖像差距增加,常用的交叉熵和三元組損失函數很難 滿足模型訓練要求。因此采用Circle 損失函數和邊界樣本挖掘損失函數。
為 Circle 損失函數?,在 Circle 損失函數中,相較于一般的交叉熵損失函數,從最小化
為優化目標(n表示的類間相似,也就是負樣本,p表示類內)擴展為
.
邊界樣本挖掘損失:
?這種就是在尋找最困難的正樣本和最困難的負樣本。
面向無人機場景的空間信息嵌入
由于無人機多視角的特點,提出了 面向無人機場景的空間信息嵌入,將空間角度信息等非視覺信息嵌入到輸入序列中,以學習相同對象不同空間視角的不變特性。作者指出,空間角度信息可以分為兩種:(1)以行人所在地為原點,人臉朝向為 X 軸,設無人機地面投影點和原點的連線與 X 軸正方向的順時針夾角為方向角 φ ∈ [0, 2π]。以人身為 Z 軸,設無人機和原點連線與 Z 軸 正 方 向 的 順 時 針 夾 角 為 仰 角 θ ∈ [0,π/ 2] 。在兩個方向上分別等間隔取N個區間
論文引用:
胡海峰,倪宗煜,趙海濤,等. 無人機場景下基于 Transformer 的輕量化行人重識別[ J]. 南京郵電大學學報(自然科學版),2024,44 (3):48 62.
參考文獻
[1] XU L L, PENG H F, LU X, et al. Learning to generalize aerial person re-identification using the meta-transfer method[ J]. Concurrency and Computation: Practice and Experience, 2023, 35(12): e7687.
[2] ZHANG S Z, ZHANG Q, YANG Y F, et al. Person reidentification in aerial imagery[ J]. IEEE Transactions on Multimedia, 2021, 23: 281-291.
[3]?HOU L, HUANG Z, SHANG L, et al. DynaBERT: dynamic BERT with adaptive width and depth [ J ]. Advances in Neural Information Processing Systems, 2020, 33: 9782-9793.
[4]?LIU Z J, LI F R, LI G, et al. EBERT: efficient BERT inference with dynamic structured pruning[C]//Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. 2021: 4814-4823.
[5]?KWON W, KIM S, MAHONEY M W, et al. A fast post-training pruning framework for transformers [ J ]. Advances in Neural Information Processing Systems,2022, 35: 24101-24116.