對于長時間跟蹤而言,一個關鍵的問題是:當目標重新出現在相機視野中時,系統應該能重新檢測到它,并開始重新跟蹤。但是,長時間跟蹤過程中,被跟蹤目標將不可避免的發生形狀變化、光照條件變化、尺度變化、遮擋等情況。傳統的跟蹤算法,前端需要跟檢測模塊相互配合,當檢測到被跟蹤目標之后,就開始進入跟蹤模塊,而此后,檢測模塊就不會介入到跟蹤過程中。但這種方法有一個致命的缺陷:即,當被跟蹤目標存在形狀變化或遮擋時,跟蹤就很容易失敗;因此,對于長時間跟蹤,或者被跟蹤目標存在形狀變化情況下的跟蹤,很多人采用檢測的方法來代替跟蹤。該方法雖然在某些情況下可以改進跟蹤效果,但它需要一個離線的學習過程。即:在檢測之前,需要挑選大量的被跟蹤目標的樣本來進行學習和訓練。這也就意味著,訓練樣本要涵蓋被跟蹤目標可能發生的各種形變和各種尺度、姿態變化和光照變化的情況。換言之,利用檢測的方法來達到長時間跟蹤的目的,對于訓練樣本的選擇至關重要,否則,跟蹤的魯棒性就難以保證。
考慮到單純的跟蹤或者單純的檢測算法都無法在長時間跟蹤過程中達到理想的效果,所以,TLD方法就考慮將兩者予以結合,并加入一種改進的在線學習機制,從而使得整體的目標跟蹤更加穩定、有效。
簡單來說,TLD算法由三部分組成:跟蹤模塊、檢測模塊、學習模塊;如下圖所示
其運行機制為:檢測模塊和跟蹤模塊互不干涉的并行進行處理。首先,跟蹤模塊假設相鄰視頻幀之間物體的運動是有限的,且被跟蹤目標是可見的,以此來估計目標的運動。如果目標在相機視野中消失,將造成跟蹤失敗。檢測模塊假設每一個視幀都是彼此獨立的,并且根據以往檢測和學習到的目標模型,對每一幀圖片進行全圖搜索以定位目標可能出現的區域。同其它目標檢測方法一樣,TLD中的檢測模塊也有可能出現錯誤,且錯誤無非是錯誤的負樣例和錯誤的正樣例這兩種情況。而學習模塊則根據跟蹤模塊的結果對檢測模塊的這兩種錯誤進行評估,并根據評估結果生成訓練樣本對檢測模塊的目標模型進行更新,同時對跟蹤模塊的“關鍵特征點”進行更新,以此來避免以后出現類似的錯誤。TLD模塊的詳細;流程框圖如下所示:
在詳細介紹TLD的流程之前,有一些基本知識和基本概念需要予以澄清:
基本知識:
在任意時刻,被跟蹤目標都可以用其狀態屬性來表示。該狀態屬性可以是一個表示目標所在位置、尺度大小的跟蹤框,也可以是一個標識被跟蹤目標是否可見的標記。兩個跟蹤框的空間域相似度是用重疊度(overlap)來度量,其計算方法是兩個跟蹤框的交集與兩者并集的商。目標的形狀采用圖像片(image?patch,個人認為,可以理解為滑動窗口)p來表示,每一個圖像片都是從跟蹤框內部采樣得到的,并被歸一化到15*15的大小。兩個圖相片