摘 要
本文對自然場景文本檢測問題及其方法的研究進展進行了綜述. 首先, 論述了自然場景文本的特點、自然場景文本檢測技術的研究背景、現狀以及主要技術路線. 其次, 從傳統文本檢測以及深度學習文本檢測的視角出發, 梳理、分析并比較了各類自然場景文本檢測方法的優缺點, 并介紹了端對端文本識別技術. 再次, 論述了自然場景文本檢測技術所面臨的挑戰, 探討了相應的解決方案. 最后, 本文列舉了測試基準數據集、評估方法, 將最具代表性的自然場景文本檢測方法的性能進行了比較, 本文還展望了本領域的發展趨勢.
研究背景和意義
自然場景文本檢測技術在智能交通系統、視障人導航、圖像/視頻檢索以及可穿戴/便攜式視覺系統等領域具有重要應用。隨著互聯網技術和移動設備的發展,越來越多的應用場景需要利用圖像中的文本信息。
- 國際研究熱點:自然場景文本檢測已成為計算機視覺與模式識別、文檔分析與識別領域的研究熱點。國際學術會議如CVPR、ICCV、ECCV將其列為重要主題,并定期組織自然場景文本檢測競賽。
- 國內外研究團隊: 牛津大學、捷克理工大學、日本九州大學、微軟亞洲研究院等國外研究團隊在該領域取得了一些重要研究成果。國內團隊如中科院自動化所、華中科技大學、北京科技大學、華南理工大學等在國際競賽中表現活躍,獲得了顯著成績。
- 國內研究現狀: 國內學者在自然場景文本檢測領域發表了大量論文,參與了ICDAR組織的活動,并在競賽中取得了令人矚目的成績。一些團隊在頁面目標檢測、中世紀文檔版面分析、視頻阿拉伯文本檢測與識別、中文場景文本閱讀等任務中取得了第一名。
- 中文綜述的缺失: 盡管國內學者在該領域取得了重要成果,但在中文期刊數據庫中,關于自然場景文本檢測的中文綜述幾近空白。因此,有必要對該領域的研究進行全面綜述,以推動相關技術的發展。
- 研究方法和挑戰: 文中介紹了自然場景文本檢測方法的動機、原理、優勢與不足,還討論了端對端文本識別技術、文本顯著性、視覺上下文等其他領域知識在該領域的應用。同時,指出了該技術所面臨的挑戰,并提出了一些解決方案。
- 性能評估: 文中列舉了一些測試基準數據集和評估方法,并對最具代表性的自然場景文本檢測方法的性能進行了比較。
- 發展思考: 最后,文中給出了對該領域未來發展的一些思考,鼓勵研究人員深入研究自然場景文本檢測,并拓展其應用領域,期望能夠激發更多創新性工作。
研究現狀
這一部分提到了ICDAR 2017的技術競賽和一些相關的競賽結果,以及自然場景文本檢測技術的發展趨勢和特點。以下是對文本的主要內容的總結:
ICDAR 2017競賽結果: 文中提供了ICDAR 2017競賽的鏈接,并指出了一些競賽冠軍在自然場景文本識別競賽(RCTW-17)中取得的結果,包括準確率、召回率和綜合指標。結果表明自然場景文本檢測技術在近幾年取得了顯著的發展。
自然場景文本檢測的發展歷程: 文中提到ICDAR定期舉辦的技術競賽對該領域的發展起到了推動作用。通過比較2011年和2017年的ICDAR自然場景文本檢測競賽的結果,可以看出技術性能在這幾年間有了顯著提升。
研究方向和趨勢: 對2017年CVPR、ICCV、NIPS、IJCAI、AAAI、ICDAR等頂級會議上的論文進行分析,發現超過80%的自然場景文本檢測論文主要關注多方向排列的文本檢測問題。大部分文獻主要處理英文文本,較少涉及自然場景文本識別以及端對端自然場景文本檢測與識別問題。
技術發展階段: 自然場景文本檢測技術經歷了從水平方向排列到多方向排列,從單一英文文本到多語種文本的演進。在描述特征方面,首先是基于傳統手工設計的特征,然后在2014年前后出現了基于深度學習的方法,其中卷積神經網絡(CNN)和遞歸神經網絡(RNN)等深度學習技術得到了廣泛應用。
自然場景文本的特點: 文中指出自然場景文本與疊加文本的區別,重點描述了自然場景文本的對比度、梯度、邊緣、灰度、顏色、筆畫寬度、幾何大小、視覺上下文和空間分布等視覺特性。這些特性使得自然場景文本檢測面臨更大的挑戰。
挑戰與前景: 盡管在特定數據集上取得了良好的性能,如ICDAR 2011和ICDAR 2015,但在最近的ICDAR 2017自然場景中的中文文本識別競賽中,性能仍然受到語種、排列方向、數據集規模等因素的限制。因此,該技術在成熟度和魯棒性方面仍有進一步發展的空間。
3 自然場景文本的特點
這一部分詳細描述了自然場景文本的特點,特別是與疊加文本相比,自然場景文本在多個方面具有更大的復雜性。以下是對每個特點的總結:
對比度屬性: 自然場景文本相對于其背景區域具有明顯的對比度。文本作為信息的傳遞媒介,其可讀性是存在意義的基本要求。因此,文本的灰度和顏色信息通常與背景形成明顯的對比。
梯度、邊緣屬性: 由于文本通常具有復雜的空間結構,文本區域往往包含相對密集的邊緣和明顯的梯度信息。這些特征有助于區分文本與背景。
灰度、顏色屬性: 為了提高視覺舒適性,文本往往選擇與背景有明顯反差的顏色進行書寫,并且文本的顏色與灰度分布通常均勻。
筆畫寬度屬性: 即使文本由不同的筆畫組成,同一個文本中的筆畫寬度通常是近似相等的。這有助于保持文本的一致性。
幾何大小屬性: 自然場景文本可以具有任意的尺寸大小,但為了滿足人眼的視覺需求,自然場景文本的尺寸通常在一定范圍內變化。
視覺上下文屬性: 在同一個文本行區域內,相鄰文本之間具有相近的筆畫寬度、顏色、高度以及像素灰度值等特點。這些屬性有助于理解文本的上下文關系。
空間分布屬性: 文本在圖像中通常以文本行的形式存在,相鄰文本之間的排列方式是任意的,并且它們的間隔距離通常滿足一定的規律。這種排列方式增加了文本檢測的復雜性。
通過對這些屬性的分析,可以看出自然場景文本的多樣性和復雜性,這也是自然場景文本檢測技術面臨的挑戰之一。
4 自然場景文本檢測所面臨的挑戰
自然場景文本檢測面臨著多方面的挑戰,這些挑戰使得這一領域的研究相對復雜。以下是一些主要挑戰的概述:
文本的種類多樣性: 自然場景文本涵蓋了不同的語種,每一種語種又包含了數量規模不等的文本類型。例如,英文和中文在字符種類和結構上存在很大差異。不同語種或者相同語種的不同文本類型之間的視覺特征具有顯著差異,增加了文本檢測的難度。
文本排列方向的多樣性: 相鄰自然場景文本之間的排列是沿任意方向的,而不像一般性物體檢測問題那樣固定。這使得尋找合適的描述特征與邊界框來表示文本區域變得更加困難。
文本行的多樣性: 自然場景文本行通常呈現出雜亂的視覺特征。由于不同文本行之間的結構共性較少,難以找到一個區分性好的描述特征來表達文本行區域。
文本行的大小及長寬比的不確定性: 自然場景文本行的大小不一,且其長度與寬度的比值也不確定。這導致在文本行檢測時需要考慮尺度大小問題,并增加了對文本行長寬比問題的處理難度。
文本行檢測結果的復雜性: 文本行檢測通常需要檢測整個文本序列。根據算法性能評測要求,所有的自然場景文本檢測算法需要得到以單詞為單元的檢測結果。由于不同單詞包括的字符數不同,單詞之間的間隔距離也受到單個文本檢測結果的影響,因此自然場景文本檢測相較于傳統的獨立目標檢測更具挑戰性。
5 自然場景文本檢測方法
5.1.1 傳統的自然場景文本檢測方法
基于連通域分析的方法
邊緣檢測方法:
文獻 [38, 53?57] 等采用了一些邊緣檢測算子(如 Sobel、Canny 等)檢測圖像的邊緣信息,然后對邊緣圖像進行形態學處理,剔除偽文本區域。
文獻 [55] 提取水平、垂直、左上、右上方向邊緣圖像,然后利用 K 均值聚類方法獲得初始的文本區域檢測結果,最后通過規則和投影分析驗證。
文獻 [57] 首先提取邊緣,然后通過候選邊緣重組以及識別的方法獲得文本區域。
最大穩定極值區域(MSER)方法:
MSER 方法基于分水嶺的概念,通過對圖像進行二值化處理,獲得最大穩定極值區域。這些區域能夠描述文本內部顏色的一致性,克服噪聲和仿射變換等因素的影響。
文獻 [60] 中將 MSER 方法應用于自然場景文本檢測,通過檢測最大穩定極值區域獲得文本候選區域。一些變體如 Edge-preserving MSER 算子也被提出,用于增強 MSER。
文獻 [82] 提出了對比極值區域(Contrasting extremal region, CER)方法,用于處理低對比度圖像,提高魯棒性。
文本行級檢測方法:
一些文獻 [84?87] 利用文本行上下邊緣近似平行或文本行的上下部分近似對稱的性質,實現對文本行候選區域的檢測處理。
文獻 [87] 利用自然場景文本行上下結構相似的特點,設計了一個具有對稱性的模板,并使用卷積神經網絡(CNN)進行后續處理。
基于滑動檢測窗的方法
傳統的滑動檢測窗方法首先獲得文本候選區域,然后采用手工設計的特征對候選區域進行驗證,最終獲得文本位置信息。
5.1.2 基于滑動檢測窗的方法
段的內容主要介紹了基于滑動檢測窗的自然場景文本檢測方法。以下是主要內容的總結:
方法概述: 該方法采用自頂向下的策略,通過滑動檢測窗口的方式對整幅自然場景圖像進行掃描,將每個檢測窗口所覆蓋的圖像區域視為文本候選區域。
特征提取與分類: 對于每個文本候選區域,手工設計的特征被提取,并結合已訓練好的分類器獲得該文本候選區域的置信度值。通過比較置信度值與設定的閾值,將文本候選區域分類為文本區域或背景區域。
多尺度處理: 為了適應文本大小和文本行長度的變化,采用了多尺度滑動窗口的方式來獲取文本候選區域。
分類器選擇: 該方法探討了兩種技術途徑:一般性滑窗方法和基于特定單詞的方法。在分類器選擇上,引入了級聯自適應增強算法(Cascaded Adaboost),并結合類哈爾特征等傳統特征。
特征選擇: 傳統的自然場景文本檢測技術主要選擇了手工設計的特征,如梯度邊緣特征、局部二值模式(LBP)、方向梯度直方圖(HOG)等。
問題與挑戰: 方法面臨的問題包括如何找到區分度好的描述特征,以及如何選擇滑動窗口的大小和步長。此外,該方法在處理文本尺度較小或對比度欠佳等情況時具有優勢,但在一些競賽中效果相對較差。
限制: 一些方法僅能檢測事先給定列表中的單詞,對于列表之外的單詞則無法處理。在應對新的語種文本時,需要重新設計字符模板以及標注文本部件。
總結: 盡管基于滑動檢測窗口的方法在其他物體檢測問題上取得了好的結果,但在自然場景文本檢測領域,特別是在比賽中,其效果相對遜色于基于連通區域分析的方法,而且對于訓練樣本和標注的要求較為嚴格。
5.2 基于深度學習的自然場景文本檢測方法
這一部分描述了基于深度學習的自然場景文本檢測方法的發展和應用。以下是對文本的主要觀點和方法的總結:
深度學習的優勢: 深度學習采用多隱藏層的神經網絡結構,與傳統的手工設計特征分類相比,通過組合低層特征形成更加抽象的高層來表示屬性類別。這使計算機能夠自動學習數據的有效特征表示,避免了繁瑣低效的人工特征工程。
早期應用和模型: 90年代,深度學習先驅Lecun等人早早地使用神經網絡解決文本識別問題。其中,LeNet5模型在MNIST數據集上表現出色。后續,不同的深度學習結構被提出,包括深度置信網絡(DBN)、卷積神經網絡(CNN)以及遞歸神經網絡(RNN)等。
自然場景文本檢測方法的發展歷程: 從水平方向排列的文本檢測到任意方向排列的文本檢測,以及最近少數文獻涉及的弧形排列方向的文本檢測。方法的發展經歷了基于區域建議的方法和基于圖像分割的方法。
基于區域建議的文本檢測方法: 這些方法通常遵循目標檢測的框架,使用回歸文本框的方式獲取文本區域信息。一些方法包括使用CNN提取特征,然后根據這些特征定位文本區域,采用隨機森林結合文本行的上下文信息分類文本候選區域等。
一些代表性方法: 提到了一系列基于深度學習的自然場景文本檢測方法,包括但不限于Textboxes、Textboxes++、垂直回歸建議網絡(VRPN)、旋轉區域候選網絡(RRPN)等。這些方法在文本檢測方面取得了顯著的成果。
多方向文本檢測問題的解決: 針對多方向文本檢測問題,一些方法引入了方向信息,創新性地使用四邊形窗口(非矩形)表示文本區域。其他方法提出了旋轉區域候選網絡和滑動線點回歸等方法。
端到端模型和綜合方法: 一些方法采用端到端的場景文本識別研究,結合目標候選區域的文本檢測和卷積神經網絡的文本識別。此外,還提到了一些綜合多信息屬性來獲得文本候選區域的方法。
數據集的貢獻: 文獻提到了一些研究者推出的新數據集,如SCUT-CTW1500,其中包含弧度方向排列文本,為解決該問題提供了基準。
5.2.2 基于圖像分割的文本檢測方法
Text-Block FCN:
使用全卷積網絡(FCN)進行像素級別的文本/背景標注。
通過Text-Block FCN進行像素級標定,得到每個像素屬于文本的概率。
基于概率生成文本區域顯著圖(Salient map),然后提取文本候選區域。
Cascaded Convolutional Text Network (CCTN):
采用級聯的方式檢測文本,包括Coarse-CNN和Fine-CNN。
Coarse-CNN用于檢測粗略的文本區域,然后Fine-CNN用于得到更細致的文本線。
FCN with Non-maximum Suppression (NMS):
使用全卷積神經網絡(FCN)和非最大抑制算法(NMS)的文本檢測框架。
FCN輸出文本區域像素級檢測結果,然后通過NMS獲得文本區域。
Multi-Direction Scene Text Detection with Deep Direct Regression:
基于深度直接回歸的多方向場景文本檢測方法。
對全卷積神經網絡進行端對端優化,雙任務輸出,其中一個任務是直接回歸文本邊界的頂點坐標。
DCNN and RNN for Irregular Text:
使用深度卷積神經網絡(DCNN)學習文本的高級視覺表示。
通過循環神經網絡(RNN)處理不規則文本序列。
使用FCN網絡完成密集的文本檢測任務。
PixelLink Method:
受SegLink方法啟發,提出PixelLink方法,使用深度神經網絡(DNN)進行文本/非文本和連接預測。
將文本實例中的像素標注并形成連通區域,最后直接提取文本邊界框。
Methods Based on Text Region Proposals:
該類方法通常遵循目標檢測的框架,采用回歸文本框的方式獲得文本區域的位置信息。
Challenges and Considerations:
基于圖像分割的文本檢測方法能夠較好地避免文本排列方向和長寬比的變化。
由于標注數據集的困難,后續處理通常比較復雜。
Synthetic Data for Training:
由于標注數據的不足,一些方法采用合成數據的方式生成含有文本信息的樣本,以擴充訓練集的規模。
Integration with Other Knowledge:
指出深度學習方法雖然在文本分類上表現出色,但整個自然場景文本檢測系統中的每個環節都會影響最終性能。
建議將深度學習方法與其他領域知識或技巧相結合來設計文本檢測系統。
6 端對端文本識別方法
端到端文本識別任務:
輸入為自然場景圖像,輸出為圖像中的文本內容。
文本檢測和文本識別同屬于模式分類問題,其中文本檢測是一個粗略的二分類問題,而文本識別需要完成更精細的分類任務。
研究趨勢:
大部分工作將文本檢測和文本識別作為兩個獨立的內容進行研究。
少數工作將文本檢測與文本識別融合到一個框架中,執行粗略檢測和精細分類兩個任務,以同時進行文本檢測和文本識別。
早期端到端文本識別系統:
一些早期系統主要關注文本檢測部分,而文本的識別則依賴于已有的光學字符識別引擎。
其他系統主要關注文本識別部分,使用先進的目標檢測方法進行文本檢測。
深度學習方法的出現:
2014 年前后,深度學習方法為端到端文本識別問題提供了新的解決方案。
文獻中介紹了一些基于深度學習的端到端文本識別框架,包括使用卷積神經網絡(CNN)和循環神經網絡(RNN)的方法。
具有挑戰性的任務:
端到端文本識別任務在非受限環境下的自然場景文本中的表現仍然具有挑戰性,最好的識別率僅為34.96%。
傳統方法難以取得突破,直到深度學習方法的出現。
一些端到端文本識別方法的例子:
包括基于區域建議的方法、Convolutional Recurrent Neural Network (CRNN) 方法、結合 CNN 和 HMM 的方法、SSD 框架的改進、端到端場景文本檢測和識別框架等。
對抗性訓練和半監督學習:
一些方法采用了對抗性訓練和半監督學習方法進行訓練,以提高模型的性能。
處理任意方向文本的方法:
一些方法專注于處理自然場景中任意方向的文本,通過設計新的框架和糾錯策略來提高文本識別的準確性。
最新趨勢:
一些最新方法集成了多個卷積神經網絡,有效地實現了自然場景文本檢測、識別以及文種分類等任務。
這些方法考慮到多語言場景,并采用了半監督學習等技術。
對于單個文本和多個文本構成的單詞的識別:
對于單個文本的識別,采用了傳統方法和CNN。
對于由多個文本構成的單詞,主要使用CNN+LSTM 結構,首先提取圖像特征,然后使用LSTM 學習上下文關系。
7 性能評估
7.1 測試數據集
常見的自然場景文本檢測數據集包括:
ICDAR 系列數據集(ICDAR 03, ICDAR 11, ICDAR 13, ICDAR 15):
包含英文水平方向的文本。
ICDAR 2015 數據庫包含多語種且文本排列方向任意。
其他數據集:
SVT, MSRA-TD500, KIST, OSTD, NEOCR, USTB-SV1K, COCO-Text, RCTW-17, SCUT-CTW1500。
7.2 評估方法
為了客觀評估自然場景文本檢測方法的性能,采用了幾種測評方法,主要關注以下三個性能參數:
準確率 §:表示檢測得到的真實文本與所有檢測結果之間的比率。
召回率 ?:表示檢測得到的真實文本和所有手工標注的真實文本之間的比值。
綜合評價指標 (F):是準確率與召回率的調和平均值,是評價文本檢測方法性能的綜合指標。
7.2.1 ICDAR 2003/2005 評估方法
通過比較檢測結果的最小外接矩形與手工標注的文本區域矩形,計算文本檢測召回率、精確率以及綜合評價指標。采用匹配度定義來評估矩形之間的匹配情況。
7.2.2 ICDAR 2011/2013 評估方法
考慮了一對一、一對多和多對一的匹配情形,采用召回率約束項和精確率約束項來定義準確率和召回率。
7.2.3 ICDAR 2015 評估方法
采用目標檢測評價方法,通過比較檢測結果矩形框與 Ground-truth 矩形框之間的公共區域與并集區域之間的比值來進行評估。
7.2.4 MSRA-TD500 評估方法
采用最小面積矩形框進行標記,考慮了傾斜角之差和面積覆蓋率,定義了準確率、召回率和綜合評價指標。
7.3 測試結果
代表性的文本檢測方法在各類公開數據集上進行測試,綜合標價指標在不同數據庫上有顯著提升,表明自然場景文本檢測技術在近幾年取得了長足發展。
8 自然場景文本檢測方法存在的問題
端到端場景文本識別問題: 目前端到端場景文本識別研究相對單薄,大部分工作將文本檢測與文本識別作為獨立任務處理,而端到端場景文本識別的性能有提升空間。
多方向與形變文本檢測問題: 大多數自然場景文本檢測方法主要針對直線方向排列的文本,而實際場景中文本可能以多種方向排列,且存在形變,這給文本檢測帶來挑戰。
少語種與混合語種文本檢測問題: 大多數方法只能檢測單一語種文本或者極少數混合語種文本,而全球存在大量語言,對于混合語種文本檢測存在挑戰,包括文本種類繁多、空間結構多樣等問題。
文本檢測結果評價方法問題: 目前的評價方法主要采用IoU指標,但該指標不能很好地反映文本檢測方法的性能,特別是不能保證高IoU的檢測結果一定能在后續的文本識別與語義理解中表現良好。
文本檢測研究內容與創新性問題: 大多數文本檢測方法主要關注多方向排列的場景文本檢測問題,缺乏對自然場景文本識別與端到端自然場景文本檢測與識別問題的深入研究。此外,一些方法在追求性能時缺乏創新和深度思考。
9 發展趨勢及應用
9.1 任務實施步驟層面的幾點思考
提出了三個關鍵問題:如何獲得文本候選區域、如何驗證文本候選區域以及如何得到以單詞為分割單元的檢測結果。
建議綜合使用自頂向下和自底向上檢測方法,利用文本的聚集性和視覺上下文信息提高檢測效率和召回率。
探討了基于深度學習的目標檢測方法在文本檢測中的應用,強調融入文本上下文信息的重要性。
9.2 任務整體層面的思考
指出絕大部分文本檢測方法主要針對直線排列文本,對包含弧形排列的文本檢測的研究相對較少。
討論了對任意方向排列文本進行檢測面臨的問題,包括文本區域描述和文本行的形成。
9.3 領域知識對文本檢測性能影響的幾點思考
強調自然場景文本檢測是一個典型的二分類模式識別問題,可以借鑒其他目標檢測方法的思路。
討論了視覺注意機制和視覺上下文對文本檢測性能的影響,提出了合理設計視覺顯著性模型和融入文本上下文信息的方法。
9.4 應用層面的幾點思考
探討了自然場景文本檢測技術在智能交通系統、基于內容的視頻檢索系統、可穿戴/便攜式視覺系統等領域的應用。
提出了將文本檢測技術與其他領域結合,如在無人駕駛汽車、圖像理解、文種識別等方面的應用。
9.5 其他問題的思考
提出了一些未來可能的研究方向,如大腦是否存在專門處理文本識別的機構、深度學習網絡深度規模選擇的問題、多語種文本檢測的通用描述特征等。
10 結束語
總結了自然場景文本檢測的研究背景、發展現狀,介紹了端對端文本識別技術和領域內的新發展對該技術的影響。
對自然場景文本檢測技術的未來發展方向和潛在應用領域進行了分析與展望,強調該技術在各種應用需求下將不斷拓展和成熟。
王潤民 (WANG Run-Min)
職位:國防科技大學博士后,湖南師范大學物理與信息科學學院講師。
學歷:2015年獲得華中科技大學博士學位。
研究方向:計算機視覺與模式識別。
桑農 (SANG Nong)
職位:華中科學技術大學自動化學院教授。
學歷:2000年獲得華中科技大學博士學位。
研究方向:計算機視覺與模式識別。
丁丁 (DING Ding)
職位:國防科技大學教研保障中心講師。
學歷:2010年獲得國防科技大學博士學位。
研究方向:計算機視覺與模式識別。
陳杰 (CHEN Jie)
職位:芬蘭奧盧大學電氣與信息工程系資深教授。
學歷:2007年獲得哈爾濱工業大學博士學位。
研究方向:計算機視覺與模式識別。
葉齊祥 (YE Qi-Xiang)
職位:中國科學院大學電子電氣與通信工程學院教授。
學歷:2006年獲得中國科學院計算技術研究所博士學位。
研究方向:機器學習與視覺目標感知。
高常鑫 (GAO Chang-Xin)
職位:華中科學技術大學自動化學院副教授。
學歷:2010年獲得華中科技大學博士學位。
研究方向:計算機視覺與模式識別。
劉麗 (LIU Li)
職位:國防科技大學信息系統與管理學院副教授。
學歷:2012年獲得國防科技大學博士學位。
研究方向:圖像理解,計算機視覺,模式識別。
通信作者。