背景寬高隨文本變化_中科大提出ContourNet：更準確的任意形狀場景文本檢測新方法...

點擊上方“CVer”，選擇加"星標"置頂

重磅干貨，第一時間送達

本文轉載自：CSIG文檔圖像分析與識別專委會

本文簡要介紹2020年被CVPR錄用的論文“ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection”的主要工作。近年來場景文本檢測的研究發展迅速，但其中有兩個困難的挑戰未被很好解決，算法容易產生偽召回(False Positives)以及對尺度變化劇烈的文本檢測不準確。為此，本文提出ContourNet算法，設計了Adaptive-RPN模塊生成更高精度質量的候選框，以及Local?Orthogonal Texture-aware Module (LOTM)模塊來解耦候選框中的水平和豎直方向的文本輪廓檢測，從而向更精確的任意形狀的場景文本檢測又邁進一步。

圖1 本文方法效果圖一、研究背景場景文字圖片中，文本尺度變化大，背景紋理復雜等困難導致了現有的場景文本檢測算法普遍存在兩個問題，偽召回(False?Positives)多，以及對尺度變化劇烈的文本檢測不準確。針對偽召回問題，現有的方法大多基于文本的上下文信息，全局與局部關系，以及紋理信息建模。本文作者觀察發現，偽召回中的紋理特征具有強烈的無方向性，即類似物理上的各向同性，于是將其解耦為水平方向和豎直方向的輪廓檢測，通過其聯合響應來抑制偽召回。針對尺度變換劇烈問題，現有的方法多著眼于融合多尺度特征來預測邊界框，作者則另辟蹊徑關注文本自身形狀信息的建模以及利用尺度不敏感的指標來優化網絡的檢測。二、ContourNet原理簡述

圖2?網絡整體框架圖圖2是網絡的整體框架圖。ContourNet 由三個模塊組成，第一個是Adaptive-RPN模塊，用于生成高質量精度的矩形候選框；第二個是Local Orthogonal Texture-aware Module (LOTM)模塊，用于解耦候選框中水平和豎直兩個方向的輪廓檢測；第三個是Point Re-scoring Algorithm模塊，用于耦合水平和豎直方向的輪廓響應分數。下面分別介紹每個模塊的結構。主干網絡采用類似FPN結構 [1]，輸出卷積特征到Adaptive-RPN，然后使用類似Faster RCNN [2]的方法，計算候選區域分類和回歸損失。在其經典的RPN [2] 中，直接回歸檢測框中心點和長寬四個偏移量，而Adaptive-RPN則回歸預定義好的9個點的坐標偏移量，(四角點，四條邊中心點，候選框中心點)，如圖3所示。回歸后取外圍8點的最小包圍框，而中心點則用于矯正(e.g. 包圍框左邊界超過中心點，直接取中心點為左界)。不同于使用經典的Smooth L1 loss[2]，作者利用IoU loss [3] 的尺度不敏感特性來回歸更準確的邊界框。?

圖3?左圖是經典RPN，右圖是Adaptive-RPN。紅點是預定義好的回歸前的錨點，綠點是回歸后的點，黃色箭頭是回歸偏移量方向示意。

圖4為LOTM結構。LOTM模塊的輸入Proposal Features是在Adaptive-RPN后的共享特征圖上使用Deformable RoI pooling [4] 和雙線性插值得到。經過1*1卷積后，展開兩個平行分支，解耦為水平和和豎直兩個正交方向的輪廓檢測。水平方向分支使用1*k的卷積核水平方向卷積，豎直方向分支則使用k*1的卷積核豎直方向卷積，k是超參數，實驗驗證使用k=3比較好。卷積后的特征圖經過Sigmoid歸一化得到相應方向的熱圖。LOTM使用交叉熵損失分類輪廓邊界點。

圖4?LOTM與Point?Re-scoring Algorithm的結構。其中Point?Re-scoring Algorithm只用于測試階段。

Point Re-scoring Algorithm模塊中，先對兩個方向熱圖進行簡單的NMS預處理濾波得到更高置信度的準確表征，然后綜合考慮LOTM輸出的水平和垂直方向上響應，即文本輪廓需同時具有兩個方向的響應，濾除單方向噪聲，從而抑制偽召回。

三、主要實驗結果及可視化效果Table 1. The single-scale results on Total-Text. * indicates the results?from [5]. Ext is the short for external data used in training?stage. y means testing at multi-scale setting. The evaluation protocol?is DetEval.?

Table 2. The single-scale results on CTW1500. * indicates the?results from [6]. Ext is the short for external data used in training?stage. + means testing at multi-scale setting.

Table 3. The single-scale results on ICDAR2015. * means testing?at multi-scale setting. + means SE blocks [7] implemented in?their backbone.?

Table?4. The performance gain of Adaptive-RPN. * and +?are results?from CTW1500 and Total-Text respectively. Small, Middle?and Large is short for small-size texts, middle-size texts and large size?texts.

Table 5. The performance gain of LOTM on Total-Text. S direction?means the texture information is only modeled along a?single direction (horizontal direction is implemented here). Jointly?means the method jointly models the texture information in a 3*3?convolutional kernel.

圖5?可視化結果圖作者在Total-Text，CTW-1500，ICDAR2015，三個數據集上進行了測試，Table 1，Table 2，Table 3分別是模型在上述三個數據集的性能，可以看出ContourNet在有高精度的同時具有不錯的速度。Table 4是使用RPN與本文提出的Adaptive-RPN對比結果，可以看出對不同尺度的文本都有一定的提升。Table 5是LOTM模塊對比實驗，可以看出使用單一方向或者3*3直接滑動卷積得到結果都比解耦成水平與豎直方向的LOTM差。四、總結及討論本文提出了更精確的任意方向文本檢測算法ContourNet，針對偽召回問題設計了文本水平與豎直方向的輪廓檢測方法，針對尺度變換大的文本回歸不準問題，使用改進的9點Adaptive-RPN回歸與尺度不敏感的IoU Loss計算損失。論文通過實驗對比也證明了該方法的高效性以及模型的優越性能。五、相關資源

2?ContourNet論文地址：https://arxiv.org/pdf/2004.04940.pdf

2?ContourNet開源代碼：https://github.com/wangyuxin87/ContourNet

參考文獻[1] Tsung-Yi Lin, Piotr Doll′ar, Ross B. Girshick, Kaiming He,?Bharath Hariharan, and Serge J. Belongie. Feature pyramid?networks for object detection. In CVPR, pages 936–944,?2017.[2] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.?Faster r-cnn: Towards real-time object detection with region?proposal networks. In Advances in neural information processing?systems, pages 91–99, 2015.[3] Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir?Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection?over union: A metric and a loss for bounding box?regression. In Proceedings of the IEEE Conference on Computer?Vision and Pattern Recognition, pages 658–666, 2019.[4] Xizhou Zhu, Han Hu, Stephen Lin, and Jifeng Dai. Deformable?convnets v2: More deformable, better results. In?CVPR, 2019.[5] Shangbang Long, Jiaqiang Ruan, Wenjie Zhang, Xin He,?Wenhao Wu, and Cong Yao. Textsnake: A flexible representation?for detecting text of arbitrary shapes. In ECCV,?pages 19–35. Springer, 2018.[6] Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo, Sheng Zhang.Curved scene text detection via transverse and longitudinal sequence connection. Pattern Recognition 90:337–345.[7] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks.?In Proceedings of the IEEE conference on computer?vision and pattern recognition, pages 7132–7141, 2018.

原文作者：Yuxin Wang, ?Hongtao Xie, ?Zhengjun Zha, ?Mengting Xing, ?Zilong Fu and Yongdong Zhang

撰稿：伍思航 |?編排：高?學

審校：殷飛 |?發布：金連文

免責聲明：(1)本文僅代表撰稿者觀點，撰稿者不一定是原文作者，其個人理解及總結不一定準確及全面，論文完整思想及論點應以原論文為準。(2)本文觀點不代表本公眾號立場。

下載

在CVer公眾號后臺回復：CVPR2020，即可下載CVPR 2020所有論文和300+篇代碼開源的論文項目，開源地址如下：

https://github.com/amusi/CVPR2020-Code

重磅！CVer-論文寫作與投稿交流群成立

掃碼添加CVer助手，可申請加入CVer-論文寫作與投稿?微信交流群，目前已滿2000+人，旨在交流頂會(CVPR/ICCV/ECCV/ICML/ICLR/AAAI等)、頂刊(IJCV/TPAMI等)、SCI、EI等寫作與投稿事宜。

同時也可申請加入CVer大群和細分方向技術群，細分方向已涵蓋：目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超分辨率、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch和TensorFlow等群。

一定要備注：研究方向+地點+學校/公司+昵稱(如論文寫作+上海+上交+卡卡)，根據格式備注，可更快被通過且邀請進群