背景寬高隨文本變化_中科大提出ContourNet:更準確的任意形狀場景文本檢測新方法...

點擊上方“CVer”,選擇加"星標"置頂

重磅干貨,第一時間送達0fc7c6ac737631dc3fb6872fa882f455.png

本文轉載自:CSIG文檔圖像分析與識別專委會

22dfe59c3263d2c5e00fd74c33fa5f97.png

本文簡要介紹2020年被CVPR錄用的論文“ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection”的主要工作。近年來場景文本檢測的研究發展迅速,但其中有兩個困難的挑戰未被很好解決,算法容易產生偽召回(False Positives)以及對尺度變化劇烈的文本檢測不準確。為此,本文提出ContourNet算法,設計了Adaptive-RPN模塊生成更高精度質量的候選框,以及Local?Orthogonal Texture-aware Module (LOTM)模塊來解耦候選框中的水平和豎直方向的文本輪廓檢測,從而向更精確的任意形狀的場景文本檢測又邁進一步。

498bc38954e452dffcfedff79816d4b6.png

圖1 本文方法效果圖一、研究背景場景文字圖片中,文本尺度變化大,背景紋理復雜等困難導致了現有的場景文本檢測算法普遍存在兩個問題,偽召回(False?Positives)多,以及對尺度變化劇烈的文本檢測不準確。針對偽召回問題,現有的方法大多基于文本的上下文信息,全局與局部關系,以及紋理信息建模。本文作者觀察發現,偽召回中的紋理特征具有強烈的無方向性,即類似物理上的各向同性,于是將其解耦為水平方向和豎直方向的輪廓檢測,通過其聯合響應來抑制偽召回。針對尺度變換劇烈問題,現有的方法多著眼于融合多尺度特征來預測邊界框,作者則另辟蹊徑關注文本自身形狀信息的建模以及利用尺度不敏感的指標來優化網絡的檢測。二、ContourNet原理簡述

2bcc463172d93eef03ae1910e054b59b.png

圖2?網絡整體框架圖圖2是網絡的整體框架圖。ContourNet 由三個模塊組成,第一個是Adaptive-RPN模塊,用于生成高質量精度的矩形候選框;第二個是Local Orthogonal Texture-aware Module (LOTM)模塊,用于解耦候選框中水平和豎直兩個方向的輪廓檢測;第三個是Point Re-scoring Algorithm模塊,用于耦合水平和豎直方向的輪廓響應分數。下面分別介紹每個模塊的結構。主干網絡采用類似FPN結構 [1],輸出卷積特征到Adaptive-RPN,然后使用類似Faster RCNN [2]的方法,計算候選區域分類和回歸損失。在其經典的RPN [2] 中,直接回歸檢測框中心點和長寬四個偏移量,而Adaptive-RPN則回歸預定義好的9個點的坐標偏移量,(四角點,四條邊中心點,候選框中心點),如圖3所示。回歸后取外圍8點的最小包圍框,而中心點則用于矯正(e.g. 包圍框左邊界超過中心點,直接取中心點為左界)。不同于使用經典的Smooth L1 loss[2],作者利用IoU loss [3] 的尺度不敏感特性來回歸更準確的邊界框。?

0ba0c6ff6fbb1585080c1c5a4b5e16c9.png

圖3?左圖是經典RPN,右圖是Adaptive-RPN。紅點是預定義好的回歸前的錨點,綠點是回歸后的點,黃色箭頭是回歸偏移量方向示意。

圖4為LOTM結構。LOTM模塊的輸入Proposal Features是在Adaptive-RPN后的共享特征圖上使用Deformable RoI pooling [4] 和雙線性插值得到。經過1*1卷積后,展開兩個平行分支,解耦為水平和和豎直兩個正交方向的輪廓檢測。水平方向分支使用1*k的卷積核水平方向卷積,豎直方向分支則使用k*1的卷積核豎直方向卷積,k是超參數,實驗驗證使用k=3比較好。卷積后的特征圖經過Sigmoid歸一化得到相應方向的熱圖。LOTM使用交叉熵損失分類輪廓邊界點。

e3bd5db9ce81a9df75e98766400008c4.png

圖4?LOTM與Point?Re-scoring Algorithm的結構。其中Point?Re-scoring Algorithm只用于測試階段。

Point Re-scoring Algorithm模塊中,先對兩個方向熱圖進行簡單的NMS預處理濾波得到更高置信度的準確表征,然后綜合考慮LOTM輸出的水平和垂直方向上響應,即文本輪廓需同時具有兩個方向的響應,濾除單方向噪聲,從而抑制偽召回。

三、主要實驗結果及可視化效果Table 1. The single-scale results on Total-Text. * indicates the results?from [5]. Ext is the short for external data used in training?stage. y means testing at multi-scale setting. The evaluation protocol?is DetEval.?

a39964ae42ae540f403b17013cf25e54.png

Table 2. The single-scale results on CTW1500. * indicates the?results from [6]. Ext is the short for external data used in training?stage. + means testing at multi-scale setting.

f7e7208aaec498a9d9c4fd4143537d4a.png

Table 3. The single-scale results on ICDAR2015. * means testing?at multi-scale setting. + means SE blocks [7] implemented in?their backbone.?

20610c5a68f7980caac877f26e7c1ffc.png

Table?4. The performance gain of Adaptive-RPN. * and +?are results?from CTW1500 and Total-Text respectively. Small, Middle?and Large is short for small-size texts, middle-size texts and large size?texts.

052a0048ed9518b0a944a44f932d8f78.png

Table 5. The performance gain of LOTM on Total-Text. S direction?means the texture information is only modeled along a?single direction (horizontal direction is implemented here). Jointly?means the method jointly models the texture information in a 3*3?convolutional kernel.

bbf6f17e3936bed4edbccbd8a14993db.png

7254bfc504aacb9bda605afca7b31220.png

圖5?可視化結果圖作者在Total-Text,CTW-1500,ICDAR2015,三個數據集上進行了測試,Table 1,Table 2,Table 3分別是模型在上述三個數據集的性能,可以看出ContourNet在有高精度的同時具有不錯的速度。Table 4是使用RPN與本文提出的Adaptive-RPN對比結果,可以看出對不同尺度的文本都有一定的提升。Table 5是LOTM模塊對比實驗,可以看出使用單一方向或者3*3直接滑動卷積得到結果都比解耦成水平與豎直方向的LOTM差。四、總結及討論本文提出了更精確的任意方向文本檢測算法ContourNet,針對偽召回問題設計了文本水平與豎直方向的輪廓檢測方法,針對尺度變換大的文本回歸不準問題,使用改進的9點Adaptive-RPN回歸與尺度不敏感的IoU Loss計算損失。論文通過實驗對比也證明了該方法的高效性以及模型的優越性能。五、相關資源

2?ContourNet論文地址:https://arxiv.org/pdf/2004.04940.pdf

2?ContourNet開源代碼:https://github.com/wangyuxin87/ContourNet

參考文獻[1] Tsung-Yi Lin, Piotr Doll′ar, Ross B. Girshick, Kaiming He,?Bharath Hariharan, and Serge J. Belongie. Feature pyramid?networks for object detection. In CVPR, pages 936–944,?2017.[2] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.?Faster r-cnn: Towards real-time object detection with region?proposal networks. In Advances in neural information processing?systems, pages 91–99, 2015.[3] Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir?Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection?over union: A metric and a loss for bounding box?regression. In Proceedings of the IEEE Conference on Computer?Vision and Pattern Recognition, pages 658–666, 2019.[4] Xizhou Zhu, Han Hu, Stephen Lin, and Jifeng Dai. Deformable?convnets v2: More deformable, better results. In?CVPR, 2019.[5] Shangbang Long, Jiaqiang Ruan, Wenjie Zhang, Xin He,?Wenhao Wu, and Cong Yao. Textsnake: A flexible representation?for detecting text of arbitrary shapes. In ECCV,?pages 19–35. Springer, 2018.[6] Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo, Sheng Zhang.Curved scene text detection via transverse and longitudinal sequence connection. Pattern Recognition 90:337–345.[7] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks.?In Proceedings of the IEEE conference on computer?vision and pattern recognition, pages 7132–7141, 2018.

原文作者:Yuxin Wang, ?Hongtao Xie, ?Zhengjun Zha, ?Mengting Xing, ?Zilong Fu and Yongdong Zhang

撰稿:伍思航 |?編排:高?學

審校:殷 飛 |?發布:金連文

免責聲明:(1)本文僅代表撰稿者觀點,撰稿者不一定是原文作者,其個人理解及總結不一定準確及全面,論文完整思想及論點應以原論文為準。(2)本文觀點不代表本公眾號立場。

下載

在CVer公眾號后臺回復:CVPR2020,即可下載CVPR 2020所有論文和300+篇代碼開源的論文項目,開源地址如下:

https://github.com/amusi/CVPR2020-Code

重磅!CVer-論文寫作與投稿交流群成立

掃碼添加CVer助手,可申請加入CVer-論文寫作與投稿?微信交流群,目前已滿2000+人,旨在交流頂會(CVPR/ICCV/ECCV/ICML/ICLR/AAAI等)、頂刊(IJCV/TPAMI等)、SCI、EI等寫作與投稿事宜。

同時也可申請加入CVer大群和細分方向技術群,細分方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超分辨率、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch和TensorFlow等群。

一定要備注:研究方向+地點+學校/公司+昵稱(如論文寫作+上海+上交+卡卡),根據格式備注,可更快被通過且邀請進群

8b4267b629fde441e6d5ed3d8619cfdb.png

▲長按加微信群

1c191e2f79e7f60f55363ac120586b7e.png

▲長按關注CVer公眾號

整理不易,請給CVer一個在看ff611bc254aef7ef4cc50056ae3cd8b7.gif

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/454243.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/454243.shtml
英文地址,請注明出處:http://en.pswp.cn/news/454243.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python 類、模塊、包的區別

學習python的時候,碰到了import 和 from xx import xx的問題, 為了弄清楚什么是 module 和package ,這篇文章講解的不錯!! 原文: http://www.cnblogs.com/kex1n/p/5977051.html --------------------------…

Hadoop MapReduce概念學習系列之MPI和MapReduce(十三)

在當前最流行的高性能并行體系結構中比較常用的并行編程環境分為兩類:消息傳遞和共享存儲。MPI是基于消息傳遞的經典代表,是消息傳遞井行程序設計的標準,用于構建高可靠的、可伸縮的、靈活的分布式應用程消息傳遞井行處理開銷比較大,適合于大…

算法面試題匯總(更新中)

1、根據數字返回相應位置數字 def get_digit(num, i):# i0 個位 1 十位 2 百位...return num // (10 ** i) % 10# print(get_digit(12345, 6)) 2、列表反轉,不用內置函數 def reverse_list(li):n len(li)for i in range(n // 2):li[i], li[n-i-1] li[n-i-1], …

在python中os_在Python中使用os.execvp

我有一個關于在 Python中使用os.execvp的問題.我有以下用于創建參數列表的代碼: args [ "java" , classpath , "-Djava.library.path" lib_path() , ea , "-Xmx1000m" , "-server" , "code_swarm" , params ] …

WEBGL學習【四】模型視圖矩陣

<html lang"zh-CN"><!--服務器運行地址&#xff1a;http://127.0.0.1:8080/webgl/LearnNeHeWebGL/NeHeWebGL4.html--> <head><title>NeHes WebGL</title><meta charset"UTF-8"/><!--引入需要的庫文件--><scr…

使用Jmeter對mysql進行性能測試入門

使用Jmeter對mysql進行性能測試入門 第一步&#xff1a;測試環境準備&#xff1a; 1&#xff09;、mysql> select version(); ----------- | version() | ----------- | 5.5.13 | ----------- ms數據庫數據&#xff1a; mysql> select count(*) from account; ----------…

算法基礎之數據結構

whats the 數據結構 數據結構是指相互之間存在著一種或多種關系的數據元素的集合和該集合中數據元素之間的關系組成。 簡單來說&#xff0c;數據結構就是設計數據以何種方式組織并存儲在計算機中。 比如&#xff1a;列表、集合與字典等都是一種數據結構。 通常情況下&#xff…

soap接口怎么不返回tuple python_Python 中的接口

Python 是動態類型語言, 只在運行時做 Duck Typing 檢查.利: 靈活, 方便弊: 代碼混亂, 缺少規范標準自帶兩類接口支持: abc 和 typing.Protocol, 有他們協助給天馬行空的程序員套上枷鎖, Python 的大工程才可以"上道"abcabc 就是 Abstract Base Class, 虛基類. 跟 Ja…

java 第11次作業:你能看懂就說明你理解了——this關鍵字

this 代表當前對象 轉載于:https://www.cnblogs.com/qingyundian/p/7736699.html

c#多線程操作界面控件的簡單實現

一個小功能&#xff0c;早有人實現了。自己在一個項目中用到&#xff0c;覺得有必要記錄一下&#xff0c;寫下來。代碼 從上面你可能已經看出如何多線程操作同一個控件的&#xff0c;就是通過一個委托&#xff0c;然后定義委托方法&#xff0c;判斷控件的InvokeRequired屬性&am…

ssh 免密_Linux下配置SSH免密通信 “sshkeygen”的基本用法

利用 SSH 協議可以有效防止遠程管理過程中的信息泄露問題。SSH最初是UNIX系統上的一個程序&#xff0c;后來又迅速擴展到其他操作平臺。1 什么是SSH引用百度百科的說明:SSH 為 Secure Shell的縮寫&#xff0c;由 IETF 的網絡小組(Network Working Group)所制定&#xff1b;它是…

Python 第三方模塊之 NumPy - 科學計算

NumPy 簡介 NumPy 發展歷史 1995年 Jim HugUNin開發了Numeric。隨后&#xff0c;Numarray包誕生。Travis Oliphants整合Numeric和Numarray&#xff0c;開發Numpy&#xff0c;于2006年發布第一個版本。Numpy&#xff08;Numeric Python&#xff09;提供了許多高級的數值編程工…

keepalived與lvs結合使用配置實例

keepalived可以實現兩大功能是&#xff1a;健康檢測和故障轉移 keepalived.conf的配置 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950global_defs {notification_email { acassenfirewall.loc failoverfirewall.loc sysadminf…

保證你現在和未來不失業的十種關鍵技術

在當今的IT就業市場&#xff0c;有人歡喜有人憂。有人對目前的工作和薪水很滿意&#xff0c;有人目前正面臨著下崗&#xff0c;或者已經下崗…… 可能你是公司里唯一諳熟某項關鍵技術的高手&#xff0c;缺了你&#xff0c;公司便玩不轉了&#xff1b;也可能你所在的公司對你現…

python設置時間步長與時間離散格式_python怎么定義時間

Python 的 Decorator在使用上和Java/C#的Annotation很相似&#xff0c;就是在方法名前面加一個XXX注解來為這個方法裝飾一些東西。但是&#xff0c;Java/C#的Annotation也很讓人望而卻步&#xff0c;太TMD的復雜了&#xff0c;你要玩它&#xff0c;你需要了解一堆Annotation的類…

Python 第三方模塊之 matplotlib - 繪圖庫

簡介 matplotlib是受MATLAB的啟發構建的。MATLAB是數據繪圖領域廣泛使用的語言和工具。MATLAB語言是面向過程的。利用函數的調用&#xff0c;MATLAB中可以輕松的利用一行命令來繪制直線&#xff0c;然后再用一系列的函數調整結果。 matplotlib有一套完全仿照MATLAB的函數形式…

python 筆記(三) 斷言(assert)

用來調試程序的時候用&#xff0c;當程序有誤時&#xff0c;強制拋出異常轉載于:https://www.cnblogs.com/wangkeblog/p/7746022.html

網站程序員的程序員成長之路大概分幾個階段 和未來的發展

信息技術的更新速度是驚人的&#xff0c;程序員的職業生涯則是一個要求不斷學習的過程&#xff0c;如何才能成為一名合格的程序員&#xff0c;一名合格的程序員需要掌握哪些技能呢&#xff1f;為此天天招生網采訪到幾位孳生的程序工作人員&#xff0c;就如何做好一名成功的程序…

微軟P2V工具之Disk2VHD

虛擬化經過最近幾年的發展&#xff0c;已經有很多的應用和服務遷移到了虛擬化的平臺上了。在實施虛擬化的過程中就會涉及到將原來老舊的服務器來遷移到虛擬化平臺的運行&#xff0c;這就是P2V&#xff0c;物理機轉換為虛擬機。談到P2V大家會想到很多的工具&#xff0c;例如Vmwa…

生成n套數位加減乘除_leetcode 算法匯總(四)位運算

一、 運算符& 與運算&#xff1a; 兩個位都是 1 時&#xff0c;結果才為 1&#xff0c;否則為 0| 或運算&#xff1a; 兩個位都是 0 時&#xff0c;結果才為 0&#xff0c;否則為 1^ 異或運算&#xff1a; 兩個位相同則為 0&#xff0c;不同則為 1~ 取反運算&#xff1a;0 …