checkbox wpf 改變框的大小_【論文閱讀】傾斜目標范圍框(標注)的終極方案

e988b8dd3ddb710fba96bc74cb4a376e.png

前言

最常用的斜框標注方式是在正框的基礎上加一個旋轉角度θ,其代數表示為(x_c,y_c,w,h,θ),其中(x_c,y_c )表示范圍框中心點坐標,(w,h)表示范圍框的寬和高[1,2,7]。對于該標注方式,如果將w和h的值互換,再將θ加上或者減去2kπ+π?2,就能夠表示同一個范圍框。由于同一個范圍框有多種不同的數值表示,會導致近似范圍框之間的數值差異有大大小小多種情況。如果近似范圍框之間的數值差異大,對于基于監督分類的方法來說,就是損失函數的取值異常[7],不利于模型訓練。此標注方式還有一種變形,標注正框時不是記錄寬和高,而是記錄中心點到四邊的距離[6],當然同樣會有損失異常的問題。

記錄四個頂點的坐標也可以用于標注斜框,武大夏桂松和華科白翔團隊制作的DOTA[4]數據集以及中國科學院大學模式識別與智能系統開發實驗室標注的UCAS-AOD[5]數據集就采用了這種標注方式。由于可以從四個頂點中的任意一個開始記錄,此標注方式導致同一個范圍框有多種不同的數值表示,進而會導致損失異常[7],增加回歸難度,不利于模型訓練。避免損失異常的現行方式是按照坐標值排序頂點,然后計算對應坐標點之間的差異。這種處理方式也是有問題的,對坐標值排序會改變數值維度間的對應關系[8, 9],也就是說,在某次損失計算過程中預測向量的第一維對應真值向量的第二維,在另外一次損失計算過程中第一維可能對應第三維。這種對應關系的隨機性同樣不利于模型訓練。記錄四個頂點坐標的好處是可以表示任意四邊形,但是在表示矩形時會有三個冗余量。一種去除冗余的方式是按順時針順序記錄矩形四個頂點中的前兩個和第二個頂點到第三個頂點的距離[7],但是同樣會出現一個范圍框有多種不同的數值表示。

還有一種斜框標注方式是記錄斜框的外接正框以及斜框四個頂點與正框四個頂點順時針方向的偏移量[8]。該標注方式同樣可以表示任意四邊形,如果只記錄斜框量個頂點與正框兩個頂點順時針方向的偏移量就只能表示矩形框[9]。目前沒有用該標注方式標注樣本的,而是用于先預測正框再進一步預測真實的斜框,在預測正框時將錨點框向斜框的外接正框回歸。但是要想斜框預測得準確就要求正框也得預測準確,增加了預測目標數量,也就增加了回歸難度,同樣不利于模型訓練。

本文提供了一種矩形斜框標注方式,可以用作樣本標注和模型的回歸目標。該標注方式沒有冗余量,同一個范圍框只有一種數值表示,作為回歸目標時不會出現損失異常,有利于模型訓練。本文還將此標注方式與多種其他傾斜范圍框標注方式在目標檢測任務上進行了對比驗證。對比實驗證明此標注方式對于朝向任意、密集排布的目標檢測具有一定的優勢。

標注方法

本文提供的斜框標注方式用于標注的量有“中心點C的坐標、中心點到任意一個頂點D的向量□((CD) ? )、C到D的一個相鄰頂點E的向量□((CE) ? )在□((CD) ? )上的投影向量□((CP) ? )與□((CD) ? )的比例系數”,代數表示為(x_c,y_c,u,v,ρ),其中(x_c,y_c )為中心點C的坐標,(u,v)為向量□((CD) ? )的坐標,ρ為向量□((CP) ? )與□((CD) ? )的比例系數。

圖1中黑實線表示傾斜范圍框,X表示表示圖像行方向上的坐標軸,Y表示圖像列方向上的坐標軸,C表示范圍框的中心點,D、E為范圍框的某兩個頂點,P為□((CE) ? )在□((CD) ? )上的投影點。

由于向量□((CD) ? )可以從四個中任取,□((CE) ? )向量可以從兩個中任取,必須提供一些外在約束確保標注方式數值表示的唯一性。首先,要求ρ的取值范圍為[0,1) ,也就是□((CP) ? )與□((CD) ? )同向;另外要求從□((CD) ? )到□((CE) ? )的夾角只能是順時針方向或者逆時針方向中的一種。

2497bca55ed89158c1e4bbee81966ec8.png
圖1-用于標注范圍框的量有中心點C、向量□((CD) ? )、□((CP) ? )與□((CD) ? )的比例系數

如此一來,同一個范圍框只有兩種數值表示。也就是說,將向量□((CD) ? )取反,但保持其它值不變,仍然表示同一個范圍框。由于同一個范圍框的兩種表示之間只有向量(CD) ?是相反的,可以引入一個量s表示(CD) ?的兩個分量是同正負的還是一正一負的(后文將稱之為同號或異號,可見s只有兩種取值),那么可以用(|u|,|v|,s)表示(CD) ?和-(CD) ?。同號時,(CD) ?和-(CD) ?分別為(|u|,|v| )和(-|u|,-|v| );異號時,(CD) ?和-(CD) ?分別為(-|u|,|v| )和(|u|,-|v| )。此時就可以將同一個范圍框的數值表示減少到一個,其代數表示為(x_c,y_c,|u|,|v|,s,ρ)。

從圖1中還可以看出,如果是正框,顯然向量(CD) ?的坐標就是范圍框寬高的一半。可以通過令(u,v)=2(CD) ?使該標注方式與正框的相應標注方式兼容。

求解頂點坐標和邊長

在給定標注數值(x_c,y_c,|u|,|v|,s,ρ)時,向量□((CD) ? )就是已知的,向量□((CP) ? )可以表示為□(ρ(CD) ? )。那么要獲得范圍框四個頂點的坐標,將引入的外部約束用方程進行表示,通過求解以下方程組的實現。

73cea27d30ce52096666f115cdcec601.png

方程組中的第一個式子表示向量□((EP) ? )與向量□((CD) ? )垂直,第二個式子表示向量□((CP) ? )與向量□((CD) ? )的長度相等,第三個式子表示從□((CD) ? )到□((CE) ? )的夾角只能是順時針方向或者逆時針方向中的一種。第三個式子只取用一個即可。

范圍框的邊長可以用下式計算。

cb3078baae9fc91dfcccfb452b53070d.png

式中w_b是范圍框的短邊長度,h_b是范圍框的長邊長度。

正方形范圍框

易知,在范圍框是正方形時,即使滿足前述約束條件,仍然有兩種數值表示。取任意一個頂點作為參考向量□((CD) ? ),中心點到其順時針或逆時針方向的相鄰頂點的向量在□((CD) ? )上的投影總是0。如果ρ的取值不允許為0,就不能表示正方形范圍框,雖然正方形范圍框非常少見。

我們解決方案是,為正方形范圍框引入額外的約束:□((CD) ? )與X軸夾角的取值范圍為[ 0,90) 度。這這個約束條件下,□((CD) ? )只能落在X軸上或者第一、三象限。

e63882ba62c4d2e368d503cbf0d01f15.png
圖2 正方形范圍框

s的損失平滑

圖3中實線和虛線范圍框的s值不同,但是它們卻是非常近似的范圍框。因此s值的差異不能真實體現范圍框之間的差異。容易看出,□((CD) ? )與坐標軸的夾角越小,s的差異越是不能真實體現范圍框之間的差異。

1b71bb67a13ccdb5ff32f7a214092a54.png
圖3 s值不同,但是它們卻是非常近似的范圍框

□((CD) ? )與坐標的夾角越小,□((CD) ? )的兩個分量的模之間的差異越大。當□((CD) ? )的兩個分量的模之間的差異大到一定程度后,為s的差值乘上一個很小的權重來平滑s的差異與范圍框的真實差異間的錯配

我們首先設計了一個函數用于度量□((CD) ? )的兩個分量的模之間的差異。

e3b2215c555f10cfaf4e441d43022858.png

其中|u|,|v|分別是□((CD) ? )的兩個分量的模。可見diff的取值范圍為[0,1],當|u|,|v|相等時取零,當其中一個為0時取1。在公式(4)中采用了平方函數,實際應用中,為了加快計算速度推薦使用求絕對值函數。然后將diff代入反Sigmoid函數求出s損失的權重。(PS:相減除以相加是常用的評估兩個數量之間相對差異的方式,比如NDVI、NDWI。)

后記

弄這個東西純屬于臨時起意,早些時候為公司做了一個基于深度學習的遙感影像目標檢測軟件,總覺得當時用的范圍框標注方式不夠好。抽了個時間琢磨了一下,設計了這樣一種標注方法。先寫好了專利,覺得把時間投入到深度學習里純屬于浪費生命,問了幾個人是否愿意參與進來做個實驗,我來寫個論文,一作讓出去;然而他們不是沒空,就是水平沒到。

這個標注方式確實還有點價值,不想給埋沒了,只得自己動手,設計了一個目標檢測網絡,在一些數據集上初步試驗了效果,寫了論文的初稿。恰好用了一個月的時間,下面那個分割算法倉庫的提交日志記錄下來了時間,2-15到3-15。

7537f8fb6914a3e1df58c5efb51e0bba.png

最終論文會發表到國內某個學報上。發論文不是目的,都是先寫專利,論文從專利說明書改出來的。專利說明書中文寫的,也不想翻譯,發中文期刊省事。

這里僅介紹了范圍框標注方式,正式發表的論文里還包含了一個用于對比驗證這個標注方式的網絡,還有一些試驗數據和結論。關于那個目標檢測網絡沒啥好說的,結構簡單不新奇。有了這個標注方式,諸位可以輕松想到,或者想到更好的。另外……

2446e7c28174b1df6a8f883ec25c4a5b.png
神經網絡的結構有啥好說的

論文出來之后,代碼將會公開到tgis-top/TRD。

引用

[1] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: towards real-time object detection with region proposal networks. In IEEE Transactions on Pattern Analysis and Machine Intelligence, (6):1137–1149, 2017.

[2] Joseph Redmon, Santosh Divvala, Ross Girshick and Ali Farhadi. You only look once: Unified, real-time object detection. In Proc. of CVPR, p779–788, 2016.

[3] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg. Ssd: Single shot multibox detector. In ECCV, p21–37. Springer, 2016.

[4] Gui-Song Xia, Xiang Bai, Jian Ding, Zhen Zhu, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, and Liangpei Zhang. DOTA: A Large-scale Dataset for Object Detection in Aerial Images. In CVPR, 2018.

[5] Haigang Zhu, Xiaogang Chen, Weiqun Dai, Kun Fu, Qixiang Ye, Jianbin Jiao. Orientation Robust Object Detection in Aerial Images Using Deep Convolutional Neural Network. IEEE Int'l Conf. Image Processing, 2015.

[6] Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, and Jiajun Liang. East: an efficient andaccurate scene text detector. In Proc. CVPR, p2642–2651, 2017.

[7] Yingying Jiang, Xiangyu Zhu, Xiaobing Wang, Shuli Yang,Wei Li, Hua Wang, Pei Fu, and Zhenbo Luo. R2cnn: rotational region cnn for orientation robust scene text detection. arXiv:1706.09579, 2017.

[8] Xue Yang,Jirui Yang, Junchi Yan, Yue Zhang, Tengfei Zhang, Zhi Guo, Sun Xian, and Kun Fu. SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objs. In ICCV, 2019.

[9] Yongchao Xu, Mingtao Fu, Qimeng Wang, Yukang Wang, Kai Chen, Gui-Song Xia, and Xiang Bai. Gliding vertex on the horizontal bounding box for multi-oriented obj detection. arXiv:1911.09358, 2019.

[10] Youtian Lin, Pengming Feng, and Jian Guan. IENet: Interacting Embranchment One Stage Anchor Free Detector for Orientation Aerial Object Detection. arXiv:1912.00969, 2019.

[11] Tsung-Yi Lin, Piotr Doll ?ar, Ross B Girshick, Kaiming He, Bharath Hariharan, and Serge J Belongie. Feature pyramid networks for object detection. In Proc. of CVPR, vol 1, page 4, 2017.

[12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proc. of CVPR, pages 770–778, 2016.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/532443.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/532443.shtml
英文地址,請注明出處:http://en.pswp.cn/news/532443.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

徹底理解BP之手寫BP圖像分類你也行

徹底理解BP之手寫BP圖像分類你也行 轉自:https://zhuanlan.zhihu.com/p/397963213 第一節:用矩陣的視角,看懂BP的網絡圖 1.1、什么是BP反向傳播算法 BP(Back Propagation)誤差反向傳播算法,使用反向傳播算法的多層感知器又稱為B…

h5頁面禁止復制_H5移動端頁面禁止復制技巧

前言:業務需要,需要對整個頁面禁止彈出復制菜單。在禁止的頁面中加入以下css樣式定義* {-webkit-touch-callout:none;/*系統默認菜單被禁用*/-webkit-user-select:none;/*webkit瀏覽器*/-khtml-user-select:none;/*早起瀏覽器*/-moz-user-select:none;/*…

梯度下降法和牛頓法計算開根號

梯度下降法和牛頓法計算開根號 本文將介紹如何不調包,只能使用加減乘除法實現對根號x的求解。主要介紹梯度下降和牛頓法者兩種方法,并給出 C 實現。 梯度下降法 思路/步驟 轉化問題,將 x\sqrt{x}x? 的求解轉化為最小化目標函數&#xff…

匯博工業機器人碼垛機怎么寫_全自動碼垛機器人在企業生產中的地位越來越重要...

全自動碼垛機器人在企業生產中的地位越來越重要在智能化的各種全自動生產線中,全自動碼垛機器人成了全自動生產線的重要機械設備,在各種生產中發揮著不可忽視的作用。全自動碼垛機器人主要用于生產線上的包裝過程中,不僅能夠提高企業的生產率…

kmeans手寫實現與sklearn接口

kmeans手寫實現與sklearn接口 kmeans簡介 K 均值聚類是最基礎的一種聚類方法。它是一種迭代求解的聚類分析算法。 kmeans的迭代步驟 給各個簇中心 μ1,…,μc\mu_1,\dots,\mu_cμ1?,…,μc? 以適當的初值; 更新樣本 x1,…,xnx_1,\dots,x_nx1?,…,xn? 對應的…

小說中場景的功能_《流浪地球》:從小說到電影

2019年春節賀歲檔冒出一匹黑馬:國產科幻片《流浪地球》大年初一上映后口碑、票房雙豐收:截至9日下午,票房已破15億,并獲得9.2的高評分。著名導演詹姆斯卡梅隆通過社交媒體對我國春節期間上映的科幻影片《流浪地球》發出的祝愿&…

線性回歸與邏輯回歸及其實現

線性回歸與邏輯回歸及其實現 回歸與分類 預測值定性分析,即離散變量預測時,稱之為分類;預測值定量分析,即連續變量預測時,稱之為回歸。 如預測一張圖片是貓還是狗,是分類問題;預測明年的房價…

hbase 頁面訪問_HBase

HBase 特點 海量存儲 Hbase 適合存儲 PB 級別的海量數據,在 PB 級別的數據以及采用廉價 PC 存儲的情況下,能在幾十到百毫秒內返回數據。這與 Hbase 的極易擴展性息息相關。正式因為 Hbase 良好的擴展性,才為海量數據的存儲提供了便利。 2&…

深入理解L1、L2正則化

深入理解L1、L2正則化 轉自:【面試看這篇就夠了】L1、L2正則化理解 一、概述 正則化(Regularization)是機器學習中一種常用的技術,其主要目的是控制模型復雜度,減小過擬合。正則化技術已經成為模型訓練中的常用技術&a…

rk3128屏幕占空比參數設置_瑞芯微RK3128芯片怎么樣 性能全面解讀

最近,筆者聽說一款搭載瑞芯微RK3128芯片方案的盒子問市了,打聽了一下才知道還真有其事,這款上市的RK3128盒子叫做開博爾M1,報價229元,這個價位在如今的四核網絡機頂盒市場可謂是不多見,但是這款芯片的性能怎…

機器學習中的概率模型

機器學習中的概率模型 轉自:https://zhuanlan.zhihu.com/p/164551678 機器學習中的概率模型 概率論,包括它的延伸-信息論,以及隨機過程,在機器學習中有重要的作用。它們被廣泛用于建立預測函數,目標函數,以…

訪問云服務器儲存的mp4_訪問云服務器儲存的mp4

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":6,"count":6}]},"card":[{"des":"云服務器 ECS(Elastic Compute Service)是一…

先驗、后驗、似然

先驗、后驗、似然 先驗分布、后驗分布和似然函數 本節轉自:先驗分布、后驗分布、似然估計這幾個概念是什么意思,它們之間的關系是什么? 通俗解釋 先驗分布:根據一般的經驗認為隨機變量應該滿足的分布。先驗分布是你瞎猜參數服從啥…

max std value 宏_Rust Macro/宏 新手指南

Rust語言最強大的一個特點就是可以創建和利用宏/Macro。不過創建 Rust宏看起來挺復雜,常常令剛接觸Rust的開發者心生畏懼。這片文章 的目的就是幫助你理解Rust Macro的基本運作原理,學習如何創建自己的 Rust宏。相關鏈接:在線學編程 - 匯智網…

高斯分布及其極大似然估計

高斯分布及其極大似然估計 高斯分布 一維高斯分布 一維高斯分布的概率密度函數為: N(μ,σ2)12πσexp?(?(x?μ)22σ2)N(\mu,\sigma^2)\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) N(μ,σ2)2π?σ1?exp(?2σ2(x?μ)2?) 多維高斯分布…

農林資金 大數據審計案例_大數據審計:現狀與發展

大數據審計:現狀與發展【摘要】傳統手工環境下,審計人員常用的審計方法包括檢查法、觀察法、重新計算法、外部調查法、分析法、鑒定法等。隨著信息技術的發展,被審計單位的運行越來越依賴于信息化環境。信息化環境下審計工作發生了巨大的變化…

商標45類分類表明細表_2019版注冊商標分類表,商標注冊45類范圍明細

注冊商標的時候都是要確定具體的產品或服務的,目前我國商標分類是用《類似商品和服務區分表–基于尼斯分類第十一版》2019年版這本分類書。這本分類表也是全球通用的分類表,商標分類總共有45個類別,1-34類是產品類、35-45類是服務類。這45個大…

高維高斯分布基礎

高維高斯分布基礎 多位高斯分布的幾何理解 多維高斯分布表達式為: p(x∣μ,Σ)1(2π)p/2∣Σ∣1/2e?12(x?μ)TΣ?1(x?μ)p(x|\mu,\Sigma)\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)} p(x∣μ,Σ)(2π)p/2∣Σ∣1/21?…

angularjs sill 創建項目_開源項目——博客項目MyBlogs.Core,基于.NET 5

個人博客站項目源碼,高性能低占用的博客系統,這也許是我個人目前寫過的性能最高的web項目了 。目前日均處理請求數80-120w次,同時在線活躍用戶數30-100人,數據量累計已達到100多萬條,數據庫Redis網站主程序同時運行在一…

懷舊服推薦配置_【懷舊服】狂暴戰P4畢業裝備推薦

在懷舊服開啟P4階段之后,狂暴戰玩家的輸出也得到了進一步的提升。當然,狂暴戰想要打出足夠的傷害離不開對應的裝備,現在就給大家介紹下狂暴戰P4階段的BIS裝備。散件裝備狂暴戰在這一階段依舊有非常不錯的散件裝備,個人建議玩家入手…