深度學習之 ROI Pooling

什么是ROI?

ROI是 Region of interest 的簡寫,指的是 Faster R-CNN 結構中,經過 RPN 層后,產生的 proposal 對應的 box 框。

ROI Pooling 顧名思義,是 pooling 層的一種,而且是針對 ROIs 的 pooling。整個 ROI 的過程,就是將這些 proposal 摳出來的過程,得到大小統一的 feature map。

ROI Pooling 的輸入

ROI Pooling 該層有兩個輸入:

  1. 從具有多個卷積核池化的深度網絡中獲得的固定大小的feature maps;
  2. 一個表示所有 ROI 的 N*5 的矩陣,其中N表示ROI的數目。一列表示圖像index,其余四列表示其余的左上角和右下角坐標;

ROI Pooling 的輸出

輸出是 batch 個 vector,其中 batch 的值等于 roi 的個數,vector的大小為 channel?w?hchannel*w*hchannel?w?h;ROI Pooling 的過程就是將一個個大小不同的 box 矩形框,都映射成大小為 w?hw*hw?h 的矩形框;

在這里插入圖片描述
在這里插入圖片描述
如圖所示,我們先把 roi 中的坐標映射到 feature map 上,映射規則比較簡單,就是把各個坐標除以輸入圖片與 feature map 的大小的比值,得到了 feature map 上的 box 坐標后,我們使用 pooling 得到輸出;由于輸入的圖片大小不一,所以這里我們使用的 spp pooling,spp pooling 在 pooling 的過程中需要計算 pooling 后的結果對應的像素點反映射到 feature map 上所占的范圍,然后在那個范圍中進行取 max 或者取 average。理解起來有點繞,看后面,你會豁然開朗。

ROI pooling具體操作如下

  1. 根據輸入image,將 ROI 映射到 feature map 對應位置;
  2. 將映射后的區域劃分為相同大小的 sections(sections數量與輸出的維度相同);
  3. 對每個 sections 進行 max pooling 操作;

這樣我們就可以從不同大小的方框得到固定大小的相應的 feature maps。值得一提的是,輸出的 feature maps 的大小不取決于 ROI 和卷積 feature maps 大小。ROI pooling 最大的好處就在于極大地提高了處理速度。

ROI pooling example

我們有一個 8?88*88?8 大小的 feature map,一個ROI,以及輸出大小為 2?22*22?2.

輸入的固定大小的feature map
在這里插入圖片描述
region proposal 投影之后位置(左上角,右下角坐標):(0,3),(7,8)(0,3),(7,8)(0,3)(7,8)
在這里插入圖片描述
將其劃分為(2*2)個 sections(因為輸出大小為2*2),我們可以得到:
在這里插入圖片描述
對每個section做max pooling,可以得到:
在這里插入圖片描述
整體過程如下:
在這里插入圖片描述
說明:在此案例中 region proposals 是 5*7 大小的,在 pooling 之后需要得到 2*2 的,所以在 5*7 的特征圖劃分成 2*2 的時候不是等分的,行是 5/2,第一行得到2,剩下的那一行是3,列是7/2,第一列得到3,剩下那一列是4。

CNN 中的ROI Pooling

在CNN中,Pooling 層的作用主要有兩個:

  • 引入 invariance,包括 translation-invariance,rotation-invariance,scale-invariance。
  • 完成 feature map 的聚合,實現數據降維,防止過擬合。

ROI Pooling 將不同輸入尺寸的 feature map 通過分塊池化的方法得到固定尺寸的輸出,其思想來自于 SPPNet。

rbg 大神在 Fast RCNN 中使用時,將 sppnet 中多尺度的池化簡化為單尺度,只輸出固定尺寸為(w, h)的 feature map。
在這里插入圖片描述
在 Fast R-CNN 網絡中,原始圖片經過多層卷積與池化后,得到整圖的 feature map。而由 selective search 產生的大量 proposal 經過映射可以得到其在 feature map 上的映射區域(ROIs),這些ROIs即作為ROI Pooling層的輸入。

ROI Pooling時,將輸入的 h?wh * wh?w 大小的 feature map 分割成 H?WH * WH?W 大小的子窗口(每個子窗口的大小約為 h/H,w/Wh/H,w/Wh/Hw/W,其中H、W為超參數,如設定為7 x 7),對每個子窗口進行 max-pooling 操作,得到固定輸出大小的 feature map。而后進行后續的全連接層操作。

ROI Pooling層的加入對R-CNN網絡的改進

在R-CNN中,整個檢測的流程是:
在這里插入圖片描述
R-CNN網絡的主要問題有:

  • 使用 selective search 產生 proposal,操作耗時,且不利于網絡的整體訓練和測試
  • 產生的 proposal 需要經過 warp 操作再送入后續網絡,導致圖像的變形和扭曲
  • 每一個 proposal 均需要單獨進行特征提取,重復計算量大

ROI Pooling的加入,相對于R-CNN網絡來說,至少有兩個改善:

  • 由于ROI Pooling可接受任意尺寸的輸入,warp操作不再需要,這有效避免了物體的形變扭曲,保證了特征信息的真實性
  • 不需要對每個proposal都提取特征,采用映射方式從整張圖片的 feature map 上獲取ROI feature區域

除了上述兩個改進外,其實還有一點。R-CNN 中在獲取到最終的 CNN 特征后先采用 SVM 進行類別判斷,再進行 bounding-box 的回歸得到位置信息。整個過程是個串行的流程。這極大地影響了網絡的檢測速度。Fast R-CNN 中則將 Classification 和 regression 的任務合二為一,變成一個 multi-task 的模型,實現了特征的共享與速度的進一步提升。

不知大家注意沒有,Fast R-CNN 只是解決了R-CNN中的兩點問題,而仍然沿用了 R-CNN 中 selective search 生成 proposal 的方法。這一方法產生的 proposal 即使經過NMS也會達到 2k~3k 個。一方面生成過程耗時耗力,另一方面給存儲也帶來壓力。

那么,有沒有辦法改進呢?答案當然是 Yes。那就是 Faster R-CNN 的提出。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/453764.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/453764.shtml
英文地址,請注明出處:http://en.pswp.cn/news/453764.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

KD樹小結

很久之前我就想過怎么快速在二維平面上查找一個區域的信息,思考許久無果,只能想到幾種優秀一點的暴力。 KD樹就是干上面那件事的。 別的不多說,趕緊把自己的理解寫下來,免得涼了。 KD樹的組成 以維護k維空間(x,y,……)內的KD樹為例…

多元函數求極值中的a_多元函數的條件極值和拉格朗日乘數法

、條件極值、拉格朗日乘數法1. 轉化為無條件極值在討論多元函數極值問題時,如果遇到除了在定義域中尋求駐點(可能的極值點)外,對自變量再無別的限制條件,我們稱這類問題為函數的無條件極值。如求的極值,就是無條件極值問題。然而在…

深度學習之 RPN(RegionProposal Network)- 區域候選網絡

anchor boxes基本概念與作用: feature map 上的一個點可以映射回輸入圖片上的一個點,以特征圖上這個點為中心,預先人為設定 k 個 boxes,這些 boxes 就稱為在這個點上生成的 k 個 anchor boxes(所有anchor boxes的中心點坐標是一樣…

h264的碼率控制 JVT-G012

開始看h264的碼率控制,很多地方都提到 G012,拿來做為參考比較,看來很有必要研究清楚。 偶這人,E文文檔不翻譯的話,看過就忘了,于是草草翻譯了下,因為不打算做B幀,也不準備在同一幀中…

Android RecyclerView嵌套EditView實時更新Item數據

一、場景(例如:購物車) 1、當我們需要以列表樣式管理某些數據時,可能需要列表項的某個字段可編輯 2、編輯Item上的某個字段后可能還要更新相關字段的值 二、可能遇到的問題 1、列表滑動導致輸入框中的數據錯位(或者焦點…

workbench拓撲優化教程_優化技術在水泵水力設計的應用(上篇)

文章來源:安世亞太官方訂閱號(搜索:Peraglobal)CFD技術在泵的內流數值模擬、研究泵內部流動規律和結構方面已廣泛應用,取得了很多成果。但是初步設計的產品如果通過CFD仿真得到的性能曲線不能滿足使用要求,…

深度學習之 TensorRT

1 簡介 TensorRT是一個高性能的深度學習推理(Inference)優化器,可以為深度學習應用提供低延遲、高吞吐率的部署推理。TensorRT可用于對超大規模數據中心、嵌入式平臺或自動駕駛平臺進行推理加速。TensorRT現已能支持TensorFlow、Caffe、Mxne…

H.264筆記

H.264標準寫得比較繁復,所以考慮在瀏覽完Whitepaper之后就開始研讀X264代碼。X264代碼風格還是比較清晰簡潔的。根據對標準得理解,Picture Order Count在Slice解碼的一開始就被提及:I0 B1 B2 P3 B4 B5 P6I0 P3 B1 B2 P6 B4 B5于是I0的POC是0&…

進制轉換中dbho是什么意思_什么是網段?二進制十進制如何互相轉換?看完這篇,你就全明白了...

之前的文章講了ip,子網掩碼,網關的關系,今天著重講一下網段。我們用傻瓜交換機通訊時,一個網段的設備才能互相通訊,怎么能判斷兩個ip是同一個網段呢?今天就簡單的說一下。(這篇文章用語音聽可以起到催眠作用…

【網絡流24題】星際轉移問題(最大流)

【網絡流24題】星際轉移問題(最大流) 題面 Cogs 題解 因為天數是未知的,所以我們要想辦法處理天數 可以選擇二分或者依次累加天數 因為數據范圍較小,使用二分可能反而復雜度會增高 所以使用不斷累加天數 那么,把所有的…

使用 gunicorn 部署flask項目

1、WSGI協議 Web框架致力于如何生成HTML代碼,而Web服務器用于處理和響應HTTP請求。Web框架和Web服務器之間的通信,需要一套雙方都遵守的接口協議。WSGI協議就是用來統一這兩者的接口的。 2、WSGI容器 常用的WSGI容器有Gunicorn和uWSGI,但G…

軟件需求與問題解決

(一) 小滿當上項目經理后不久,參與了一個大項目。當時市場簽下來的時候,公司里面是歡天喜地的。項目做了一年多。到了交付的時候,用戶卻很不滿意,當初說好的東西,好多都變了卦。用戶是上帝&…

flex 換主軸后子元素占滿_Chrome72 嵌套 flex 布局修改,你的網站可能會發生布局錯亂...

起源2019 年 1 月 29 日,Chrome72 正式版(72.0.3626.81)發布,本次發布帶來了一個改變,且沒有在更新日志中提及,該改變導致某些網站發生了布局錯亂。該改變主要針對的是嵌套的flex布局,下面我們一起看下是怎么回事。問題…

使用 Django + Wusgi + Nginx 部署 Django

如何在生產上部署Django? Django的部署可以有很多方式,采用 nginxuwsgi 的方式是其中比較常見的一種方式。 uwsgi介紹 uWSGI是一個Web服務器,它實現了WSGI協議、uwsgi、http等協議。Nginx中HttpUwsgiModule的作用是與uWSGI服務器進行交換。 WSGI / …

網絡學習網址

網絡之路博客 http://ccieh3c.com/ 轉載于:https://www.cnblogs.com/changha0/p/8179801.html

路由到另外一個頁面_Nextjs使用解讀一(項目搭建與路由系統)

文章說明:1. 之前想搭建個人博客,由于學習的是react技術棧,所以就到處搜羅資料學了nextjs,配合koa就把博客搭起來了。該系列文章基于我的學習筆記,重新整理了一遍,如果有錯誤之處,還請指正。2. …

微信獲取token -1000

最終翻看微信開發api找到需要去配置IP白名單。只需要配置訪問來源IP即可。 轉載于:https://www.cnblogs.com/yangjinqiang/p/8184663.html

產品技術和管理

為啥純粹為消費者傳遞體驗的活動可以價格不菲,幾為暴利?——談客戶體驗作為客戶價值提升之源 不論產品還是服務,如果能夠為消費者傳遞有益的體驗,其價值就可以在一般的產品服務之上得以體現;附加了體驗的產品&#xff…

Linux 修改系統編碼

linux服務器的字符集設置可能影響到網站頁面出現 “???” 等問號亂碼,還有可能導致文件中的漢字部分出現亂碼。有兩個原因 服務器沒有安裝 zh_CN.UTF-8 字符集,導致不支持中文!服務器雖然裝了 zh_CN.UTF-8…

jquery ztree 設置勾選_047 JAVA-jQuery

jQuery操作元素屬性的值表單:<body><input type"button" name"" id"but1" value"測試獲得屬性值" /><hr />賬號&#xff1a;<input type"text" name"sxtzh" id"zhanghao" value&q…