申請號 | CN202311601629.7 |
公開號(公開) | CN117710683A |
申請日 | 2023.11.27 |
申請人(公開) | 超音速人工智能科技股份有限公司 |
發明人(公開) | 張俊峰(總); 楊培文(總); 沈俊羽; 張小村 |
技術領域
本發明涉及圖像關鍵點檢測技術領域,具體講的是一種基于分類模型的輕量級工業圖像關鍵點檢測方法。
背景技術
工業關鍵點檢測是指從工業場景中的圖像或視頻中自動識別出工業產品中的關鍵點位置,如機器人的末端執行器、零件的定位點等。傳統的工業關鍵點檢測算法需要大量的計算資源,并且往往需要訓練大規模的數據集,因此在實際應用中存在著一定的局限性。因此迫切需要輕量級的工業關鍵點檢測算法,使在計算資源有限的情況下也能夠實現較好的關鍵點檢測效果。
基于熱圖表示的模型需要多個開銷較高的反卷積產生熱圖,因此速度慢,開銷高。由于熱圖比原圖小幾倍,因此基于熱圖的方法會存在理論誤差下界。而基于回歸的方法受到噪聲和隨機性影響較大,導致結果不穩定。基于分類的模型不會產生熱圖,且分類的維度可以是原圖尺寸,有更高的精度。分類模型受噪聲和隨機性影響較小,訓練過程更穩定,模型更易收斂。
我的理解
一,將待檢測圖像輸入特征提取網絡,通過特征提取網絡提取關鍵點的圖像特征。
二,將圖像特征輸入網絡輸出頭中,通過網絡輸出頭輸出關鍵點的預測橫坐標、預測縱坐標和預測可見性。
三,在待檢測圖像上標注關鍵點,并將關鍵點映射到橫坐標軸和縱坐標軸上,計算關鍵點的橫坐標與預測橫坐標的第一損失值、縱坐標與預測縱坐標的第二損失值以及真實可見性信息與預測可見性的第三損失值,根據第一損失值、第二損失值和第三損失值總損失值,并判斷總損失值能否通過閾值,若不能則篩選掉該關鍵點。
四,所述特征提取網絡包括步長為1的卷積和MobileNetV3small中的一層倒殘差結構。
五,所述網絡輸出頭包括縱坐標分類頭、橫坐標分類頭和可見性分類頭,所述縱坐標分類頭預測關鍵點的縱坐標,所述橫坐標分類頭預測關鍵點的橫坐標,所述可見性分類頭預測關鍵點的可見性。
六,所述縱坐標分類頭預測關鍵點的縱坐標包括以下步驟:
七,將圖像特征經過橫坐標方向步長為2、縱坐標方向步長為1的二維卷積和ReLU激活函數后,得到圖像特征y1;
八,將特征y1經過橫坐標方向步長為2、縱坐標方向步長為1的二維卷積和ReLU激活函數后,得到圖像特征y2;
九,將特征y2橫坐標方向的特征進行全局池化后,得到特征y3;
十,將特征y3經過一維反卷積后,得到特征y4;
十一,將特征y4經過一維反卷積和ReLU激活函數后,得到關鍵點的預測縱坐標。
十二,進一步的,所述橫坐標分類頭預測關鍵點的橫坐標包括以下步驟:
a,將圖像特征經過橫坐標方向步長為1、縱坐標方向步長為2的二維卷積和ReLU激活函數后,得到圖像特征x1;
b,將特征x1經過橫坐標方向步長為1、縱坐標方向步長為2的二維卷積和ReLU激活函數后,得到圖像特征x2;
c,將特征x2縱坐標方向的特征進行全局池化后,得到特征x3;
d,將特征x3經過一維反卷積后,得到特征x4;
e,將特征x4經過一維反卷積和ReLU激活函數后,得到關鍵點的預測橫坐標。
十三,進一步的,所述可見性分類頭預測關鍵點的可見性包括以下步驟:
將圖像特征經過兩次橫坐標方向和縱坐標方向均為4的卷積,使圖像特征的長寬變為原來的1/64,再將卷積后的圖像特征進行全局化和全連接操作后,得到關鍵點的預測可見性。
十四,計算關鍵點的橫坐標與預測橫坐標的第一損失值和縱坐標與預測縱坐標的第二損失值,包括以下步驟:
將關鍵點映射到橫坐標軸和縱坐標軸后,形成橫坐標方向上的one-hot編碼和縱坐標方向上的one-hot編碼,再用交叉熵損失函數計算橫坐標方向上的one-hot編碼與橫坐標預測的第一損失值,和縱坐標方向上的one-hot編碼與縱坐標預測的第二損失值。
十五,計算關鍵點真實可見性信息與預測可見性的第三損失值的方法包括:
用二值交叉熵損失函數計算關鍵點真實可見性信息和預測可見性的第三損失值。
十六,總損失值為第一損失值、第二損失值和第三損失值的加權和,第一損失值、第二損失值和第三損失值的權重分別根據橫坐標、縱坐標和可見性的預測難度確定,預測難度與權重成正比。
如果有不明白的,請加文末QQ群。
擴展閱讀
視頻課程
先學簡單的課程,請移步CSDN學院,聽白銀講師(也就是鄙人)的講解。
https://edu.csdn.net/course/detail/38771
如何你想快速形成戰斗了,為老板分憂,請學習C#入職培訓、C++入職培訓等課程
https://edu.csdn.net/lecturer/6176
相關推薦
我想對大家說的話 |
---|
《喜缺全書算法冊》以原理、正確性證明、總結為主。 |
按類別查閱鄙人的算法文章,請點擊《算法與數據匯總》。 |
有效學習:明確的目標 及時的反饋 拉伸區(難度合適) 專注 |
聞缺陷則喜(喜缺)是一個美好的愿望,早發現問題,早修改問題,給老板節約錢。 |
子墨子言之:事無終始,無務多業。也就是我們常說的專業的人做專業的事。 |
如果程序是一條龍,那算法就是他的是睛 |
測試環境
操作系統:win7 開發環境: VS2019 C++17
或者 操作系統:win10 開發環境: VS2022 C++17
如無特殊說明,本算法用**C++**實現。