?第一步:概要
基于深度學習OCR文本識別分為兩個模塊:DBNet和CRNN。
DBNet是基于分割的文本檢測算法,算法將可微分二值化模塊(Differentiable Binarization)引入了分割模型,使得模型能夠通過自適應的閾值圖進行二值化,并且自適應閾值圖可以計算損失,能夠在模型訓練過程中起到輔助效果優化的效果。經過驗證,該方案不僅提升了文本檢測的效果而且簡化了后處理過程。相較于其他文本檢測模型,DBNet在效果和性能上都有比較大的優勢,是當前常用的文本檢測算法。
CRNN 全稱為 Convolutional Recurrent Neural Network,是一種卷積循環神經網絡結構,主要用于端到端地對不定長的文本序列進行識別,不用先對單個文字進行切割,而是將文本識別轉化為時序依賴的序列學習問題,就是基于圖像的序列識別。
CRNN(Convolutional Recurrent Neural Network)是目前較為流行的圖文識別模型,可識別較長的文本序列。它包含CNN特征提取層和BLSTM序列特征提取層,能夠進行端到端的聯合訓練。 它利用BLSTM和CTC部件學習字符圖像中的上下文關系, 從而有效提升文本識別準確率,使得模型更加魯棒。預測過程中,前端使用標準的CNN網絡提取文本圖像的特征,利用BLSTM將特征向量進行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通過轉錄層(CTC rule)進行預測得到文本序列。
第二步:模型結構介紹
DB文本檢測模型可以分為三個部分:
- Backbone網絡,負責提取圖像的特征
- FPN網絡,特征金子塔,結構增強特征
- Head網絡,計算文本區域概率圖
CRNN(Convolutional Recurrent Neural Network,卷積遞歸神經網絡)是這個領域內的一個代表性的框架,它融合了卷積神經網絡(CNN)和遞歸神經網絡(RNN),特別適用于對圖像中的序列文本進行識別。
第三步:搭建GUI界面
功能模塊:能支持手寫文字串識別和圖片文字串識別
第四步:整個工程的內容
提供整套代碼和模型,提供GUI界面代碼
?代碼的下載路徑(新窗口打開鏈接):基于深度學習OCR文本識別
?
有問題可以私信或者留言,有問必答