在我們日常生活中或多或少都會有記賬的情況,以此來對自己的收支和消費習慣進行分析,來幫助自己減少不必要的開支,優化財務決策、合理分配資金,減少財務壓力和不必要的浪費。
但記賬這個動作本身就是一件比較麻煩的。雖然現階段有很多APP應用來幫助我們進行記賬,不再像原來一樣需要手寫記錄,但還是存在比較多的問題。比如:每記錄一筆都要手動點選分類,長期下來很浪費時間。另外,如果想自動記賬還得授權支付應用的權限接口給記賬程序,這樣會對財產造成安全隱患。
剛好,在最近的“中國大學生服務外包創新創業大賽”上就有大學生團隊針對記賬問題提供了它們的解決方案。
首先,介紹一下什么是中國大學生服務外包創新創業大賽
中國大學生服務外包創新創業大賽是在為了積極響應國家關于鼓勵服務外包產業發展、加強服務外包人才培養的相關戰略舉措與號召而衍生出的全國性競賽,該賽事自2010年創立以來,成為服務外包產業領域的國家級賽事。尤其在本屆大賽上共有803所全國院校的8006支團隊報名參賽,報名團隊數再創新高!可以說是非常有影響力的一項賽事。
本屆大賽的內容設計充分聚焦企業發展中所面臨的技術、管理等現實問題,與產業的結合度更緊密,其中智能文字識別技術是大賽重點關注的技術之一。
合合信息作為國內外智能文字識別領域領先的科技企業,基于自身在行業領域的認知,從“基于智能文字場景個人財務管理創新應用”等議題出發,向廣大學生群體發出了“產品征集令”,相關賽題吸引了全國70多所高校的近300支隊伍積極參與,也涌現出許多優秀的作品。
尤其是中南大學研發的“記賬全能王”讓我印象深刻,該應用非常有效的解決了現行業現狀記賬的痛點:
他們團隊首先對大量用戶調研,分析出綁定支付自動記賬和圖片識別記賬更受歡迎,尤其是在45-60歲的中年用戶:
也調研了市面常見的記賬類APP,指出了它們現階段存在的幾大問題,尤其是自動記賬導致隱私過度收集這一塊做了充分的說明:
它們也針對該問題,在APP中提供了通過識別賬單圖片來錄入賬單信息的方式進行記賬:
這個功能看似很簡單,實際難度是很大的!
雖然這個功能核心步驟就兩個:票據圖片識別、提取信息。
但要做好這兩步需要下很大的功夫。首先,票據種類特別多,二是票據本身保存不好的話,會有很多褶皺或者字跡不太清晰的情況,三是因拍攝環境復雜的原因會導致圖片反光、明暗不同等呈現質量差的問題。這樣就會導致在識別的時候很容易造成識別不準確或識別失敗的情況。
他們為了解決票據識別的問題,使用了合合信息提供的智能文字識別服務平臺接口來對票據進行識別及預處理,該接口支持識別的票據種類非常多、無論是發票、火車票、金融票據等都能提供精度很高的識別效果:
圖片識別出文本后,就需要對其進行預處理,這一步驟通常包括去除標點符號、數字和特殊字符,將文本轉換為小寫,以及進行分詞。他們采用了jieba這個專為中文文本設計的分詞工具庫進行分詞,然后將文本中的詞語轉換為數值向量,以便計算機能夠理解和處理,最后再對圖片中的賬單信息部分進行文本分類與信息關系抽取,抽取出具體的金額、地點、店鋪等信息,也就是命名實體識別(NER)
什么是命名實體識別(NER)呢?
是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等等,并把我們需要識別的詞在文本序列中標注出來。
舉個例子就很容易理解,比如現在有一段文本:
我和張三昨天去看了蜘蛛俠,感覺還不錯,下周還想去看阿凡達,你要跟我們一起嗎?
我們要在上面文本中識別出電影名稱的信息,那么我們需要識別出來內容則是:蜘蛛俠、阿凡達。
而對于上述提到的賬單識別而言,我們則需要把圖片包含的文本信息中的賬單相關部分提取出來并排除掉與其無關的信息,這就是典型的命名實體識別。
中南大學為了處理這個問題,使用了基于谷歌BERT(Bidirectional Encoder Representations from Transformers)衍生的Bert-Chinese作為預訓練模型:
?然后將各種票據類型數據輸入到模型中并進行訓練。訓練完成后再進行微調,運用到下流任務(如賬單類別判定)等任務中,最后提取出賬單信息,整個的算法步驟流程圖如下圖所示:
?他們團隊所使用的技術路線如下圖所示:
我也使用了“記賬全能王”app測試了一下,效果也是很不錯的:
?識別結果
中南大學團隊整體表現在我看來是非常亮眼的,不僅洞悉了“中老年人使用記賬本應用需要經歷繁瑣的操作”現象背后發現“圖片識別記賬方式更受歡迎”的趨勢,并針對性地進行產品優化,還靈活地將合合信息智能圖像識別模塊與小票識別的API落地到記賬場景中,再結合大模型將復雜的小票信息秒速轉換成了簡潔、高效的數據輸入,這是非常難能可貴的。
另外我還認為該類應用具有不錯的前景和商業價值,國務院印發的《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》《新一代人工智能發展規劃》等文件中也提到:人工智能在個人財務管理領域的深入應用,有利于推動個人財務管理數字化,幫助消費者以較低的成本,實現消費的合理安排、財務風險的可靠保障以及錢財的最優跨期配置。在國家大力支持的背景下,該賽道一定具有不錯的未來!
在中國信通院進行的測試中,合合信息智能文字識別產品順利通過全部7項基礎類功能指標測試以及9項增強類功能指標測試,獲得“增強級”評級,其智能文字識別產品展現出良好的性能和服務成熟度。
以具有較大難度的證件類和票據類性能測試為例,面對旋轉、陰影、反光、褶皺、形變、模糊、多語言、低像素、光照不均等復雜場景,合合信息智能文字識別產品均有較高的識別準確率,字符準確率分別為99.21%和99.59%,字段準確率分別為97.87%和98.42%。
其實,中南大學利用合合信息票據識別接口來識別票據的功能只是合合信息眾多功能中的一小部分,除此之外合合信息還有很多強大的功能和產品,特別是他們推出的掃描全能王、名片全能王等智能文字識別產品已經服務全球上百個國家和地區的上億用戶。
在去年我也使用過合合科技的PS檢測和摩爾紋去除等服務,效果都很不錯,特別是PS檢測上,這一直是很多行業迫切需要解決的難點,特別是在保險、金融、銀行等領域,如果將虛假篡改過的信息資料審核通過可能會帶來巨大的影響甚至是經濟上的損失:
今年也看到合合信息團隊對圖像篡改檢測“黑科技”持續優化升級,應用面也拓展至“截圖篡改檢測”:除了原本支持的文檔、證書、證件等自然場景圖像的識別檢測外,還支持轉賬記錄、交易記錄、聊天記錄等多種截圖的識別檢測,無論是從原圖中“摳下”關鍵要素后移動“粘貼”至另一處的“復制移動”圖片篡改手段,還是“擦除”、“重打印”等方式,圖像篡改檢測技術均可“慧眼”識假!
不難看出,合合信息的產品不僅質量高且具有十足的多樣性,能應用的領域也非常廣泛。
通過這次的大賽也可以看到,現代學生的作品不再局限于傳統互聯網思維下的應用開發,而是逐漸發展為結合人工智能、大模型進行創新、創造新時代的產品,也真正實現了“用新技術解決舊問題”。
還能夠感受到的是,現階段企業對于人才的需求人從單一性變為多樣性了,知識面單一的人才顯然已經不能滿足時代需求,因此交叉學習也越來越重要。
舉辦該大賽還有一個重要的目的是:促成校企雙方在科研項目、人才培養等方面深度合作,助推產學研用協同創新發展。因此,大賽對參賽作品的評分標準也十分“仿真”,涉及技術資源及經濟成本控制,對項目創意前景的判斷、對市場需求的分析等方面,覆蓋商業價值、社會應用價值等多方面的評估。
CharGPT以及其他生成式AI的爆火讓我們清晰的感受到未來一定是人工智能的時代,行業也會渴望每一位對專業學術領域有著深刻獨到理解,具備構建解決方案潛力的人才。
在大賽的閉幕式上,合合信息人力行政部負責人杜杰介紹了他們公司的人才培養計劃:
“企業期望與新一代青年才俊共同開拓科技新場景。在時代進步的每一個階段,我們都需要不同的新生力量來創造新的可能性。”杜杰表示,現階段,合合信息通過“星火計劃”等系列人才培育計劃和配套分享平臺,助力科技青年在實踐中強化專業能力,未來也將持續聯合高校和行業機構,共同探索產學研融合之路,讓大學生們創新的科技靈感能夠更便捷地尋找沃土里,從而“落地生花”。
相信它們的舉措以及大賽的繼續開展會持續影響更多的從業者!