Core Vision Kit(基礎視覺服務)

文章目錄

    • 一、Core Vision Kit簡介
      • 場景介紹
      • 約束與限制
    • 二、通用文字識別
    • 三、人臉檢測

在這里插入圖片描述
在這里插入圖片描述


在這里插入圖片描述

一、Core Vision Kit簡介

Core Vision Kit(基礎視覺服務)是機器視覺相關的基礎能力,例如通用文字識別(即OCR,Optical Character Recognition,也稱為光學字符識別)、人臉檢測、人臉比對以及主體分割等能力。

您可以結合Vision Kit的UI控件能力(例如:活體檢測),提升應用的智能化、便捷化交互體驗。


場景介紹

Core Vision Kit可應用于各種場景,提升用戶體驗和應用效率。以下是一些典型的應用場景:

  • 通用文字識別:可用于掃描和識別文檔、名片、票據等印刷品中的文字內容,方便用戶快速錄入和存儲信息。
  • 人臉檢測:應用于相冊管理、照片美化等功能中,也可以用于自動檢測和定位照片中的人臉。
    人臉比對:常用于人臉認證、考勤打卡、門禁系統等需要驗證用戶身份的場景。
  • 主體分割:可以檢測出圖片中區別于背景的前景物體或區域(即“顯著主體”),并將其從背景中分離出來,適用于需要識別和提取圖像主要信息的場景,廣泛使用于前景目標檢測和前景主體分離的場景。
  • 多目標識別:幫助開發者從圖片中識別常見的目標對象(動物、植物、建筑物、人、人臉、文本、表格等)并給出位置信息。通常用于端到端業務場景的前置檢測功能,根據檢測結果完成后續功能業務的入口提示,比如視覺搜索,文本檢測。
  • 骨骼點檢測:人體骨骼關鍵點檢測,主要檢測人體的一些關鍵點,通過關鍵點描述人體骨骼信息。具體應用主要集中在智能視頻監控,病人監護系統,人機交互,虛擬現實,人體動畫,智能家居,智能安防,運動員輔助訓練等等。

約束與限制

AI能力約束
文字識別支持的圖片格式:JPEG、JPG、PNG。/支持的語言:簡體中文、英文、日文、韓文、繁體中文。/文本長度:不超過10000字符。/支持文檔印刷體識別,在識別手寫字體方面能力有所欠缺。/輸入圖像具有合適成像的質量(建議720p以上),100px<高度<15210px,100px<寬<10000px,高寬比例建議10:1以下,接近手機屏幕高寬比例為宜。/文本與拍攝角度夾角在正負30度范圍內。
人臉檢測輸入圖像具有合適的成像質量(建議720p以上),224px<高度<15210px,100px<寬度<10000px高寬比例建議10:1以下,接近手機屏幕高寬比例為宜。/不支持同一用戶啟用多個線程。
人臉比對當前功能只支持1v1人臉比對。/輸入的兩張圖像都需要合適的成像質量(建議720p以上),224px<高度<15210px,100px<寬度<10000px,高寬比例建議10:1以下,接近手機屏幕高寬比例為宜。
主體分割某個物體占比不小于原圖大小的千分之五才會被認定為“主體”,才會支持分割。/輸入圖像具有合適成像的質量(建議720p以上),20px<高度<9000px,20px<寬度<9000px,高寬比例建議3:1以下,接近手機屏幕高寬比例為宜。
多目標識別輸入圖像具有合適成像的質量(建議720p以上),100px<高度<10000px,100px<寬<10000px,高寬比例建議5:1以下,接近手機屏幕高寬比例為宜。/圖片中的物體占比需要大于0.1%。
骨骼點檢測輸入圖像具有合適成像的質量(建議720p以上),100px<高度<10000px,100px<寬度<10000px,高寬比例建議5:1以下,接近手機屏幕高寬比例為宜。

說明
Core Vision Kit的特性支持多用戶同時接入,但是不支持同一用戶并發調用同一個特性,如同一個特性被同一進程同一時間多次調用,則返回系統繁忙錯誤,不同進程調用同一特性,則同一時間只有一個進程業務在處理,其他進程進入隊列排隊。

在這里插入圖片描述

二、通用文字識別

通用文字識別,是通過拍照、掃描等光學輸入方式,將各種票據、卡證、表格、報刊、書籍等印刷品文字轉化為圖像信息,再利用文字識別技術將圖像信息轉化為計算機等設備可以使用的字符信息的技術。

  • 可以對文檔翻拍、街景翻拍等圖片進行文字檢測和識別,也可以集成于其他應用中,提供文字檢測、識別的功能,并根據識別結果提供翻譯、搜索等相關服務。
  • 可以處理來自相機、圖庫等多種來源的圖像數據,提供一個自動檢測文本、識別圖像中文本位置以及文本內容功能的開放能力。
  • 支持特定角度范圍內的文本傾斜、拍攝角度傾斜、復雜光照條件以及復雜文本背景等場景的文字識別。

約束與限制

該能力當前不支持模擬器。

開發步驟

  1. 在使用通用文字識別時,將實現文字識別的相關的類添加至工程。
import { textRecognition } from '@kit.CoreVisionKit';
  1. 簡單配置頁面的布局,并在Button組件添加點擊事件,拉起圖庫,選擇圖片。
Button('選擇圖片').type(ButtonType.Capsule).fontColor(Color.White).alignSelf(ItemAlign.Center).width('80%').margin(10).onClick(() => {// 拉起圖庫,獲取圖片資源this.selectImage();})
  1. 通過圖庫獲取圖片資源,將圖片轉換為PixelMap,并添加初始化和釋放方法。
async aboutToAppear(): Promise<void> {const initResult = await textRecognition.init();hilog.info(0x0000, 'OCRDemo', `OCR service initialization result:${initResult}`);
}async aboutToDisappear(): Promise<void> {await textRecognition.release();hilog.info(0x0000, 'OCRDemo', 'OCR service released successfully');
}private async selectImage() {let uri = await this.openPhoto();if (uri === undefined) {hilog.error(0x0000, 'OCRDemo', "Failed to get uri.");return;}this.loadImage(uri);
}private openPhoto(): Promise<string> {return new Promise<string>((resolve) => {let photoPicker: photoAccessHelper.PhotoViewPicker = new photoAccessHelper.PhotoViewPicker();photoPicker.select({MIMEType: photoAccessHelper.PhotoViewMIMETypes.IMAGE_TYPE,maxSelectNumber: 1}).then((res: photoAccessHelper.P

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/71578.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/71578.shtml
英文地址,請注明出處:http://en.pswp.cn/web/71578.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

第TR3周:Pytorch復現Transformer

&#x1f368; 本文為&#x1f517;365天深度學習訓練營中的學習記錄博客 &#x1f356; 原作者&#xff1a;K同學啊 Transformer通過自注意力機制&#xff0c;改變了序列建模的方式&#xff0c;成為AI領域的基礎架構 編碼器&#xff1a;理解輸入&#xff0c;提取上下文特征…

FreeRTOS 任務間通信機制:隊列、信號量、事件標志組詳解與實驗

1. FreeRTOS 消息隊列 1.1 簡介 ? 隊列是 任務間通信的主要形式&#xff0c;可用于在任務之間以及中斷與任務之間傳遞消息。隊列在 FreeRTOS 中具有以下關鍵特點&#xff1a; 隊列默認采用 先進先出 FIFO 方式&#xff0c;也可以使用 xQueueSendToFront()實現 LIFO。FreeRT…

【虛擬化】Docker Desktop 架構簡介

在閱讀前您需要了解 docker 架構&#xff1a;Docker architecture WSL 技術&#xff1a;什么是 WSL 2 1.Hyper-V backend 我們知道&#xff0c;Docker Desktop 最開始的架構的后端是采用的 Hyper-V。 Docker daemon (dockerd) 運行在一個 Linux distro (LinuxKit build) 中&…

Unity光照之Halo組件

簡介 Halo 組件 是一種用于在游戲中創建光暈效果的工具&#xff0c;主要用于模擬光源周圍的發光區域&#xff08;如太陽、燈泡等&#xff09;或物體表面的光線反射擴散效果。 核心功能 1.光暈生成 Halo 組件會在光源或物體的周圍生成一個圓形光暈&#xff0c;模擬光線在空氣…

Flink深入淺出之01:應用場景、基本架構、部署模式

Flink 1?? 一 、知識要點 &#x1f4d6; 1. Flink簡介 Apache Flink — Stateful Computations over Data StreamsApache Flink 是一個分布式大數據處理引擎&#xff0c;可對有界數據流和無界數據流進行有狀態的計算。Flink 能在所有常見集群環境中運行&#xff0c;并能以…

2025年【高壓電工】報名考試及高壓電工考試總結

隨著電力行業的快速發展&#xff0c;高壓電工成為確保電力系統安全穩定運行的重要一環。為了提高高壓電工的專業技能和安全意識&#xff0c;“安全生產模擬考試一點通”平臺特別整理了2025年高壓電工報名考試的相關信息及考試總結&#xff0c;并提供了一套完整的題庫&#xff0…

網絡HTTP

HTTP Network Request Library A Retrofit-based HTTP network request encapsulation library that provides simple and easy-to-use API interfaces with complete network request functionality. 基于Retrofit的HTTP網絡請求封裝庫&#xff0c;提供簡單易用的API接口和完…

os-copilot安裝和使用體驗測評

簡介&#xff1a; OS Copilot是阿里云基于大模型構建的Linux系統智能助手&#xff0c;支持自然語言問答、命令執行和系統運維調優。本文介紹其產品優勢、功能及使用方法&#xff0c;并分享個人開發者在云服務器資源管理中的實際應用體驗。通過-t/-f/管道功能&#xff0c;OS Cop…

Python Flask框架學習匯編

1、入門級&#xff1a; 《Python Flask Web 框架入門》 這篇博文條理清晰&#xff0c;由簡入繁&#xff0c;案例豐富&#xff0c;分十五節詳細講解了Flask框架&#xff0c;強烈推薦&#xff01; 《python的簡單web框架flask【附例子】》 講解的特別清楚&#xff0c;每一步都…

【HarmonyOS Next之旅】DevEco Studio使用指南(一)

目錄 1 -> 工具簡介 1.1 -> 概述 1.2 -> HarmonyOS應用/服務開發流程 1.2.1 -> 開發準備 1.2.2 -> 開發應用/服務 1.2.3 -> 運行、調試和測試應用/服務 1.2.4 -> 發布應用/服務 2 -> 工程介紹 2.1 -> APP包結構 2.2 -> 切換工程視圖 …

Manus開源平替-開源通用智能體

原文鏈接:https://i68.ltd/notes/posts/250306-opensource-agi-agent/ OWL-比Manus還強的全能開源Agent OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation&#xff0c;現實世界中執行自動化任務的通用多代理輔助優化學習…

【3.2-3.8學習周報】

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄 摘要Abstract一、方法介紹1.任務適應性持續預訓練&#xff08;TACP&#xff09;2.領域自適應連續預訓練&#xff08;DACP&#xff09;3.ETS-DACP和ETA-DACP 二、實驗…

【Linux】用戶和組

思考 使用useradd在Linux下面創建一個用戶&#xff0c;默認情況下&#xff0c;會自動創建一個同名組&#xff0c;并且加入其中&#xff0c;那么是先創建用戶呢&#xff1f;還是先創建組呢&#xff1f; 很簡單&#xff0c;我們實踐一下不就知道了&#xff0c;如下所示&#xff…

新編大學應用英語綜合教程2 U校園全套參考答案

全套答案獲取&#xff1a; 鏈接&#xff1a;https://pan.quark.cn/s/389618f53143

SAP 顧問的五年職業規劃

SAP 顧問的職業發展受到技術進步、企業需求變化和全球經濟環境的影響&#xff0c;因此制定長遠規劃充滿挑戰。面對 SAP 產品路線圖的不確定性&#xff0c;如向 S/4HANA 和 Business Technology Platform (BTP) 的轉變&#xff0c;顧問必須具備靈活性&#xff0c;以保持競爭力和…

圖像生成-ICCV2019-SinGAN: Learning a Generative Model from a Single Natural Image

圖像生成-ICCV2019-SinGAN: Learning a Generative Model from a Single Natural Image 文章目錄 圖像生成-ICCV2019-SinGAN: Learning a Generative Model from a Single Natural Image主要創新點模型架構圖生成器生成器源碼 判別器判別器源碼 損失函數需要源碼講解的私信我 S…

Networking Based ISAC Hardware Testbed and Performance Evaluation

文章目錄 Applications and Challenges of Networked SensingCooperation Mechanism in Networked SensingChallenges and Key Enabling Technologies 5G NR Frame Structure Based ISAC ApproachSignals Available for Radio SensingMulti-Dimensiona Resource Optimization S…

2025年主流原型工具測評:墨刀、Axure、Figma、Sketch

2025年主流原型工具測評&#xff1a;墨刀、Axure、Figma、Sketch 要說2025年國內產品經理使用的主流原型設計工具&#xff0c;當然是墨刀、Axure、Figma和Sketch了&#xff0c;但是很多剛入行的產品經理不了解自己適合哪些工具&#xff0c;本文將從核心優勢、局限短板、協作能…

我代表中國受邀在亞馬遜云科技全球云計算大會re:Invent中技術演講

大家好我是小李哥&#xff0c;本名叫李少奕&#xff0c;目前在一家金融行業公司擔任首席云計算工程師。去年5月很榮幸在全球千萬名開發者中被選為了全球亞馬遜云科技認證技術專家&#xff08;AWS Hero&#xff09;&#xff0c;是近10年來大陸地區僅有的第9名大陸專家。同時作為…

LeetCode 解題思路 12(Hot 100)

解題思路&#xff1a; 定義三個指針&#xff1a; prev&#xff08;前驅節點&#xff09;、current&#xff08;當前節點&#xff09;、nextNode&#xff08;臨時保存下一個節點&#xff09;遍歷鏈表&#xff1a; 每次將 current.next 指向 prev&#xff0c;移動指針直到 curre…