OmniParser技術分析(一)

1.引言

通過上篇文章介紹 OmniParser:下一代純視覺UI自動化測試先驅相信大家已經對OmniParser有初步了解,接下來詳細介紹下OmniParser使用了哪些技術模型實現了對UI純視覺的檢測和理解。

2.整體方案

通過閱讀OmniParser提供的運行Demo代碼知道,其實整個UI純視覺檢測主要分為2部分,涉及3個環節分別是:圖片OCR、圖片icon檢測、圖片元素理解,分別使用的模型為:

環節模型作用
圖片OCRpaddle_ocr識別圖片文字區域和坐標
圖片icon檢測yolov8n獲取圖片目標區域和坐標
圖片元素理解Florence-2-base-ft對檢測到的元素理解

以下是從官網提供的demo程序中的截取:

    def parse(self, image_base64: str):image_bytes = base64.b64decode(image_base64)image = Image.open(io.BytesIO(image_bytes))print('image size:', image.size)box_overlay_ratio = max(image.size) / 3200draw_bbox_config = {'text_scale': 0.8 * box_overlay_ratio,'text_thickness': max(int(2 * box_overlay_ratio), 1),'text_padding': max(int(3 * box_overlay_ratio), 1),'thickness': max(int(3 * box_overlay_ratio), 1),}(text, ocr_bbox), _ = check_ocr_box(image, display_img=False, output_bb_format='xyxy', easyocr_args={'text_threshold': 0.8}, use_paddleocr=False)dino_labled_img, label_coordinates, parsed_content_list = get_som_labeled_img(image, self.som_model, BOX_TRESHOLD = self.config['BOX_TRESHOLD'], output_coord_in_ratio=True, ocr_bbox=ocr_bbox,draw_bbox_config=draw_bbox_config, caption_model_processor=self.caption_model_processor, ocr_text=text,use_local_semantics=True, iou_threshold=0.7, scale_img=False, batch_size=128)return dino_labled_img, parsed_content_list, label_coordinates

3.模型的介紹

3.1 Paddle_ocr

官方針對圖片字符識別推薦使用的是paddle_ocr,猜測原因應該是效果不錯 + 開源,接下來介紹下paddle_ocr基本使用。

3.1.1安裝

pip install paddleocr

由于PaddleOCR支持多種語言,需要設置一些配置參數,以下為Demo設置的參數,識別的語言設置的英文,這里如果識別中文修改為lang=‘ch’

paddle_ocr = PaddleOCR(lang='en',  # other lang also availableuse_angle_cls=False,use_gpu=False,  # using cuda will conflict with pytorch in the same processshow_log=False,max_batch_size=1024,use_dilation=True,  # improves accuracydet_db_score_mode='slow',  # improves accuracyrec_batch_num=1024)
result = paddle_ocr.ocr(image_np, cls=False)[0]

識別結果格式示例如下,分為有文本框,文字和識別置信度

[[[28.0, 37.0], [302.0, 39.0], [302.0, 72.0], [27.0, 70.0]], ('純臻營養護發素', 0.9658738374710083)]
......

3.2 YOLOv8n

3.2.1. 圖標檢測模型簡介

圖標檢測模型是OmniParser-v2的基礎組件之一,主要負責從屏幕截圖中識別并定位可交互的UI元素,如按鈕、輸入框等。該模型經過大規模數據集訓練,能夠檢測最小至8×8像素的元素,確保在各種分辨率和界面復雜度下都能準確識別。使用的檢測模型為YOLOv8,以下為官網的介紹:

YOLOv8 was released by Ultralytics on January 10th, 2023, offering cutting-edge performance in terms of accuracy and speed. Building upon the advancements of previous YOLO versions, YOLOv8 introduced new features and optimizations that make it an ideal choice for various object detection tasks in a wide range of applications.
翻譯:YOLOv8 由 Ultralytics 于 2023 年 1 月 10 日發布,在準確率和速度方面提供一流的性能。在之前 YOLO 版本的改進基礎上,YOLOv8 引入了新功能和優化,使其成為廣泛應用中各種對象檢測任務的理想選擇。

下面圖片是官網提供COCO數據上檢測結果對比,v8一共有5種變形模型,從官方的測試結果看yolov8n其實是效果最差的,不知OmniParser為啥選這個檢測模型。
![在這里插入圖片描述](https://i-blog.csdnimg.cn/direct/e501af0477de4010839ab8344f4e23cc.png在這里插入圖片描述

3.2.2 YOLOv8模型使用

from ultralytics import YOLO# Load a COCO-pretrained YOLOv8n model
model = YOLO("yolov8n.pt")# Display model information (optional)
model.info()# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)# Run inference with the YOLOv8n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

這里推薦個YOLO網絡結構可視化的工具:netron具體用法可以搜下,后續再抽時間解讀網絡結構。

3.2.3 YOLOv8 主要特點

  • 先進的主干和頸部架構

YOLOv8 employs state-of-the-art backbone and neck architectures, resulting in improved feature extraction and object detection performance.

  • 無錨分割 Ultralytics 頭

YOLOv8 adopts an anchor-free split Ultralytics head, which contributes to better accuracy and a more efficient detection process compared to anchor-based approaches.

  • 優化的準確度-速度權衡

With a focus on maintaining an optimal balance between accuracy and speed, YOLOv8 is suitable for real-time object detection tasks in diverse application areas.

  • 優化的準確度-速度權衡

YOLOv8 offers a range of pre-trained models to cater to various tasks and performance requirements, making it easier to find the right model for your specific use case.

3. Florence-2

Florence-2 是微軟與2024年6月發布的多模態大模型,專為視覺理解任務設計,旨在處理多種視覺和視覺-語言任務。它在計算機視覺領域展現了強大的泛化能力,能夠處理多種視覺任務,如圖像理解、對象檢測、圖像字幕生成等。

Florence-2 主要特點:

  • 通用視覺理解:采用模塊化設計,方便集成不同的LLM,滿足多樣化需求。
  • 多模態學習:結合自然語言處理能力,實現視覺-語言任務,如圖像字幕生成和視覺問答。
  • 大規模數據訓練:使用大規模、高質量的數據集進行訓練,提升模型的泛化能力和魯棒性。
  • 高效推理:優化了計算效率,使其能夠在云端和本地設備上快速推理。
  • 跨任務一致性:在不同的視覺任務上表現穩定,適用于多種應用場景,如自動駕駛、醫療影像分析和智能監控。

在官網Demo中可以看出使用的是Florence-2-base,Model size是0.23B,整體比較小,下面是運行模型的demo程序。

import requestsfrom PIL import Image
from transformers import AutoProcessor, AutoModelForCausalLM device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32model = AutoModelForCausalLM.from_pretrained("microsoft/Florence-2-base-ft", torch_dtype=torch_dtype, trust_remote_code=True).to(device)
processor = AutoProcessor.from_pretrained("microsoft/Florence-2-base-ft", trust_remote_code=True)prompt = "<OD>"url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"
image = Image.open(requests.get(url, stream=True).raw)inputs = processor(text=prompt, images=image, return_tensors="pt").to(device, torch_dtype)generated_ids = model.generate(input_ids=inputs["input_ids"],pixel_values=inputs["pixel_values"],max_new_tokens=1024,do_sample=False,num_beams=3
)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]parsed_answer = processor.post_process_generation(generated_text, task="<OD>", image_size=(image.width, image.height))print(parsed_answer)

4.結語

OmniParser-v2通過集成上述多種先進模型,實現了從屏幕截圖到結構化數據的高效轉換,為大型語言模型賦予了實際的計算機操作能力。但仔細分析使用的模型分支都為參數量最小的,實際測試下來效果的話也會大打折扣,猜測應該是因為開源替換了原先效果更優的模型。后續繼續挖掘下每個模型具體的實現以及如何進行模型的微調,幫助大家能在具體的業務場景實現定制化。

參考資料:

  • paddleocr官方文檔
  • ultralytics
  • Florence-2-base-HF

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/897266.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/897266.shtml
英文地址,請注明出處:http://en.pswp.cn/news/897266.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

設計心得——繼承和實例

一、繼承的應用場景 在上篇文章分析了繼承的應用&#xff0c;本文反過來講繼承和實例。可以理解對上文的繼承進行一下基礎知識的鋪墊&#xff0c;繼承的應用場景非常多&#xff0c;典型的應用場景包括&#xff1a; 1、單純屬性的繼承 這種繼承非常常見&#xff0c;在前面也舉過…

從連接到交互:SDN 架構下 OpenFlow 協議的流程與報文剖析

在SDN架構中&#xff0c;交換機與控制器之間的通信基于 OpenFlow協議&#xff0c;其設計目的是實現控制平面與數據平面的解耦。以下是 交換機連接控制器 和 數據包進入交換機觸發交互 的詳細流程及協議報文分析&#xff1a; 一、交換機連接控制器的流程&#xff08;初始化階段&…

opentitan riscv

OpenTitan?是一個開源的硅根信任&#xff08;Root of Trust, RoT&#xff09;項目&#xff0c;旨在使硅RoT的設計和實現更加透明、可信和安全&#xff0c;適用于企業、平臺提供商和芯片制造商。該項目由lowRISC CIC管理&#xff0c;作為一個協作項目&#xff0c;旨在生產高質量…

R語言使用scitable包交互效應深度挖掘一個陌生數據庫

很多新手剛才是總是覺得自己沒什么可以寫的&#xff0c;自己不知道選什么題材進行分析&#xff0c;使用scitable包后這個完全不用擔心&#xff0c;選題多到你只會擔心你寫不完&#xff0c;寫得不夠快。 今天演示一下使用scitable包深度挖掘一個陌生數據庫 先導入R包和數據 li…

電腦內存智能監控清理,優化性能的實用軟件

軟件介紹 Memory cleaner是一款內存清理軟件。功能很強&#xff0c;效果很不錯。 Memory cleaner會在內存用量超出80%時&#xff0c;自動執行“裁剪進程工作集”“清理系統緩存”以及“用全部可能的方法清理內存”等操作&#xff0c;以此來優化電腦性能。 同時&#xff0c;我…

C#控制臺應用程序學習——3.8

一、語言概述 1、平臺相關性 C# 主要運行在.NET 平臺上。.NET 提供了一個龐大的類庫&#xff0c;C# 程序可以方便地調用這些類庫來實現各種功能&#xff0c;如文件操作、數據庫訪問、網絡通信等。 2、語法風格 C# 的語法與 C、C 和 Java 有一定的相似性。例如&#xff0c;它使用…

鴻蒙HarmonyOS-Navagation基本用法

Navagation基本用法 Navigation組件是路由導航的根視圖容器&#xff0c;一般作為Page頁面的根容器使用&#xff0c;其內部默認包含了標題欄&#xff0c;內容欄和公工具欄&#xff0c;其中內容區默認首頁顯示導航內容&#xff08;Navigation的子組件&#xff09;或非首頁顯示&am…

初階數據結構(C語言實現)——4.1棧

目錄 1.棧1.1棧的概念及結構1.2 棧的實現1.1.0 棧的初始化1.1.1 銷毀1.1.2 入棧1.1.3 出棧1.1.4 獲取棧中有效元素個數1.1.5 檢測棧是否為空&#xff0c;如果為空返回非零結果&#xff0c;如果不為空返回01.1.6 獲取棧頂元素1.1.7 驗證 附錄 棧的C語言實現源碼.h文件.c文件test…

計算光學成像與光學計算概論

計算光學成像所涉及研究的內容非常廣泛&#xff0c;雖然計算光學成像的研究內容是發散的&#xff0c;但目的都是一致的&#xff1a;如何讓相機記錄到客觀實物更豐富的信息&#xff0c;延伸并擴展人眼的視覺感知。總的來說&#xff0c;計算光學成像現階段已經取得了很多令人振奮…

什么樣的物聯網框架適合開展共享自助KTV唱歌項目?

現在物聯網的廣泛應用&#xff0c;也讓更多用戶們看到了它的實力&#xff0c;也使得共享經濟遍地開花。其中共享自助唱歌設備也備受歡迎&#xff0c;那么適合開展共享自助KTV唱歌項目的物聯網框架都應具備哪些特點呢&#xff1f; 智能化與自動化管理 物聯網技術在共享KTV中的應…

機器視覺選型中,不同焦距的鏡頭成像視野有什么不同?

不同焦距的鏡頭成像視野的差異主要體現在視角范圍和透視效果上。焦距越長&#xff0c;視角越窄&#xff0c;能捕捉的景物范圍越小&#xff1b;焦距越短&#xff0c;視角越廣&#xff0c;覆蓋的景物范圍越大。以下是具體分析&#xff1a; 焦距與視角的關系 焦距&#xff08;Foc…

Linux16-數據庫、HTML

數據庫&#xff1a; 數據存儲&#xff1a; 變量、數組、鏈表-------------》內存 &#xff1a;程序運行結束、掉電數據丟失 文件 &#xff1a; 外存&#xff1a;程序運行結束、掉電數據不丟失 數據庫&#xff1a; …

開源訂貨系統哪個好 三大訂貨系統源碼推薦

在數字化轉型加速的今天&#xff0c;企業對訂貨系統的需求日益增長。一款優質的訂貨系統源碼不僅能提升供應鏈效率&#xff0c;還能通過二次開發滿足個性化業務需求。這里結合 “標準化、易擴展” 兩大核心要求&#xff0c;為您精選三款主流訂貨系統源碼&#xff0c;助您快速搭…

行為模式---迭代器模式

概念 迭代器模式是設計模式的行為模式&#xff0c;它的主要設計思想是提供一個可以操作聚合對象&#xff08;容器或者復雜數據類型&#xff09;表示&#xff08;迭代器類&#xff09;。通過迭代器類去訪問操作聚合對象可以隱藏內部表示&#xff0c;也可以使客戶端可以統一處理…

Maven的學習以及安裝配置 2024/3/1 idea

1. Maven的安裝 1.1 首先查看編程工具合適的Maven版本 我使用的是2024/3/1 版本的idea&#xff0c;接下來我會用這個版本的idea進行演示。idea沒有漢化的也可以參考我的步驟。 1、打開idea的設置&#xff0c;搜索Maven&#xff0c;進入Maven設置。 我們可以看到&#xff0c;…

基于 Docker 的跨平臺鏡像構建與增量更新實戰指南

引言&#xff1a;破解容器化兩大核心問題 在實際開發中&#xff0c;我們常常面臨兩個棘手問題&#xff1a; 跨平臺兼容性&#xff1a;如何在Windows平臺開發的鏡像&#xff0c;無縫運行在 ARM64 服務器&#xff1f;更新效率低下&#xff1a;每次代碼調整都要重新安裝全部依賴…

支付通道開通對接一般需要多少錢

不少老板都想開通AIP線上接口&#xff0c;但是不知道這個成本到底是多少? 其實目前第三方支付公司對外提供了標準的線上接入技術方案&#xff0c;一般以API、SDK等形式。因此&#xff0c;商戶在完成簽約審核后&#xff0c;可以順利拿到技術的密鑰&#xff0c;正常調用第三方支…

什么是 spring 的循環依賴?

什么是 spring 的循環依賴&#xff1f; 首先&#xff0c;認識一下什么是循環依賴&#xff0c;舉個例子&#xff1a;A 對象被 Spring 管理&#xff0c;并且引入的 B 對象&#xff0c;同樣的 B 對象也被 Spring 管理&#xff0c;并且也引入的 A 對象。這種相互被引用的情況&#…

thrift軟件、.thrif文件和thrift協議是什么關系,有什么用

Thrift軟件、.thrift文件和Thrift協議是Apache Thrift框架的三個核心組成部分&#xff0c;它們協同實現跨語言服務的高效開發與通信。以下是三者關系及作用的詳細解析&#xff1a; 一、核心組件關系 1. Thrift軟件&#xff08;框架&#xff09; ? 定位&#xff1a;Apache Th…

STM32旋轉編碼器驅動詳解:方向判斷、卡死處理與代碼分析 | 零基礎入門STM32第四十八步

主題內容教學目的/擴展視頻旋轉編碼器電路原理&#xff0c;跳線設置&#xff0c;結構分析。驅動程序與調用。熟悉電路和驅動程序。 師從洋桃電子&#xff0c;杜洋老師 &#x1f4d1;文章目錄 一、旋轉編碼器原理與驅動結構1.1 旋轉編碼器工作原理1.2 驅動程序結構 二、方向判斷…