如何用AI主動突出畫面主體!涂鴉新方案助剪輯、工業巡檢、醫療影像等領域,實現自動追蹤+智能放大

隨著智能 IPC 設備(如安防攝像頭、寵物陪伴機器人、嬰兒監視器等)日益普及,越來越多的生活場景被實時記錄。然而在實際使用中,由于設備安裝位置不當、廣角鏡頭視野過大等原因,經常會出現拍攝主體占比過小的問題,導致"全景清晰而主體模糊",嚴重影響用戶的觀看體驗。

在這里插入圖片描述

一、涂鴉 AI 推理模型自動突出主體

因此,涂鴉重磅推出 On-App AI 視頻主體突出解決方案,利用涂鴉賦能 App 的 AI 能力對畫面進行實時目標檢測,自動定位、識別主體后,再利用圖像算法對其進行智能自適應放大,使主體更突出、畫面更聚焦。最后,對處理完成的視頻進行編碼與封裝,即可輸出經過優化的視頻內容。

該方案適合拓展應用至生活各個場景中,如:

  • 在室內監護中,可用于嬰兒看護、寵物監測、寵物機器人等設備;
  • 在醫療影像或科研中,可結合內鏡或其他醫療設備突出術野關鍵區域;
  • 在戶外記錄時,可用于智能喂鳥器、狩獵攝像機、自然景觀攝像機等設備;
  • 在安防與工業檢測中,可用于巡檢、維修等需要檢查局部細節的設備。

a.例如針對家庭場景里的小貓,攝像頭會自動識別主體并進行畫面放大👇:

在這里插入圖片描述
在這里插入圖片描述
b.在戶外復雜場景下,涂鴉 On-App AI 視頻主體方案依然能夠精準識別目標對象,并進行動作追蹤和畫面放大。戳視頻,直觀體驗生成效果👇:

【插入視頻】

二、詳解涂鴉 AI 視頻主體突出技術

1、整體技術架構介紹

在涂鴉所有的 AI 產品/硬件解決方案中, 我們打通了端到端的 AI 能力:即設備端、云端、App 端三端協同。通過將先進的 AI 推理模型部署到涂鴉賦能 App 上,能夠助力品牌商與開發者將先進的 AI 技術無縫集成到移動設備中,打造更靈活的 AI 架構、更優的用戶體驗、更安全的計算能力。

  • 在移動端模型的部署中,涂鴉采用了輕量化技術架構( TensorFlow Lite 等),這種技術架構的優勢就在于具備高效推理、低延遲、低功耗等特點,并且支持本地模型實現離線運行、系統更新、部署等按需加載的機制,助力提高運行效率,打造更靈活的 AI 架構。
  • 圖像處理技術涂鴉采用了 OpenGL ES,可實現更高效的渲染與優化,充分利用 GPU 對圖像處理過程進行加速;
  • 視頻編解碼技術采用涂鴉平臺提供的硬件解碼,能夠提升視頻處理性能、降低 CPU 負載,確保視頻流暢播放與低功耗運行。

在這里插入圖片描述

(涂鴉 AI 視頻主體突出技術架構圖)

2、技術亮點

2.1 擁有更靈活的 AI 架構:輕量化和動態化

在這里插入圖片描述
(輕量化與動態化運行流程示意圖)

2.1.1 輕量級檢測模型

涂鴉采用專門優化移動端的輕量級對象檢測模型 EfficientDet-D0,該模型參數少、計算量小、推理速度快,可以精準檢測視頻中指定主體(如寵物、人物)的位置與類別。同時,基于智能分析能力可快速篩除無主體片段,有效降低計算負擔,提升處理效率。

2.1.2 模型動態化

采用按需加載的動態模型管理機制,支持模型在線下載、更新與部署,確保視頻應用始終使用最優模型版本,同時減少初始安裝包體積,提高運行效率。

2.2 更優的用戶體驗:實時性和高效率

在這里插入圖片描述
2.2.1 實時交互處理

該方案支持實時響應用戶的交互需求。依托本地計算的高效運行,可確保流暢無延遲的用戶體驗,無需依賴網絡,即可實現快速響應與實時處理。

2.2.2 新增防抖圖像算法

在檢測視頻主體位置的過程中,檢測框可能會發生抖動偏移,從而導致主體放大的畫面也會產生抖動;針對這一問題,涂鴉增加抖動閾值,確保視頻處理畫面時的平滑流暢。

2.2.3 微調模型以提高準確度

涂鴉積累了海量不同場景下的主體圖片,覆蓋不同光照條件下白天黑夜等多個場景,數據脫敏之后,涂鴉對這些模型進行精心的訓練微調,確保模型推理過程中的泛化能力。

2.3 更安全的計算能力:低成本和隱私保護

在這里插入圖片描述
2.3.1 降低處理成本

涂鴉支持開發者動態調整視頻幀的推理策略。在沒有檢測到視頻主體的時候,系統會間隔多幀識別一幀;當檢測到主體時,就會自動調整為間隔 3 幀檢測一幀。這樣就能充分利用移動端的硬件加速,顯著提升視頻編解碼速度,降低 CPU 負載,提高整體性能。

而且,本地化處理相比云端處理的成本更低、更能節約云端負荷,算力消耗每萬次減少 25 TFLOPs,節省成本約 10% 左右。

2.3.2 保護隱私安全

該方案的所有數據處理均在本地完成,顯著降低時延、提高響應速度,同時避免數據外傳,增強用戶隱私保護,為應用提供更安全高效的計算環境。

三、開發教程與問題咨詢

1、如何實現 AI 視頻主體突出功能的開發?

涂鴉 On-App AI 視頻主體突出方案是基于涂鴉智能 IPC 功能所打造,如要開發該方案需要先對接 IPC SDK,設備端方案可參考 IPC SDK 開發:

具體開發教程見如下鏈接👇:

https://t.tuya.com/AY1D3VbxRO

2、技術原理介紹

如需了解更多有關 AI 視頻主體突出的技術原理和開發介紹,可復制下方鏈接查看詳情介紹👇:

https://developer.tuya.com/cn/miniapp/solution-ai/case

在這里插入圖片描述

3、開發者問題咨詢

開發中如遇到任何問題,可以登錄涂鴉開發者論壇進行提問,將有技術小哥隨時為你解答👇:

https://www.tuyaos.com/viewforum.php?f=3

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/78265.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/78265.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/78265.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數據湖DataLake和傳統數據倉庫Datawarehouse的主要區別是什么?優缺點是什么?

數據湖和傳統數據倉庫的主要區別 以下是數據湖和傳統數據倉庫的主要區別,以表格形式展示: 特性數據湖傳統數據倉庫數據類型支持結構化、半結構化及非結構化數據主要處理結構化數據架構設計扁平化架構,所有數據存儲在一個大的“池”中多層架…

當智駕成標配,車企暗戰升級|2025上海車展

文|劉俊宏 編|王一粟 智能化無處不在的2025年上海車展,回歸了賣車的初衷。 光錐智能在展會暴走兩天,最大的感觸是今年的車展少了爭奇斗艷,多了些許務實。 回顧智能汽車時代的三場重要車展。2023年的上海車展充滿了…

如何在Spring Boot中禁用Actuator端點安全性

在 Spring Boot 應用中,Spring Boot Actuator 提供了一系列用于監控和管理應用的端點(如 /actuator/health、/actuator/metrics),這些端點默認可能受到 Spring Security 的保護,要求身份驗證或授權。然而,在…

【mongodb】系統保留的數據庫名

目錄 1. admin2. config3. local4. test(非嚴格保留,但常作為默認測試數據庫)5. 注意事項6. 其他相關說明 1. admin 1.用途:用于存儲數據庫的權限和用戶管理相關數據。2.特點:該數據庫是 MongoDB 的超級用戶數據庫&am…

Redis是單線程的,如何提高多核CPU的利用率?

一句話回答: Redis 是單線程處理客戶端命令,但可以通過 多實例部署、I/O 多路復用、后臺線程 Redis 6 的 I/O Thread 支持,來充分利用多核 CPU。 一、Redis 單線程 ≠ 整個 Redis 都是單線程! Redis 主要的 網絡事件 命令執行 …

關于mysql的事務和索引

1. 事務四大特性(ACID) 原子性:事務的操作要么全部成功,要么全部失敗回滾,不可分割。 一致性:事務執行前后,數據必須滿足業務規則(如賬戶總額不變)。 隔離性&#xff1…

【Python】保持Selenium穩定爬取的方法(防檢測策略)

selenium 防檢測策略的方法匯總: 合理設置延遲:請求間添加隨機延遲 (2-10秒) 限制爬取頻率:控制每小時/每天的請求量 輪換用戶代理:準備至少10個不同的User-Agent 使用住宅代理:優先選擇高質量的住宅代理IP 處理驗…

SpringSecurity源碼解讀AbstractAuthenticationProcessingFilter

一、介紹 AbstractAuthenticationProcessingFilter 是 Spring Security 框架里的一個抽象過濾器,它在處理基于表單的認證等認證流程時起著關鍵作用。它繼承自 GenericFilterBean,并實現了 javax.servlet.Filter 接口。此過濾器的主要功能是攔截客戶端發送的認證請求,對請求…

什么是DDD?為什么它正在取代傳統架構?

什么是DDD?為什么它正在取代傳統架構? 1. 傳統開發模式的痛點 在經典的MVC架構中,開發流程往往從數據庫表結構設計開始,業務邏輯散落在Service層,隨著需求迭代容易形成「大泥球」代碼: 實體類變成純粹的…

基于外部中中斷機制,實現以下功能: 1.按鍵1,按下和釋放后,點亮LED 2.按鍵2,按下和釋放后,熄滅LED 3.按鍵3,按下和釋放后,使得LED閃爍

題目: 參照外部中斷的原理和代碼示例,再結合之前已經實現的按鍵切換LED狀態的實驗,用外部中斷改進其實現。 請自行參考文檔《中斷》當中,有關按鍵切換LED狀態的內容, 自行連接電路圖,基于外部中斷機制,實現以下功能&am…

在SQL中,FROM子句中的子查詢必須指定別名,即使后續未引用該別名

FROM子句中的子查詢必須指定別名 示例錯誤示例及原因:總結: 在SQL中, FROM子句中的子查詢必須指定別名, 即使后續未引用該別名 示例 查詢館藏圖書最多的作者姓名及館藏數量 SELECT 作者, COUNT(圖書編號) AS 館藏數量 FROM 圖…

問道數碼獸 懷舊劇情回合手游源碼搭建教程(反查重優化版)

本文將對"問道數碼獸"這一經典卡通風格回合制手游的服務端部署與客戶端調整流程進行詳細拆解,適用于具備基礎 Windows 運維和手游源碼調試經驗的開發者參考使用。教程以實戰為導向,基于原始說明內容重構優化,具備較高的內容查重避重…

Shell腳本-for循環應用案例

在Shell腳本編程中,for循環是一種強大的工具,用于處理重復性任務。無論是批量處理文件、遍歷目錄內容還是簡單的計數任務,for循環都能提供簡潔而有效的解決方案。本文將通過幾個實際的應用案例來展示如何使用for循環解決具體的編程問題。 案…

Chrmo手動同步數據

地址欄輸入 chrome://sync-internals分別點擊這2個按鈕即可觸發手動同步

為什么圓形在GeoJSON中被表示為多邊形(Polygon)而不是圓形類型

GeoJSON規范中沒有"圓形"類型 GeoJSON是一種用于表示地理空間數據的標準格式,它的規范中只定義了以下幾種基本幾何類型: Point (點) LineString (線) Polygon (多邊形) MultiPoint (多點) MultiLineString (多線) MultiPolygon (多多邊形) GeometryCollection (幾…

大數據組件學習之--Kafka 安裝搭建

一、前置環境 在搭建kafka之前,請確認自己的hadoop、zookeeper是否搭建完成且可正常運行 二、下載并上傳安裝包(鏈接為百度網盤) kafka安裝包 tar -zxvf /opt/software/kafka_2.12-2.4.1.tgz -C /opt/module/ 進入解壓后的目錄更改文件名…

PyQt6基礎_pyqtgraph_折線圖with縮放調節

目錄 字符型橫坐標代碼 折線圖代碼 運行 創建新類,繼承pg.PlotWidget,在新類中實現業務內容,重寫pg.PlotWidget中的wheelEvent方法并使用業務數據實現比較理想的縮放狀態。 字符型橫坐標代碼 class StrAxisItem(pg.AxisItem):def __init…

聯邦元學習實現個性化物聯網的框架

隨著數據安全和隱私保護相關法律法規的出臺,需要直接在中央服務器上收集和處理數據的集中式解決方案,對于個性化物聯網而言,訓練各種特定領域場景的人工智能模型已變得不切實際。基于此,中山大學,南洋理工大學&#xf…

audio 核心服務AudioPolicyService 和AudioFlinger啟動流程

目錄 1、audioserver啟動 2、AudioPolicyService啟動 3、AudioFlinger啟動 audio的核心服務有兩個,AudioPolicyService 和AudioFlinger他們到在audioserver一個進程中 1、audioserver啟動 設備開機,系統啟動時將執行 /system/etc/init/audioserver.rc…

反爬蟲機制中的驗證碼識別:類型、技術難點與應對策略

在互聯網數據抓取領域,驗證碼識別是爬蟲過程中的關鍵環節之一。下面對常見驗證碼類型、技術難點及應對策略進行詳細解析,并提供多種場景下的代碼實現示例。 一、驗證碼類型與技術難點 (一)圖形驗證碼 1. 字符驗證碼 特征&#…