導讀 :本文主要介紹了百度智能云MCA產品的概念和應用。
媒體信息海量且復雜,采用人工的方式對視頻進行分析處理,面臨著效率低、成本高的困難。于是,MCA應運而生。它基于百度自研的視覺AI、ASR、NLP技術,為用戶提供音視頻、圖片、文本的內容分析能力,實現標簽提取、智能封面提取、高光片段分析等功能。
01 背景與目標
對于涉及廣電新聞、娛樂社交等UGC、AIGC的企業來說,有效地收集、整理、分析和呈現視頻內容,不僅能幫助企業在競爭中拔得頭籌,還有利于做出更優的業務決策。可是,這會面臨一些挑戰:
-
標簽要覆蓋大量業務場景,否則就需要建設多個數據集,不易于統計和分析;
-
分析維度應支持自由配置,否則無法滿足個性化的業務需求;
-
支持分析不同格式的媒體內容,同時,處理視頻的速度要快。
百度智能云媒體內容分析(Media Content Analysis),就是為了幫助企業提高內容分析的效率、縮減平臺的人力成本,而建設的一體機產品:
MCA將AI技術落地于媒體行業內容分析場景,可以助力企業內容推薦與搜索業務發展,賦能媒體行業,助力產業升級。
02 技術方案
根據公開信息可知,MCA的定位是“實現智能媒體內容分析的一體機產品”,用戶可以選擇公有云或私有化的部署方式,自定義配置內容分析的維度,并呈現可視化的分析結果。
AI技術托底(大模型):MCA借助百度強大的 AI 技術、沉淀已久的海量級數據,針對視頻場景進行專門的優化,可以達到最優的識別效果。
影視綜知識圖譜(業內領先):根據影視劇/綜藝類視頻的場景、人臉、標題等內容,推理返回劇集名稱、別稱、演員表、一句話簡介、上映時間、地點等信息,幫助補充視頻標簽。
公眾人臉庫(專業):基于百度百科的海量人臉數據,收錄了領導人、藝術家、影視明星、體育明星、社會活動家等國內外公眾人物,總數量超70萬。
召回率提升(高效):對比人工瀏覽視頻內容標注出的視頻標簽的數量,使用視頻內容分析MCA的結構化標簽數量提升了10倍左右,能夠準確描述視頻中的細節內容、提升視頻的搜全率。
2.1 整體架構
按照功能劃分,MCA的層級架構如圖所示:
業務系統的核心功能如圖所示:
MCA產品的主要功能如下:
a. 智能視頻標簽:為視頻文件或直播流的內容打標簽,可輸出視頻的場景、公眾人物、地點、實體和關鍵詞等結構化標簽信息;
b. 智能圖片標簽:對圖片內容進行打標簽,可輸出圖片中公眾人物、logo、實體和關鍵詞等結構化標簽信息;
c. 智能封面:通過對視頻、圖像等內容理解,從圖像清晰度、構圖美學和精彩程度等方面分析,生成視頻的靜態封面、動態封面、視頻封面;
d. 精彩視頻分析:通過場景切分、音頻特征分析等技術,提取影視綜長視頻中的高光時刻。
2.2 技術實現的細節闡釋
登錄百度智能云平臺官網,進入“一念 > 內容分析”產品頁面。
2.2.1 智能標簽
登錄成功、進入產品頁面后,進入智能標簽 > 視頻內容分析,點擊“創建視頻內容分析”,創建分析任務。
MCA支持三種視頻導入方式:本地文件導入、BOS 地址導入、在線地址導入。
輸入限制:
文件格式:3gpp、asf/wmv、avi、flv/f4v、mkv、mov/mp4/m4a、mp3、mp2、mpeg/mpg、ts/ogg、mts、wmv/wma、rm/rmvb、webm等;
視頻編碼標準:H.264、H.263/H.263+、MPEG-1/2/4、VP8/9、Quicktime、RealVideo、WMV、MJPEG等;
音頻編碼標準:MP1、MP2、MP3、AAC、AC-3、WMA、PCM、ADPCM、AMR、RealAudio、Vorbis、DSD等;
分析時長6小時以內,分辨率大于30X30;
分析視頻的audio、video編碼信息須至少存在一個,不能為空;
可批量上傳音視頻文件,最多可同時上傳20個文件。
分析過程中可以看到分析狀態(排隊中→分析中→分析完成/分析失敗)。如果分析失敗,可以將鼠標移到分析失敗旁邊的圖標上查看失敗原因。若分析完成,則可查看分析結果。
點擊分析完成視頻的“查看詳情”按鈕,即可查看視頻分析的結果.
右側的頁簽可以查看不同維度的中間分析結果,下側為標簽提取結果。
2.2.2 智能封面
開啟后,系統將結合清晰度、人臉、構圖、場景識別等特征信息,綜合輸出視頻中適合做封面的圖片。
點擊智能封面分析,進入智能封面分析頁面。
點擊創建智能封面分析,創建分析任務。
分析過程中可以看到分析狀態(排隊中→分析中→分析完成/分析失敗)。
點擊分析完成視頻的“查看詳情”按鈕,即可查看視頻的封面結果。
2.2.3 精彩視頻分析
登錄成功、進入產品頁面后,點擊精彩視頻分析,進入精彩視頻分析頁面。
點擊創建精彩視頻分析,創建分析任務。
分析過程中可以看到分析狀態(排隊中→分析中→分析完成)。
分析完成后,點擊“查看詳情”按鈕,即查看視頻的精彩片段。
2.2.4 自定義庫
系統支持自定義LOGO庫與自定義人臉庫、自定義文本庫功能。
自定義人臉庫,區別于公共人物庫,目的在于可以讓客戶管理自身業務所需的人臉集,是公共庫的重要補充。
-
人臉照片的要求:正面的(證件照類型的正面)或微微側面的(五官顯示完整)、面部光線均勻(輪廓清晰,無口罩、帽子、深色墨鏡遮擋,無濃妝)。對于戴眼鏡的人臉,眼鏡框不可遮擋眼睛區域,鏡片應無色或不嚴重反光。
-
畫質:畫質清晰、面部區域不要有字幕、水印等遮擋物。
-
數量:一個人物需要5張左右照片。
自定義人臉庫的關系如下:
支持用戶配置自定義LOGO庫,并綁定在模板上。
自定義文本庫創建后,用戶可選擇將其關聯為黑庫或白庫。
03 總結
在大模型的加持下,MCA能夠更好地幫助企業降本增效:
-
業務提效:對比人工瀏覽視頻內容標注出的視頻標簽,使用媒體內容分析 MCA 可提升 3~5 倍的分析效率。
-
部署靈活:可通過SaaS、API接口調用、私有化部署的方式接入MCA服務,輕松適配多種業務場景,滿足企業各種業務需求,能快速實現集成和落地。
-
管理便捷:支持創建普通用戶和超級管理員用戶,普通用戶僅能使用產品功能,不具備用戶管理權限,超級管理員用戶具備用戶管理權限;不同用戶之前的視頻分析歷史任務可以互相隔離。
————END————
推薦閱讀
產品分享|百度智能云旗下,作為“行業首創”的媒體內容分析MCA是什么_智能媒體分析-CSDN博客
干貨分享|視頻的結構化標簽問題_長視頻內容結構化標簽-CSDN博客
玩轉百度云 AI 服務:成為海量視頻的超級管理員!-CSDN博客