百度云智能媒體內容分析一體機（MCA）建設

導讀：本文主要介紹了百度智能云MCA產品的概念和應用。

媒體信息海量且復雜，采用人工的方式對視頻進行分析處理，面臨著效率低、成本高的困難。于是，MCA應運而生。它基于百度自研的視覺AI、ASR、NLP技術，為用戶提供音視頻、圖片、文本的內容分析能力，實現標簽提取、智能封面提取、高光片段分析等功能。

01 背景與目標

對于涉及廣電新聞、娛樂社交等UGC、AIGC的企業來說，有效地收集、整理、分析和呈現視頻內容，不僅能幫助企業在競爭中拔得頭籌，還有利于做出更優的業務決策。可是，這會面臨一些挑戰：

標簽要覆蓋大量業務場景，否則就需要建設多個數據集，不易于統計和分析；
分析維度應支持自由配置，否則無法滿足個性化的業務需求；
支持分析不同格式的媒體內容，同時，處理視頻的速度要快。

百度智能云媒體內容分析（Media Content Analysis），就是為了幫助企業提高內容分析的效率、縮減平臺的人力成本，而建設的一體機產品：

MCA將AI技術落地于媒體行業內容分析場景，可以助力企業內容推薦與搜索業務發展，賦能媒體行業，助力產業升級。

02 技術方案

根據公開信息可知，MCA的定位是“實現智能媒體內容分析的一體機產品”，用戶可以選擇公有云或私有化的部署方式，自定義配置內容分析的維度，并呈現可視化的分析結果。

AI技術托底（大模型）：MCA借助百度強大的 AI 技術、沉淀已久的海量級數據，針對視頻場景進行專門的優化，可以達到最優的識別效果。

影視綜知識圖譜（業內領先）：根據影視劇/綜藝類視頻的場景、人臉、標題等內容，推理返回劇集名稱、別稱、演員表、一句話簡介、上映時間、地點等信息，幫助補充視頻標簽。

公眾人臉庫（專業）：基于百度百科的海量人臉數據，收錄了領導人、藝術家、影視明星、體育明星、社會活動家等國內外公眾人物，總數量超70萬。

召回率提升（高效）：對比人工瀏覽視頻內容標注出的視頻標簽的數量，使用視頻內容分析MCA的結構化標簽數量提升了10倍左右，能夠準確描述視頻中的細節內容、提升視頻的搜全率。

2.1 整體架構

按照功能劃分，MCA的層級架構如圖所示：

業務系統的核心功能如圖所示：

MCA產品的主要功能如下：

a. 智能視頻標簽：為視頻文件或直播流的內容打標簽，可輸出視頻的場景、公眾人物、地點、實體和關鍵詞等結構化標簽信息；

b. 智能圖片標簽：對圖片內容進行打標簽，可輸出圖片中公眾人物、logo、實體和關鍵詞等結構化標簽信息；

c. 智能封面：通過對視頻、圖像等內容理解，從圖像清晰度、構圖美學和精彩程度等方面分析，生成視頻的靜態封面、動態封面、視頻封面；

d. 精彩視頻分析：通過場景切分、音頻特征分析等技術，提取影視綜長視頻中的高光時刻。

2.2 技術實現的細節闡釋

登錄百度智能云平臺官網，進入“一念 > 內容分析”產品頁面。

2.2.1 智能標簽

登錄成功、進入產品頁面后，進入智能標簽 > 視頻內容分析，點擊“創建視頻內容分析”，創建分析任務。

MCA支持三種視頻導入方式：本地文件導入、BOS 地址導入、在線地址導入。

輸入限制：

文件格式：3gpp、asf/wmv、avi、flv/f4v、mkv、mov/mp4/m4a、mp3、mp2、mpeg/mpg、ts/ogg、mts、wmv/wma、rm/rmvb、webm等；

視頻編碼標準：H.264、H.263/H.263+、MPEG-1/2/4、VP8/9、Quicktime、RealVideo、WMV、MJPEG等；

音頻編碼標準：MP1、MP2、MP3、AAC、AC-3、WMA、PCM、ADPCM、AMR、RealAudio、Vorbis、DSD等；

分析時長6小時以內，分辨率大于30X30；

分析視頻的audio、video編碼信息須至少存在一個，不能為空；

可批量上傳音視頻文件，最多可同時上傳20個文件。

分析過程中可以看到分析狀態（排隊中→分析中→分析完成/分析失敗）。如果分析失敗，可以將鼠標移到分析失敗旁邊的圖標上查看失敗原因。若分析完成，則可查看分析結果。

點擊分析完成視頻的“查看詳情”按鈕，即可查看視頻分析的結果.

右側的頁簽可以查看不同維度的中間分析結果，下側為標簽提取結果。

2.2.2 智能封面

開啟后，系統將結合清晰度、人臉、構圖、場景識別等特征信息，綜合輸出視頻中適合做封面的圖片。

點擊智能封面分析，進入智能封面分析頁面。

點擊創建智能封面分析，創建分析任務。

分析過程中可以看到分析狀態（排隊中→分析中→分析完成/分析失敗）。

點擊分析完成視頻的“查看詳情”按鈕，即可查看視頻的封面結果。

2.2.3 精彩視頻分析

登錄成功、進入產品頁面后，點擊精彩視頻分析，進入精彩視頻分析頁面。

點擊創建精彩視頻分析，創建分析任務。

分析過程中可以看到分析狀態（排隊中→分析中→分析完成）。

分析完成后，點擊“查看詳情”按鈕，即查看視頻的精彩片段。

2.2.4 自定義庫

系統支持自定義LOGO庫與自定義人臉庫、自定義文本庫功能。

自定義人臉庫，區別于公共人物庫，目的在于可以讓客戶管理自身業務所需的人臉集，是公共庫的重要補充。

人臉照片的要求：正面的（證件照類型的正面）或微微側面的（五官顯示完整）、面部光線均勻（輪廓清晰，無口罩、帽子、深色墨鏡遮擋，無濃妝）。對于戴眼鏡的人臉，眼鏡框不可遮擋眼睛區域，鏡片應無色或不嚴重反光。
畫質：畫質清晰、面部區域不要有字幕、水印等遮擋物。
數量：一個人物需要5張左右照片。

自定義人臉庫的關系如下：

支持用戶配置自定義LOGO庫，并綁定在模板上。

自定義文本庫創建后，用戶可選擇將其關聯為黑庫或白庫。

03 總結

在大模型的加持下，MCA能夠更好地幫助企業降本增效：

業務提效：對比人工瀏覽視頻內容標注出的視頻標簽，使用媒體內容分析 MCA 可提升 3~5 倍的分析效率。
部署靈活：可通過SaaS、API接口調用、私有化部署的方式接入MCA服務，輕松適配多種業務場景，滿足企業各種業務需求，能快速實現集成和落地。
管理便捷：支持創建普通用戶和超級管理員用戶，普通用戶僅能使用產品功能，不具備用戶管理權限，超級管理員用戶具備用戶管理權限；不同用戶之前的視頻分析歷史任務可以互相隔離。

————END————