筆者按:
昨日復習的信息網絡安全約莫是掛了,常言道:知恥而后勇。誠如斯言
于是決心多媒體是不能再掛了,不然直接變成xxx之流,自增笑耳
語雀鏈接:多媒體基礎
一.多媒體計算機概述
-
媒體:承載信息的載體
-
分類:
- 感覺媒體:作用于人的感覺器官
- 傳輸媒體:傳輸表示媒體的物理介質,電纜,光纜等
- 表示媒體:傳送感覺媒體的媒體:視頻等
- 顯示媒體:電信號 與感覺媒體產生交換的媒體,鼠標,顯示器等
- 存儲媒體:存儲表示媒體的媒體,如固態硬盤
綜合以上即為多媒體
-
-
多媒體技術:
綜合處理多種媒體信息,集成為一個系統并具有良好的交互性的技術。是計算機技術,大眾傳媒技術,通信網絡技術發展的產物
- 三大特性:
- 多樣性:計算機處理信息的多樣化
- 集成性:信息媒體,處理設備的集成
- 交互性:提供有效控制和使用信息的手段
- 研究熱點:
- 媒體處理技術
- 媒體語義理解
- 虛擬現實技術
- 三大特性:
二.圖像基礎與圖像處理
-
用數字表示圖像
- 采樣:空間連續坐標的離散化
- 量化:對每一個采樣點的顏色的離散化處理(用數值表示顏色)
- 采樣頻率越高,量化位數越大,數字圖像質量越好
- 數字圖像以矩陣的形式存儲:元素代表像素點位置;元素值代表了像素點的值
- 顯示時逐點映射為屏幕上相應像素的顏色值
- 采樣頻率-》分辨率;量化位數-》顏色深度(位深度)
- 分辨率:
- 像素分辨率(pixel)
- 設備分辨率 dpi(dots per inch;每英寸點數)如:1920*1080
- 水平分辨率:水平方向上一英寸多少個點
- 顏色深度(位深度)
- 1:黑白二級圖像
- 8:256級灰度圖
- 8:索引256色圖
- 24:真彩色圖,1670萬種顏色
-
圖像的色彩模式:
-
RGB模式:計算機;紅綠藍三原色顯光合成可見顏色;加色原理;(R,G,B)
-
CMYK模式:油墨印刷;青(Cray),品紅(Magenta),黃(Yellow),黑(blacK);減色原理
(66%,97%,9%,0%)
-
HSB模式:適合于人眼
色相(Hue),飽和度(Saturation),亮度(Brightness)
-
色彩空間:某種顏色模式所能表示的所有顏色組成的空間,每個設備的色彩空間都是不同的
-
-
亮度直方圖:
- 如何使用亮度直方圖發現圖像中的色彩問題
-
圖像的數據量(Byte):總像素數*顏色深度 / 8
-
-
行程編碼
- 檢測記錄連續符號出現次數
- 1 1 1 1 3 3 3 3 3 3 -》 1 4 3 6
-
Huffman編碼
- 可變字長編碼
- 頻率二叉樹編碼
-
JPEG壓縮
- 圖像分割
- 將RGB模式轉換為YUV模式
- 離散余弦變換(DCT變換)
- 量化(有損)
- 熵編碼(無損):zigzag掃描 + Huffman編碼
-
圖像壓縮的評價標準:
具有信息冗余和視覺冗余,故可以壓縮
- 壓縮比
- 壓縮質量:損失程度
- 壓縮和解壓縮的速度
-
常見圖像文件種類:
-
.bmp:不壓縮,保存原始圖像
-
.jpg / .jpeg:最常用的文件格式,JPEG壓縮算法,壓縮比幾十比一到一百比一(高),壓縮質量好
jpeg2000:壓縮率比jpeg(部分呈現加載)高約30%,支持漸進傳輸(全部呈現,從模糊到清晰)
-
.gif:無損壓縮,約2:1,最大不超過64MB,不支持真彩色,包含透明區域和多幀動畫
-
.tif / .tiff:適合所有領域,工業標準格式;支持壓縮(多種算法)與非壓縮(獨立于軟硬件,良好的兼容性)
-
.png :無損壓縮,支持漸進傳輸
-
.psd: PS專用格式,支持全部圖像色彩格式,占存大
-
矢量圖(圖形):.ai,.cdr,.dwg;只記錄生成圖的要素和圖上的某些特征點
圖形的最小單位是圖元,圖像的最小單位是像素
顯示時:圖形按圖元順序計算繪制,圖像按像素順序逐一映射至顯示器
圖形變換無失真,圖像變換有失真
-
- 圖像變換
- 幾何變換:平移,縮放,旋轉,鏡像,錯切,扭曲變形
- 頻域變換離散余弦變換(DCT),傅里葉變換(DFT),小波變換
- 圖像增加
- 改善圖像的質量
- 突出圖像中的有用信息
- 擴大不同物體特征間的差別
- 對比度增強
- 直方圖增強
- 低通濾波(平滑)
- 高通濾波(銳化)
- 圖像修復
- 圖像恢復
- 找到圖像降質的原因
- 描述物理過程,提出數學模型
- 沿著質量降質的逆過程來重現原始圖像
- 圖像分割
- 按一定要求分割為一些有意義的區域,特征或屬性相似
- 圖像識別
- 一般需要先對圖像進行增強和分割
- 判斷是什么
- 人臉識別,字幕識別等
- 特效處理
- 模糊化,浮雕化等
三.音頻基礎及音頻處理
-
聲音:物體振動在介質中的傳播所引起的一種感知
- 分類:
- 次聲(小于20Hz)
- 音頻(20Hz~20kHz)
- 規則聲音:
- 語音:300~3.4kHz,語言的載體
- 音樂:規范的符號化聲音
- 音效:自然界中的各種聲音
- 不規則聲音:
- 噪聲
- 規則聲音:
- 超聲(大于20kHz)
- 頻率范圍越寬,聲音質量越好
- 分類:
-
聲波:通過彈性介質傳播的一種連續波
- 振幅:聲音的強弱
- 頻率:聲音的高低
- 相位:聲音的方位
-
聲音媒體:
- 連續性時基媒體(隨時間變化的連續媒體)
- 具有三個主觀要素:
- 音調
- 音強
- 音色:與聲波的波形有關,對聲源發聲特色的主觀感受
- 具有方向性
-
數字音頻:
按采樣的頻率間隔,不斷獲取幅度的量值,使得連續的聲音轉變為離散的數字量
-
指標:
- 采樣頻率
- 量化位數
- 5.1聲道
-
采樣+量化+編碼
-
采樣頻率:越高,質量越好,所需的存儲空間越大
-
當采樣頻率大于最高輸入頻率的兩倍時,采樣后的數字信號可以完整的保留原始信號中的信息
-
常見采樣頻率:
- 44.1kHz:CD
- 22.025kHz:FM廣播
- 8kHz:電話語音
-
量化位數:同采樣頻率
-
常見量化位數:8位,16位
-
單聲道,雙聲道(立體聲,在硬件中占兩條線路,所占空間自然也多了一倍)
-
-
數據量:采樣頻率 * 聲道數 * 量化位數 * 持續時間 / 8
-
-
音頻的采集和獲取
-
硬件設備和環境
- 麥克風:輸入設備
- 聲卡:聲音合成設備
- 音箱:輸出設備
-
聲卡:最基本的聲音合成設備
-
可以把來自話筒等的原始聲信號加以轉換,輸出到耳機,揚聲器等聲響設備,完成對聲音信號的錄制與回放
-
實現模擬信號與數字信號的轉換(A/D,D/A轉換,A:模擬信號,D:數字信號)
-
-
聲卡類型:
- 集成式
- 板卡式
- 外置式
-
MIDI:樂器數字接口
數字音樂的國際標準,一種小巧的描述性的“音樂語言”
- MIDI音樂合成:
- 波表合成法:
- 波表:錄制真實樂器的聲音并存儲下來的
- 采用真實樂器的采樣,效果比較好
- 調頻合成法:
- 用聲音振蕩的原理合成MIDI
- 波表合成法:
- MIDI音樂合成:
-
-
音頻壓縮:
-
存在大量冗余:
- 時域冗余:相鄰樣本間的相關性,信號周期的相關性,語音間隙的冗余等
- 聽覺冗余
- 頻域冗余:低頻分量多余高頻分量,語音信號的共振峰等
-
-
MPEG-1編碼
- 第一個高保真立體聲音頻壓縮標準
-
MPEG-2編碼
- 增加了聲道數,支持5.1聲道
- 擴展了輸出范圍:32~384kbps -》 8~640kbps
- 增加了更低的采樣頻率:16kHz,22.05kHz,24kHz
- MPEG-2 BC是為多聲道開發的低碼率方案
- MPEG-2 AAC:
- 感知編碼:利用聽覺系統的掩蔽特性來減少聲音編碼的 數據量,通過子帶編碼將量化噪聲分散到各個子帶,用全局聲音信號將噪聲掩蔽掉
- 模塊化:AAC編碼使用模塊化的編碼方式
-
常見音頻格式:
- CD:.cda;音質最好,近似無損;無法編輯,僅包含一個44字節的索引,不真正包含聲音信息(CD音軌);大
- WAV:Windows用的標準數字音頻格式,無損音頻,記錄對各種音質的采樣,可重現各種聲音,包括噪聲,CD
- MIDI:.mid,存儲的是指令,告訴聲卡應當如何再現音樂
- 數據量小
- 編輯靈活
- 不能重現真實自然聲音
- 音質受到聲卡的限制
- 有幾個變通的格式:RMI,CMF
- MP3:.mp3 :MPEG-1 Audio Layer 3
- 采用感知編碼技術
- 保持低頻不失真,犧牲了12kHz的高頻質量
- 大小為WAV的十一,音質僅次于CD和WAV
- 因特網上流行
- WMA:微軟的音頻文件格式
- 支持流媒體技術(邊下邊播)
- 內置版權保護協議
- 音質好,文件小
- RA(Real Audio):根由帶寬改變音質
- APE:高保真,幾近無損壓縮
-
音頻編輯技術:
-
語音識別
- 識別準確率:應大于95%
- 識別速度:接近口語速度
- 能力要求:
- 適應口音的能力
- 適應各領域的廣泛應用
- 適應環境變化和使用者變化
- 系統本身的可擴充性
-
語音合成:
將計算機內的文字轉換為連續自然的語音流
-
有限詞匯的語音輸出
-
基于語音合成技術的文字-語音轉換技術(TTS)
文本輸入 -》文本處理 -》韻律分析控制 -》語音合成 -》輸出
-
-
-
-
四.多媒體數據壓縮編碼技術
-
為什么可以壓縮?
- 空間冗余,一副圖像上記錄的 景物的顏色往往存在空間連貫性
- 時間冗余:前后幀的數據存在大量相似
- 結構冗余:相似的分布模式
- 知識冗余:某些圖像存在相關性,如人臉的結構
- 視覺冗余:無法發覺
-
編碼:將一種數據轉換為另一種形式 的數據的過程 ,以便計算機可以理解并處理
-
信源編碼器和信源解碼器,信道編碼器和信道解碼器
-
-
信源編碼器:減少或消除輸入圖像中的冗余
一階段:減少輸入圖像中像素間的冗余
二階段:去除原圖像信號的相關性
三階段:找到一種近于熵,有利于計算機處理的編碼 方式
-
信源解碼器:
-
信道編碼解碼器:
- 當信道帶有噪聲或易于出錯,用到信道編碼解碼器
-
-
Hamming校驗碼
向被編碼數據加入足夠的位數,確保可用的碼字間變化的位數最小
海明校驗碼 - 掘金 (juejin.cn)
-
信息熵的計算公式:
-
Huffman編碼(算術編碼)
這個默認都會,就不介紹了
- 最佳,編碼不唯一,平均碼長相同
- 碼長參差不齊,存在輸入輸出速率匹配問題,因此需要設置緩沖存儲器
- 若出現誤碼,可能引起誤碼的連續傳播
- 對不同信源的編碼效率不盡相同
- 與其他編碼結合起來,才能進一步提高數據壓縮比
-
香農-費諾編碼
香農-范諾編碼(Shannon–Fano Coding)-CSDN博客
-
算術編碼:對于更高頻的符號,使用更短的編碼。這樣在對整個信息進行編碼時,就可以進行大幅度壓縮。
什么是算術編碼、算術編碼的編碼和解碼 CSDN博客
- 計算機精度問題,可能出現溢出
- 對整個消息只產生一個碼字,在接收到所有位后才能開始譯碼
- 錯誤敏感,一位錯誤導致整個消息錯誤
-
預測編碼
記錄的是預測值與真實值之間的差值
-
幀內預測編碼:空間相關性
-
幀間預測編碼:時間相關性
-
運動估計:將圖像分為小塊,將當前幀與參考幀進行比較,尋找與當前塊最相似的部分
一旦確定每個塊的運動就會得到一組運動矢量,用以描述相對位移
-
運動補償:用前幀預測和補償后幀
利用運動矢量移動參考幀的像素塊
-
性能受到塊的大小和搜索范圍影響
-
-
子像素運動補償:提升運動估計的精細度
- 運動矢量只能以整數像素為單位,可能導致像素級別的精細運動被忽略
- 在整數像素之間插值來對精細運動建模,將圖像分為更精細的子像素網格
-
數字視頻編碼—預測編碼-CSDN博客
-
-
變換編碼:
- K-L變換,DCT變換
- 利用圖像間的相關性將圖像變換到一組新的基底上,通過存儲變換系數達到壓縮的目的
-
量化:使得數據比特率下降
- 多對一的處理過程,不可逆,存在信息丟失
- 把一批輸入量化到同一輸出級上
-
索引色壓縮轉變
- 原圖 -》 16色,32se,4色。。。
- 位深度減少
-
JPEG算法
-
MPEG壓縮算法
-
-
空間上,使用JPEG算法去除冗余
-
時間上,使用運動補償算法去除冗余
-
目的:質量基本不降低又獲得高壓縮比
-
分類:
- 幀內圖像 I
- 預測圖像 P
- 雙向預測圖像 B
-
一個內幀 I 是一個隨機訪問點,雙向預測圖像 B 不能作為參考幀
-
運動補償在宏塊一級運作,宏塊分類:
- 幀內宏塊 I塊
- 前向預測宏塊 F塊
- 后向預測宏塊 B塊
- 平均宏塊 A塊
-
I圖包含I塊;P圖包含I塊,F塊;B圖可以包含四種類型宏塊
-
塊匹配(BMA)-基于塊的運動矢量估計算法:
-
匹配準則:
-
搜索算法:
- 二維對數搜索算法
- 三步搜索算法
- 對偶搜索算法
-
-
-
視頻壓縮標準發展:
-
MPEG:
- 離散余弦變換(DCT):將音頻和視頻信號由時域轉換到頻域,可以使用更少信息表示,實現壓縮
- 運動補償:只存儲發生變化的部分
- 幀內預測:
- 量化:使用量化減少頻域系數精度,減少數據量
- 熵編碼:利用信息中的統計特性,將出現頻率高的符號用較短編碼表示,從而實現更高的壓縮率
- 頻域掩蔽
- 時域掩蔽
-
-
H.261(P*64)
-
解決了:
- 編碼算法問題:合理,保證質量,公認的統一算法
- PCM兼容問題
- 電視制式不同問題
-
信源框架:
- 利用二維DCT減少圖像的空間域的冗余度;
- 利用運動補償預測減少圖像的時間冗余;
- 利用視覺加權量化減少圖像"灰度域的冗余度;
- 利用熵編碼來減少圖像的"頻率域"的冗余度。
-
MPEG-2
-


- MPEG-4
- 支持基于內容的編碼解碼功能,對場景中使用分割算法抽取的單獨對象進行編碼解碼
五.多媒體體系結構
-
多媒體計算機系統:基本計算機系統的軟硬件功能擴展
-
第五層:應用:
-
第四層:工具:圖像處理等
在多媒體操作系統的支持下,圖形和圖像編輯軟件﹑視頻處理軟件﹑音頻處理軟件等來編輯與制作多媒體節目素材
-
第三層:接口層:應用程序接口(API)
為上一層提供軟件接口,便于高層通過軟件調用系統功能,并能在應用程序中控制多媒體硬件設備。
-
第二層:軟件系統:多媒體操作系統等
操作系統:實時任務調度﹑多媒體數據轉換和同步控制﹑多媒體設備的驅動和控制以及圖形用戶界面管理
多媒體通信軟件:支持網絡環境下的多媒體信息的傳輸﹑交互與控制
-
第一層:硬件系統:多媒體存儲
主要任務:實時地綜合處理文﹑圖、聲﹑像信息,實現全動態視像和立體聲的處理,實時壓縮與解壓縮多媒體信息。
-
集成度越來越高,速度也越來越快
- 芯片類:視頻處理芯片等
- 板卡類:音頻處理卡等
- 外設類:
-
CPU:中央處理單元
微型計算機的CPU是由一塊大規模集成電路芯片組成,計算機系統的核心,其內部結構可以分為控制器·運算器和寄存儲器3個部分
-
主板:最大的一塊電路板,布滿各種電子元件
-
總線(BUS):傳輸聯系各部件
總線的性能以總線的時鐘﹑帶寬及相應的總線數據傳輸速率來衡量·
-
內存儲器:
- ROM與RAM:
- ROM:只讀存儲器
- RAM:隨機存儲器
- Cache:SRAM比DRAM快兩三倍
- ROM與RAM:
-
磁存儲系統
- 磁盤:涂有磁介質的盤,將脈沖信號轉變為磁信號;關鍵部位磁頭
- 硬盤
- 磁帶
-
顯示適配器(顯卡)
- 集成在主機板
- 獨立顯卡(獨顯)
-
顯示屏
-
CRT:陰極射線管
-
LCD:液晶
-
性能指標:
-
屏幕尺寸:
- 顯像管尺寸:顯示管正對角線長度
- 可視尺寸:可視屏幕正對角線長度
- 光柵尺寸:顯示管最大掃描區域尺寸
-
點距:通過色像素點之間的距離,單位毫米
-
掃描頻率:
-
水平掃描頻率
kHz為單位,水平掃描頻率85kHz:一秒橫向掃描85 000個像素點
-
垂直掃描頻率
Hz為單位,屏幕重寫的頻率,過低閃爍,人眼易疲勞
-
-
顯示分辨率:如1280*1024
- 也取決于緩沖存儲器
-
顏色數量:位深度
-
音頻卡(聲卡)
- 數字音頻的播放:數字量化位數,立體聲聲道的多少
- 錄制生成WAVE文件
- MIDI和音樂合成:MIDI接口獲取MIDI消息
- 多路音源的混合和處理
-
4.1聲道四個方位+一個低音聲道
- 5.1,7.1類似
-
雙工理論:人耳感知聲源,聲音到達的時間差和強度差
-
-
攝像頭
-
性能指標:
- 鏡頭
- 像素
- 接口
- 視頻捕獲能力
- 調焦
-
數碼相機
將拍攝的圖像轉換為數字形式,并編碼,如JPEG
-
掃描儀:
- CCD:陣列,將光信號轉變為電信號
- 性能指標:
- 掃描分辨率
- 掃描色彩精度
- 掃描速度
-
打印機
- 針式打印機
- 噴墨打印機
- 激光打印機
-
光盤存儲系統
- CD
- 記錄密度高
- 存儲容量大
- 采用非接觸方式讀╱寫信息
- 信息保存時間長
- 不同平臺可以互換
- 多種媒體融合
- 價格低廉
- DVD:使用紅色激光,更高的道密度和位密度,采用MPEG-2標準
- CD
-
-
多媒體軟件:
- 驅動程序
- 支持軟件的操作系統/環境
- windows環境
- QuickTime環境
- Movie管理器
- 圖像壓縮管理器
- 部件管理器
- 軟件
-
-
六.超文本和超媒體
- 超文本
- 三要素:
- 節點:圍繞某主題組織的數據集合,表達信息的單位
- 鏈:
- 鏈源:鏈的起始端,如熱字
- 鏈宿:鏈的目的,一般為節點
- 鏈的屬性:鏈的類型
- 網絡
- 特點
- 多種媒體信息化
- 網絡結構:信息表達方式接近現實世界
- 交互性
- 三重理論模型:
- 數據庫層
- 超文本抽象機層
- 用戶接口層
- 工具:
- 編輯器
- 編譯器
- 閱讀器
- 導航工具
- 前景:
- 超文本 -》超媒體
- 超媒體 -》智能超媒體
- 超媒體 -》協作超媒體
- 三要素:
七.多媒體應用前沿
-
文本
- 機器翻譯
- 信息檢索
- 情感分析
- 知識抽取
- 人機對話
-
圖像:
- 圖像增強
- 圖像修復
- 圖像分割
- 圖像識別
-
音頻
-
波形編碼
- 波形編碼:將語音信號的波形數字化處理,以保持處理后的語音信號波形與原始語音信號波形一致
- 波形編碼是將時間域信號直接變換為數字代碼,由于這種系統保留了信號原始樣值的細節變化,從而保留了信號的各種過渡特征,所以波形編碼系統的解碼音頻信號質量一般較高.
- 波形編碼系統的不足之處是傳輸碼率比較高,壓縮比不大。
-
參數編碼
參數編碼技術以語音信號產生的數學模型為基礎,根據輸人語音信號分析出表征聲門振動的激勵參數和表征聲道特性的聲道參數,然后在解碼端根據這些模型參數來恢復語音。這種編碼算法并不忠實地反映輸人語音的原始波形,而是著眼于人耳的聽覺特性,確保解碼語音的可懂度和清晰度.
-
混合編碼
混合編碼是波形編碼和參數編碼的綜合:既利用了語音生成模型,通過模型中的參數(主要是聲道參數)進行編碼,減少波形編碼中被編碼對象的動態范圍或數目;又使編碼的過程,產生接近原始語音波形的合成語音,保留說話人的各種自然特征,提高了合成語音質量.
-
感知編碼
-
MPEG系列編碼
-
八.自然語言處理簡介
旨在探索人與計算機之間用自然語言進行有效交流的理論和方法
- 語言是人與其他動物最重要的區別
- 邏輯思維以語言呈現
- 知識通過文字記錄并傳播
- 自然語言難點
- 語音歧義
- 詞語切分起義
- 詞義歧義
- 結構歧義
- 指代歧義
- 省略歧義
- 語用歧義:不同人,不同語境,意義不同
- 機器學習步驟:
- 數據構建階段主要工作是針對任務的要求構建訓練語料,也稱為語料庫(Corpus)
- 數據預處理階段主要工作是利用自然語言處理基礎算法對原始輸入,從詞匯句法、結構、語義等層面進行處理,為特征構建提供基礎。
- 特征構建階段主要工作是針對不同任務從原始輸入、詞性標注、句法分析、語義分析等結果和數據中提取對于機器學習模型有用的特征。
- 模型學習階段主要工作是根據任務,選擇合適的機器學習模型,確定學習準則,采用相應的優化算法,利用語料庫訓練模型參數。
這種編碼算法并不忠實地反映輸人語音的原始波形,而是著眼于人耳的聽覺特性,確保解碼語音的可懂度和清晰度.
-
混合編碼
混合編碼是波形編碼和參數編碼的綜合:既利用了語音生成模型,通過模型中的參數(主要是聲道參數)進行編碼,減少波形編碼中被編碼對象的動態范圍或數目;又使編碼的過程,產生接近原始語音波形的合成語音,保留說話人的各種自然特征,提高了合成語音質量.
-
感知編碼
-
MPEG系列編碼
八.自然語言處理簡介
旨在探索人與計算機之間用自然語言進行有效交流的理論和方法
- 語言是人與其他動物最重要的區別
- 邏輯思維以語言呈現
- 知識通過文字記錄并傳播
- 自然語言難點
- 語音歧義
- 詞語切分起義
- 詞義歧義
- 結構歧義
- 指代歧義
- 省略歧義
- 語用歧義:不同人,不同語境,意義不同
- 機器學習步驟:
- 數據構建階段主要工作是針對任務的要求構建訓練語料,也稱為語料庫(Corpus)
- 數據預處理階段主要工作是利用自然語言處理基礎算法對原始輸入,從詞匯句法、結構、語義等層面進行處理,為特征構建提供基礎。
- 特征構建階段主要工作是針對不同任務從原始輸入、詞性標注、句法分析、語義分析等結果和數據中提取對于機器學習模型有用的特征。
- 模型學習階段主要工作是根據任務,選擇合適的機器學習模型,確定學習準則,采用相應的優化算法,利用語料庫訓練模型參數。