文章目錄
- 圖像質量評價(Image Quality Assessment,IQA)
- 一、評估方式:主觀評估 + 客觀評估
- 1.1、主觀評估方式
- 1.2、客觀評估方式:全參考 + 半參考 + 無參考
- (1)全參考的方法對比(Full-Reference IQA,FR-IQA)
- (2)半參考的方法對比(Reduced-Reference IQA,RR-IQA)
- (3)無參考的方法對比(No-Reference / Blind IQA,NR-IQA)
- 1.3、常用公開IQA數據集對比表
圖像質量評價(Image Quality Assessment,IQA)
圖像質量評價指標(Image Quality Assessment, IQA)
:是衡量圖像在主觀感受或客觀性能上的一組量化標準,常用于圖像增強、壓縮、重建、去噪等任務的效果評估。
圖像質量評估:維基百科
圖像質量評價:百度百科
圖像質量評價(每個方法的論文簡介與鏈接)
圖像質量評估綜述
- 質量評估可分為:
- 圖像質量評估IQA
- 視頻質量評估VQA
- IQA方法從宏觀上可分為:
主觀評價
:依賴人工評分,盡管準確性高、符合人眼視覺系統(HVS)偏好,但成本昂貴、效率低下,難以適配大規模自動化系統。客觀評價
:則以數學模型自動預測圖像質量,廣泛應用于工業與科研領域,是當前主流研究方向。- 從參考圖像可用性角度,IQA又分為三類:
FR-IQA(全參考):借助無失真參考圖像,計算其與原始圖像的差異
,方法成熟、性能穩定,但對實際應用受限(因多數情況下參考圖像缺失)。RR-IQA(半參考):只有原始圖像的部分信息或從參考圖像中提取的部分特征
,在性能與適用性之間折中。NR-IQA(無參考):僅依賴待評估圖像本身,不需要參考圖像
,應用最廣但難度最大,當前是研究熱點。
一、評估方式:主觀評估 + 客觀評估
評估方式 | 簡介 | 特點與對比維度 |
---|---|---|
主觀評估(Subjective IQA) | 基于真實觀察者的視覺感知,由人類主觀對圖像質量進行評分,常用指標包括MOS(平均意見得分)與DMOS(差異意見得分)。需要通過標準化實驗環境和統計方法獲取大量人評分。 | - ? 精度最高,最符合人眼感知 - ? 可復現性差,結果易受主觀因素干擾 - ? 成本高,需招募被試并控制實驗環境 - ? 實時性差,無法快速得出結果 - ? 難以部署,通常用于數據庫標注與模型基準 |
客觀評估(Objective IQA) | 通過數學模型或算法自動估算圖像質量分數,目標是盡可能逼近主觀得分,具有可重復性和實時性。根據參考圖像的使用程度分為FR(全參考)、RR(半參考)、NR(無參考)三類,是當前研究熱點。 | - ? 可復現、穩定性強 - ? 成本低,自動處理大規模圖像 - ? 實時性好,支持在線或終端部署 - ? 可廣泛應用于圖像壓縮、增強、采集質量控制等場景 - ? 精度依賴模型質量,NR方法尤其具有挑戰性 |
1.1、主觀評估方式
方法類型 | 簡要說明 | 評分輸出 | 應用場景 |
---|---|---|---|
MOS(平均意見得分) | 多人打分后取平均分 | 1 ~ 5 或 0 ~ 100 | 訓練NR-IQA模型,構建圖像質量數據集 |
DMOS(差分MOS) | 與原始圖像評分的差值,反映質量劣化程度 | 通常為正數 | TID2013、CSIQ等主觀差分數據集 |
單刺激法(SS) | 僅展示失真圖像進行評分 | 相對主觀 | KonIQ-10k, LIVE Wild等 |
雙刺激法(DSCQS) | 參考圖與失真圖并排顯示,受試者對失真程度打分 | 相對準確 | LIVE、CSIQ、TID系列 |
三選一法(3AFC) | 三圖中選出質量最好/最差者,構建排序關系用于學習 | 構造對比樣本對 | DeepIQA排序訓練等 |
1.2、客觀評估方式:全參考 + 半參考 + 無參考
類別 | 全稱(英文) | 是否需要參考圖像 | 輸入信息 | 輸出結果 | 代表算法/模型 | 常見評價指標 | 常用數據集 | 優勢描述 | 劣勢描述 | 典型應用場景 |
---|---|---|---|---|---|---|---|---|---|---|
FR-IQA | Full Reference IQA | ? 全參考 | 原圖 + 失真圖 | 兩圖之間的相似性得分 | PSNR、SSIM、MS-SSIM、FSIM、VIF | PSNR, SSIM, MSE | LIVE, TID2013, CSIQ, KADID-10k | 精度高,計算邏輯清晰,結果可對齊主觀感知 | 依賴原圖,實際部署難 | 編解碼優化、圖像增強算法調試 |
RR-IQA | Reduced Reference IQA | ? 半參考 | 失真圖 + 原圖特征或統計量 | 與參考特征的相似性得分 | RRED、DNT、NRQM(部分) | JS差異, KL散度, 差值指標 | TID2013, LIVE, SIQAD | 節省傳輸成本,精度優于NR,兼顧應用性與性能 | 仍需傳輸部分特征,模型通用性不足 | 視頻傳輸評估、帶寬受限下的圖像監控 |
NR-IQA | No Reference IQA / Blind IQA | ? 無參考 | 單張失真圖 | 圖像質量得分(預測值) | BRISQUE、NIQE、PIQE、DeepBIQ、HyperIQA等 | MOS(主觀分數) | KonIQ-10k, SPAQ, CLIVE, LIVE Wild | 無需參考圖,可用于實際圖像質量預測部署 | 難以保證泛化能力,訓練依賴主觀評分數據集 | 醫療圖像質檢、無人監督場景 |
(1)全參考的方法對比(Full-Reference IQA,FR-IQA)
方法名 | 核心指標 | 是否模型訓練 | 主要思想 | 優點 | 缺點 | 適用場景 |
---|---|---|---|---|---|---|
MSE / PSNR | 均方誤差 / 峰值信噪比 | 否 | 逐像素差異/誤差量度 | 簡單高效,便于實現 | 不符合人眼感知;不具備感知魯棒性 | 壓縮、編碼等低層處理 |
SSIM | 結構相似度 Structural Similarity | 否 | 考察亮度、對比度與結構信息 | 模擬視覺機制,感知一致性更好 | 對幾何變化、偽影不敏感 | 編解碼質量評估 |
MS-SSIM | 多尺度結構相似度 | 否 | 多分辨率層次感知 | 更貼近人眼感知層級 | 計算略復雜 | 高清視頻/圖像質量評價 |
VIF | 信息保真度 Visual Information Fidelity | 否 | 源圖像/失真圖像的信息量比率 | 信息論基礎,評價可靠性高 | 理論復雜,耗時較長 | 圖像傳輸、壓縮失真評估 |
FSIM | 特征相似度 Feature SIM | 否 | 考察相位一致性、梯度強度 | 敏感性高,魯棒性好 | 不適合大規模計算 | 圖像增強質量評價 |
LPIPS | 感知相似度 Learned Perceptual Image Patch Similarity | 是(深度模型) | 提取CNN特征后計算相似度 | 感知特性強,視覺一致性高 | 模型依賴重、需GPU | 超分辨、風格遷移、圖像復原等任務 |
(2)半參考的方法對比(Reduced-Reference IQA,RR-IQA)
方法名 | 參考特征類型 | 是否訓練模型 | 方法特點 | 優點 | 缺點 | 適用場景 |
---|---|---|---|---|---|---|
RRED | 局部統計量(DCT能量特征) | 否 | 基于變換域的熵率與視覺冗余度估計 | 精度高,接近FR-IQA | 特征提取依賴參考圖像,計算復雜 | 通信系統圖像質量反饋 |
DNT-RR | DCT統計特征 | 否 | 僅傳輸部分統計特征用于質量預測 | 傳輸代價低,可嵌入實際系統 | 失真類型覆蓋范圍有限 | 網絡圖像編碼傳輸 |
Wavelet-Q | 小波能量子帶統計量 | 否 | 局部頻域統計特征構建質量指標 | 可解釋性強,計算高效 | 對某些失真魯棒性不足 | 通信協議/嵌入式視頻傳輸 |
RR-FSIM | 相位一致性+幅度統計特征 | 否 | 對FSIM簡化,只提取部分參考特征 | 接近FR精度,傳輸成本低 | 對特征選擇依賴高 | 視頻會議、直播質量評估 |
RR-NSS | 自然場景統計參數 | 否 | 利用自然圖像統計模型壓縮參考圖像信息 | 適應性強 | 不適合非自然圖像 | 工業檢測、遠程圖像識別等場景 |
(3)無參考的方法對比(No-Reference / Blind IQA,NR-IQA)
🚀 NR-IQA研究現狀
- 傳統統計方法階段(2010年以前)
代表方法如BIQI、DIIVINE、BRISQUE等,依賴自然圖像統計(NSS)特征,使用SVM或貝葉斯回歸模型實現質量預測。該階段研究具有可解釋性強、計算代價低等優點,但泛化能力有限。- 數據驅動階段(2013年起)
隨著深度學習發展,基于CNN的NR-IQA方法如CORNIA、NIMA、DeepBIQ等不斷涌現,能夠從圖像中自動學習判別特征,主觀一致性顯著提升。此類方法在主觀評分預測、跨數據庫泛化等方面取得較好效果,但對數據依賴嚴重、可解釋性差。- Transformer與自監督階段(2020年至今)
新一代方法引入Vision Transformer結構(如MANIQA、TReS、MUSIQ)或自監督學習(如CONTRIQUE),提升跨場景泛化能力與語義建模能力。當前最先進模型普遍在多個公開數據集(如LIVE、TID2013、KonIQ-10k、CLIVE等)上取得了優異成績,開始接近甚至超過主觀一致性下限。
方法名稱 | 首次提出 | 模型類型 | 特征類型 | 是否訓練 | 適用失真類型 | 主觀一致性 | 優點 | 局限性 | 應用場景 |
---|---|---|---|---|---|---|---|---|---|
NIQE (Natural Image Quality Evaluator) | 2013 | 傳統統計模型 | NSS(自然場景統計) | 否 | 泛化失真(無需訓練數據) | 中等 | 無需訓練、計算高效 | 對特定失真不敏感,主觀一致性不高 | 快速篩選、質量控制 |
BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator) | 2012 | SVM回歸 | NSS特征(空域) | 是 | 模糊、壓縮等常見失真 | 高 | 輕量級、主觀一致性較高 | 需訓練樣本,失真類型受限 | 通用圖像評估 |
BLIINDS-II (Blind Image Integrity Notator using DCT Statistics) | 2011 | 貝葉斯回歸 | NSS(頻域DCT) | 是 | 模糊、噪聲等 | 中等 | 頻域分析精細 | 提取DCT特征耗時、訓練依賴性 | 視頻壓縮質量監測 |
CORNIA (Codebook Representation for No-Reference IQA) | 2013 | 機器學習 | 原始圖塊+無監督特征學習 | 是 | 多種失真 | 高 | 結合深層表示 | 對內容敏感,訓練成本高 | 圖像增強前后質量評估 |
HOSA (Higher Order Statistics Aggregation) | 2015 | 無監督統計 | 特征聚合(SVD+高階矩) | 是 | 各類失真 | 高 | 無需深度網絡,適應性強 | 參數敏感,訓練集依賴 | 醫學圖像質量分析 |
DIIVINE | 2011 | SVM | NSS(空間+小波域) | 是 | 多類失真 | 高 | 空間-頻域聯合 | 特征維度高,訓練成本大 | 圖像處理算法評估 |
IL-NIQE | 2015 | 無監督 | NSS + 亮度不變性 | 否 | 各類失真 | 中等 | 無訓練集依賴,穩定性強 | 泛化能力有限 | 嵌入式圖像監控設備 |
NIMA (Neural Image Assessment) | 2017 | CNN回歸 | 全圖輸入(Inception) | 是 | 主觀美學/質量 | 高 | 可預測MOS分布,美學兼顧 | 訓練代價高 | 圖像美學質量評分 |
DeepBIQ | 2016 | CNN分類+回歸 | 局部圖塊+深度特征 | 是 | 泛化強 | 高 | 利用深層特征,有效預測 | 黑盒問題,計算量大 | 手機拍照圖像優化 |
RankIQA | 2017 | Siamese網絡 | Siamese排序特征 | 是 | 多類失真 | 高 | 模擬評分過程,更接近人感知 | 排序數據構建復雜 | 圖像優化排序任務 |
DBCNN | 2018 | CNN分類回歸 | VGG16 + 評分網絡 | 是 | 各類失真 | 高 | 精度高,可回歸MOS | 需要大量數據 | 通用圖像質量評分 |
CONTRIQUE | 2021 | Transformer+NSS | NSS嵌入 + 自監督學習 | 是 | 泛化失真(無監督) | 高 | 利用NSS嵌入魯棒性強 | 網絡復雜 | 零樣本質量估計 |
MANIQA | 2022 | Vision Transformer | 局部塊 + 全局注意力 | 是 | 泛化強 | 極高 | 高分辨率支持,跨數據集表現好 | 模型參數多 | 高端視覺質量分析 |
1.3、常用公開IQA數據集對比表
數據集名稱 | 類型 | 圖像數(參考/失真) | 失真類型 | 主觀評分 | 特點簡介 |
---|---|---|---|---|---|
LIVE [官網] | FR-IQA | 29 / 779 | 模糊、壓縮、噪聲、快門抖動等5類 | DMOS | 最早最廣泛使用的數據集之一;包含真實失真與評分,廣泛用于FR-IQA評估基準。 |
CSIQ [官網] | FR-IQA | 30 / 866 | 6類失真×不同強度 | DMOS | 圖像與失真類型更豐富;主觀得分離散性較小;與LIVE互補。 |
TID2013 [官網] | FR-IQA | 25 / 3000 | 24種失真×5級強度 | MOS | 非常全面的數據集;失真種類多,適合訓練與泛化測試。 |
TID2008 | FR-IQA | 25 / 1700 | 17類失真 | MOS | TID2013前身,失真較少但結構相似。 |
KADID-10k [官網] | FR-IQA | 81 / 10,125 | 25類失真×不同強度 | MOS | 圖像種類多、失真復雜,適合深度學習模型訓練。 |
CID2013 | FR-IQA | 474 / 474 | 實拍設備失真 | MOS | 強調真實場景采集(拍照質量);圖像尺寸大,適合真實感知建模。 |
Waterloo IAA [官網] | FR-IQA | 4744 / 94,880 | 常見壓縮與噪聲等失真 | 無主觀得分 | 用于無參考方法的無監督訓練或構造合成失真;大規模。 |
KonIQ-10k [官網] | NR-IQA | — / 10,073 | 自然圖像,真實失真 | MOS | 高分辨率自然圖像;圖像來源廣泛,適合NR-IQA訓練;包含多維質量因子標注。 |
CLIVE [官網] | NR-IQA | — / 1,162 | 拍攝圖像中自然失真 | MOS | 強調移動端/手持拍攝自然圖像質量;適合盲質量評價建模。 |
SPAQ [論文] | NR-IQA | — / 11,125 | 高質量自然失真圖像 | MOS | 更具挑戰性,真實感強;含曝光/色彩/對比等因素。 |
FLIVE | NR-IQA | — / 39,000+ | 自然采集圖像 | MOS | 最大規模真實圖像質量數據集之一,適用于深度NR-IQA模型訓練。 |
📌 說明:
- FR-IQA(Full Reference):提供參考圖像與失真圖像,可用于全參考算法對比。
- NR-IQA(No Reference):無參考圖像,難度更高,適合實際部署情境。
- MOS/DMOS:主觀評分標準,分別代表“平均意見分數”“差異平均意見分數”。