專題介紹
圖像質量評價(Image Quality Assessment, IQA)是圖像處理、計算機視覺和多媒體通信等領域的關鍵技術之一。IQA不僅被用于學術研究,更在影像相關行業內實現了完整的商業化應用,涉及影視、智能手機、專業相機、安防監控、工業質檢、醫療影像等。IQA與圖像如影隨形,其重要程度可見一斑。
但隨著算法側的能力不斷突破,AIGC技術發展火熱,早期的IQA或已無法準確評估新技術的能力。另一方面,千行百業中各類應用對圖像質量的需求也存在差異和變化,舊標準也面臨著適應性不足的挑戰。
本專題旨在梳理和跟進IQA技術發展內容和趨勢,為讀者分享有價值、有意思的IQA。希望能夠為底層視覺領域內的研究者和從業者提供一些參考和思路。
引言
本文是IQA專題的開篇作,將系統性地介紹下圖像質量評價技術的發展歷程、方法分類、業界應用以及當下熱點和趨勢。IQA應起源20世紀初,隨著圖像處理技術的興起,IQA也逐漸成為了一門科學。至今為止,IQA已發展壯大,有著多種分類標準和技術方案。
不過博主認為,IQA本質上就分為兩大類,主觀評價和客觀評價。
- 主觀評價:以專家或用戶為主體,基于認知、偏好和文化等因素,對圖像進行打分或評價,偏定性。
- 客觀評價:以算法或模型為主體,基于像素、特征和語義等內容,對圖像進行打分或評價,偏定量。
不同圖像所蘊含的信息量差異巨大,單一或多個評價指標容易以偏概全,管中窺豹。目前業內主流的評價體系基本是主客觀、多維度相結合的系統性方案。
另一方面,大部分技術研究和指標分類都是屬于客觀評價的范疇內。而客觀評價的主要目標就是無限接近主觀評價結果,也就是模仿人類的評價模式。這個目標非常難,幾乎是不可能實現的事。
因為主觀評價有以下幾個特點:
- 時間差異性,不同時刻,同一個人對于同樣圖像的評價會有較大差異。受心理、情感和精神狀態等影像。
- 空間差異性,不同地域,人們對同樣圖像的評價會有較大差異。受文化、教育和社會等影響。
- 背景差異性,一張圖像,若賦予了背景故事或特殊意義,那么評價結果也會隨之改變。
這些是常規算法所觸及不到的額外信息,目標似乎遙不可及。但隨著大模型的出現,又帶來了新的希望。在豐富的知識背景下,基于大模型的IQA系統沒準能做到與人類評價模式接近。
但我們再仔細想想,人類主觀視覺一定是正確的么?其實不然,在主觀評價過程中人們往往會出分歧,即使是專家的觀點也可能會存在偏見。同時,隨著AI技術和機器人技術的發展,很多圖像并非給人類看的,而是給機器做分析用的,用途多樣,此時標準自然也將不同。
學術界的IQA技術演進
影響圖像質量的因素有多種來源,如亮度、對比度、噪聲、動態范圍、構圖、語義、風格等,在實際評判時很難確定哪個因素起主要作用。因此,除了針對于特定退化的IQA方法來說,其他IQA方法一般是基于以下3個特性來評價圖像質量:
- Fidelity:保真度,待評測圖像相對于參考圖像的一致性或精度。
- Perception:感知,源于HVS(Human Vision System),重點設計一些跟人類視覺相符的指標。
- Aesthetics:美學,由于審美是較為主觀的,因此需要考慮視覺恒常性、視覺注意力和視覺疲勞等因素。
📝IQA 相關工作介紹
這部分內容重點參考了最新的綜述文章《A Survey on Image Quality Assessment: Insights, Analysis, and Future Outlook》。文章總結得非常到位,給出了細致的分類和發展時間圖。
根據綜述分類,可以看到IQA分類圖如下所示:
(源于論文截圖)
IQA從應用場景切入,可分為兩大類。
- General Scene Methods:指通用場景下的IQA方法,場景比較常見,同時評價專注于保真度和感知兩個方面,這里又細分為了Statistics Methods和基于Machine Learning的方法。
- Specific Scene Methods:指特殊場景下的IQA方法,場景一般不常見,例如醫學場景和去霧的場景,他們需要關注的圖像效果跟通用場景不完全一致,通用場景下設計的指標不能很好的符合;例如Portrait Quality Assessment,人像IQA,需要更多從美學的角度去考慮;而涉及到特殊的退化類型如Blur、JPEG等,有退化類型的先驗,相應的IQA設計方案也會有所變化。I
1、General Scene Methods
【Statistics Methods】
在這個分類中,通用場景的Statistics Methods又被分為HVS-based、Transform Domain-based以及Natural Scene Statistics-based Methods。后續本專欄會選擇幾個較為常用的指標做詳細講解,一般以全參考為主。
-
HVS-based,可以被細分為以下幾類:
它們使用到的IQA特征各不相同,都統計了待評價圖像本身的信息。
-
Transform Domain-based,可以被細分為以下幾類:
分類依據是方案使用的域變換類型。將圖像從A域變換到B域后,許多在A域內不明顯的特征,在B域內會變得易于識別和處理。
-
Natural Scene Statistics-based Methods,可以被細分為以下幾類:
自然圖像本身存在一些特點,例如圖像的各向異性,內部結構決定了其在不同方向上會有不同的視覺效果;圖像的亮度范圍;圖像的統計特性。
【Machine Learning-based Methods】
隨著數據的不斷積累,后續基于Machine Learning的方法發展較快,這類方法又被分為基于模型的方法和基于框架的方法,大多為無參考的IQA指標。
其中基于模型的方法可被細分為傳統機器學習方法、基于卷積神經網絡的方法、基于transformer的方法。
-
傳統機器學習方法:
其中,SVR(Support Vector Regression)是支持向量回歸方法,可以將圖像的特征回歸到具體的分數或質量等級。NSS是我們前面提到的圖像統計特性,通過提取NSS特征加上多變量的高斯模型來完成IQA,多尺度NSS則是以多尺度的方式處理圖像,以更好地捕捉局部和全局特征。
-
基于卷積神經網絡的方法:
基于卷積神經網絡的方案類型比較多,這里列出了幾個有其獨特創新點的類型,
- CNN是指常規的思路,RankIQA有引入相對質量的概念;
- 語義自適應是指其網絡會根據實際圖像的不同來變換參數,相當于依據不同的圖像變換不同的評價標準;
- 多尺度并行處理引入了局部和全局并行處理的操作;
- 紋理信息指大多基于CNN的FR-IQA方法對圖像的紋理相似性過于敏感,作者對這個點進行了針對性的優化。
-
基于transformer的方法:
這里的尺寸包含圖像分辨率和長寬比,TRIQ可以處理不同分辨率圖像的Transformer,MUSIQ對這一點進行了深入研究,提出了一種全新的、基于哈希的2維空間嵌入方法,構成一種可以處理多尺度patch的方法。Swin transformer是vision transformer的優化版本,Maniqa將其引入到IQA中帶來了更好的效果。
基于框架的方法可以被分為以下幾類,該類方法提出的原因是帶標簽數據集有限,其中又可以細分為:
- 遷移學習指將其他領域數據集中的知識轉移到實際任務上,Deep CNN-Based Blind Image Quality Predictor將將FR-IQA中學到的知識用于NR-IQA中,CVRDK-IQA通過知識蒸餾也做到了這一點:使用未對齊的參考(non-aligned reference,NAR)圖像引入多種高質量圖像的先驗分布,此處的未對齊是指一對圖像中,高質量的參考圖像和低質量的失真圖像并不匹配——參考圖像并不是失真圖像的高質量版本;
- 弱監督學習指訓練過程中使用大量的客觀IQA指標打出的分數作為參考,再使用主觀質量分數作為參考進行微調;
- 自監督學習指訓練方式從無標簽數據中學習;
- 對抗學習指樣本會被混合一些微小的擾動(改變很小,但是很可能造成誤分類),然后使神經網絡適應這種改變,從而對對抗樣本具有魯棒性。
2、Specific Scene Methods
綜述中對于特殊場景下的IQA方法分類較為離散,以應用不同或任務不同作為區分,衍生出了多樣的評估方法。
- 醫學場景:Quantitative assessment of structural image quality 研究對比多種指標,發現 FreeSurfer 提供的 Euler number 因聚焦局部拓撲結構,對運動偽影等敏感,相比評估全局特性的指標(如信噪比)更適用于醫學圖像質量評估。這也表明在醫學應用中,選擇合適的質量評估指標,需要根據具體的研究需求和數據特點來決定。
- 去霧算法(Dehazing Algorithm,DHA)中的IQA:Quality Evaluation of Image Dehazing Methods Using Synthetic Hazy Images提出的去霧算法評估方法通過綜合考慮圖像恢復、色彩調整和對比度增強,更全面地評估去霧算法的效果。該方法不僅適應了去霧過程中的對比度增強和色彩調整,還通過針對航拍圖像的改進,提高了評估方法的適用性和準確性。
- 人像質量評估:在NITRE2024的比賽中,有一些研究者提出了專門針對人像IQA的方法,例如PQE提出了一個雙分支人像質量評估模型,分別對背景和面部組件進行建模,并提取兩種特征用于評估圖像質量;SAR提出了一種場景自適應的全局和面部感知網絡,通過面部檢測器精確定位面部區域,并使用ViT對面部區域和全局圖像進行建模。這些方法對面部和背景分別進行處理,針對性地給出了IQA方案,很好地滿足了該領域的需求。
- 特定失真場景下的IQA:例如Full reference image quality metrics for JPEG compressed images針對JPEG中塊效應(Blocking Effect)和模糊效應(Blurring Effect)兩個退化提出了評估圖像質量的方法;A no-reference metric for evaluating the quality of motion deblurring設計了一系列專門針對去模糊偽影的特征,包括提出了一種新的無參考方法來檢測大規模振鈴偽影、使用多種方法來評估去模糊結果中的噪聲水平、使用多種銳度度量方法來評估去模糊結果的清晰度。這些特征能夠全面評估去模糊結果的質量,而不僅僅是單一類型的偽影。
以上是近期IQA方法相關工作的總覽。
小結
- IQA技術方案眾多,從傳統手工演進到深度學習,從基本特征發展至深層語義。
- IQA指標并不具備絕對的通用性,在特殊領域需針對性設計指標方案。
🏆NTIRE IQA賽道介紹
NITRE是底層視覺領域里最為矚目的賽事之一,目標是挑戰各類難點問題,旨在推動整個領域的發展。當然除了圖像復原和增強這類主流算法的賽道,NTIRE同樣也開設了IQA相關的賽道,本文簡單介紹下NITRE2021、2022、2024和2025中關于IQA賽事的內容。而NITRE 2023中沒有IQA,只有Video Quality Assessment。
NITRE 2021、2022在質量評估上重點為了GAN-Based的圖像評價,NITRE 2024有兩個相關賽道包括人像質量評估和AIGC圖像質量評估。隨著LLM和AIGC技術的發展,NITRE 2025中可以看到更多的關于生成內容的質量評價賽道(不過以視頻質量評估居多)。由此可見,AI技術的發展給質量評價也帶了很多新挑戰。
1、NTIRE 2021 Challenge on Perceptual Image Quality Assessment
隨著基于生成對抗網絡(GAN)的感知圖像處理算法的出現,其產生的圖像與傳統失真圖像有顯著不同,給 IQA 方法帶來了新挑戰,傳統的定量IQA與真實感知質量之間的差距進一步擴大。為了推動針對 GAN-based的先進感知圖像質量評估算法的發展,NTIRE 2021 挑戰賽設立了PIQA賽道,以選出優秀的解決方案并促進新數據集 PIPAL 的應用。
數據集:賽事采用 PIPAL 數據集的子集作為訓練集,包含 200 張參考圖像、29k 張失真圖像和 1.13M 條主觀評價;使用其擴展版本用于驗證和測試,包含 50 張參考圖像、3300 張失真圖像和 753k 條主觀評價。
評分標準:主分數由斯皮爾曼等級相關系數(SRCC)和皮爾遜線性相關系數(PLCC)組成,SRCC 評估方法的單調性,PLCC 評估方法的準確性,二者結合可全面衡量模型性能。
(源于論文截圖)
上圖為各類客觀評分方案與主觀評分MOS的散點圖,可以看出賽事方案的主客觀相關度都要優于原有的客觀方案,體現出了新方案在感知方面的評價優勢。
前十名全是基于深度學習的評價模型,大家采用了transformer,CNN,Resnet,多尺度特征提取與融合,孿生網絡,對抗訓練等技術。其中第一名首次采用了transformer技術用于全參考的IQA任務中, 也就是image quality transformer (IQT),以輕微優勢獲勝。
2、NTIRE 2022 Challenge on Perceptual Image Quality Assessment
有了前一年的成功,2022年繼續設立了IQA比賽,并做了進一步細分,分為全參考賽道和無參考賽道。
- Track1:FR-IQA賽道,要求方法能夠在給定的失真圖像與相應的參考圖像之間產生高質量的感知相似性結果,并且與參考地真MOS分數具有最佳的相關性。
- Track2:NR-IQA賽道,要求方法在失真圖像上產生高質量的感知質量結果,并與參考地面真值MOS分數具有最佳相關性。
評估指標與NTIRE 2021一樣,采用了SRCC和PLCC。方法上采用了ViT,注意力機制,多尺度特征提取與融合,預訓練模型,模型集成策略等技術。FR-IQA前三名的分數均優于2021屆的冠軍。
- FR-IQA賽道冠軍采用了ViT+CNN的混合架構,同時捕獲全局語義和空間信息。
- NR-IQA賽道冠軍采用了基于Swin的多維度注意力網絡,配合多模型集成方式進一步提升性能。
由此可見,IQA在特征提取方面基本也采用了與圖像復原和增強類似的前沿技術手段。
3、NTIRE 2024 Challenge on Deep Portrait Quality Assessment
該賽道算是IQA里的子領域,即人像質量評估(PQA)。隨著社交媒體和攝影技術的發展,人像攝影的需求在不斷提升,因此PQA也變得更為重要。但由于美學欣賞的主觀性以及圖像捕獲和處理的技術復雜性,PQA任務極具挑戰性。
傳統客觀質量評估方法通常無法應對現代攝影中的非線性處理(如多圖像融合和AI增強)。隨后盲圖像質量評估(BIQA)方法逐漸興起,無需參考圖像。但BIQA常忽略場景特定語義,導致在多樣化條件下效果不佳。因此NTIRE設立了該賽道,旨在尋找能高效評估真實人像照片感知質量的方案,為PQA設定新的標準,以適應人像攝影的多樣性和動態屬性。期望新模型在多樣化場景和光照條件下(室內、室外、弱光等)、運動、模糊等挑戰條件下具有良好的泛化能力。
數據集:采用了PIQ23,包含多樣化膚色和多種拍攝場景(光照條件、目標距離、構圖、姿勢、背景等)的照片,分為50個“場景”,每個場景約100張圖片,來自多款智能手機。通過成對比較對三類圖像質量屬性(細節/噪點、曝光/對比度、整體)進行標注,共收集約60萬次比較,由30名專家在控制可視化條件下完成。標注結果轉換為JOD(Just Objectionable Difference)單位。
另外加了私有數據集做測試,包含96個單人場景,每個場景7張圖片,其中6張來自高質量智能手機,1張為專業攝影師用DSLR拍攝并編輯的參考圖像。
Baseline Models:選擇了幾個基線模型,用于對比。包括HyperIQA、SEM-HyperIQA和FHIQA,專為解決領域偏移和場景語義理解而設計,在PIQ23數據集上表現出色。
評估指標:使用SRCC、PLCC和KRCC(肯德爾秩相關系數),最終結果為各場景指標中位數。
這其實是一個很有難度的挑戰,優秀團隊來自西安電子科技大學、字節跳動、上交、中科院等,采用了先進的ViT技術、各種訓練策略及變體損失函數,期望能夠模擬人類主觀評分和提升模型泛化性能。 然而所有方法在挑戰賽測試集上泛化能力較弱,主要因為新測試圖像使用高質量智能手機拍攝,與PIQ23數據集存在質量領域差距,表明模型性能高度依賴數據采集設備。
(源于論文截圖)
PQA方法在領域偏移和泛化能力方面仍面臨挑戰,未來需要進一步研究以提高模型在多樣化和動態人像攝影條件下的適應性。
4、NTIRE 2024 Quality Assessment of AI-Generated Content Challenge
NTIRE 2024 質量評估生成內容挑戰賽,旨在推動針對人工智能生成圖像(AI-Generated Images, AIGIs)和視頻(AI-Generated Videos, AIGVs)的圖像質量評估和視頻質量評估方法的發展。挑戰賽分為圖像賽道和視頻賽道,分別使用 AIGIQA-20K 和 T2VQA-DB 數據集,包含由多種流行生成模型產生的大量 AI 生成圖像和視頻,并邀請了多個人員進行主觀質量評分(MOSs)。
其中IQA賽道使用了 AIGIQA-20K 數據集,包含 20,000 張由 15 種 T2I 模型生成的圖像。
(源于論文截圖)
同樣采用了SRCC和PLCC作為打分依據。IQA賽道的baseline model為StairIQA,DBCNN和LIQE。
在圖像賽道,9 支團隊主分數超過 0.9,4 支團隊超過 0.91,主觀一致性總分相比前幾年的方案有較大提升。最大的區別在于引入了多模態技術,將文本與圖像特征深度結合,提升語義理解能力,還采用了模型集成技術和預訓練大模型,最終提高了模型效果和泛化能力。可以看到MOS散點圖的一致性也進一步提升了。
(源于論文截圖)
5、NTIRE 2025 challenge on Text to Image Generation Model Quality Assessment
隨著生成模型的快速發展,先進的 T2I 模型能夠生成令人印象深刻的圖像,但這些圖像在與文本對齊和結構真實性方面仍面臨挑戰。目前常用的生成圖像質量評估基準和方法主要關注使用MOS進行標注和預測圖像質量,但難以精準定位文本中未在生成圖像中反映的元素以及圖像中結構失真的具體位置。因此,NTIRE 2025 T2I 生成模型質量評估挑戰旨在推動生成圖像質量預測方法的發展,實現對生成圖像質量的細粒度評估,以指導生成模型性能的提升。
挑戰分為對齊賽道和結構賽道,
- 對齊賽道(alignment track):使用包含約 40,000 個 AI 生成圖像(AIGIs)的 EvalMuse-40K 數據集,這些圖像由 20 種流行的生成模型創建,旨在評估文本 - 圖像對齊情況;
- 結構賽道(structure track):使用包含 10,000 個 AI 生成圖像及其對應結構失真掩碼的 EvalMuse-Structure 數據集,用于評估圖像結構失真檢測。
評估標準:兩個賽道都使用SRCC和PLCC來評估模型預測的對齊分數和結構分數,SRCC 測量預測的單調性,PLCC 測量預測的準確性。在對齊賽道,還使用模型確定提示元素是否出現在生成圖像中的準確率(ACC)來衡量模型的細粒度對齊評估能力;在結構賽道,使用模型預測的結構失真掩碼與人工標注的結構失真掩碼之間的 F1 分數來評估模型的細粒度結構評估能力。
方法上采用了多模態大語言模型,ViT,LoRA,集成學習等技術。
小結
- 近幾年的IQA比賽,以衡量圖像生成質量為主,注重視覺感知質量評價。
- 均采用了SRCC\PLCC等相關性參數來判斷主客觀一致性。
- 技術演進路線CNN->ViT->大模型->多模態,與圖像復原、增強和生成的技術發展基本一致。
🎯如何選擇IQA方法?
我們需要清楚,圖像表征能力是有限的,在算法改進和創新過程中,一味追求單一IQA指標的極限,并不是明智的選擇,反而會降低其他表征的質量。
博主認為在選擇IQA時,起碼需要滿足以下兩個點:
- 具備一定可解釋性,不需要覆蓋全圖像表征,只要能夠解釋清楚在某應用場景下,用某指標更準確的緣由即可。
- 簡單可操作性強,不能為了評價一個復雜算法而采用另一套復雜算法,可以是多指標結合,但其中單一指標的計算要簡單。不然即增加了不確定性,又會使得評價成本過高。然而現實中,往往會趨向于復雜化,因為很多人下意識認為復雜的算法或方案更為準確,并不會細究是否真的有價值。
工業界的IQA主流標準和解決方案
IQA不僅僅用于評估學術研究型的算法。現實應用中, 早以形成了體系化和標準化的IQA方案, 在影像系統的設計、開發和營銷等環節中都發揮著重要作用。本文將工業界的IQA大致分為三類:
- 各類權威協會或組織如ISO,CIE,ITU,IEC,IEEE等,他們制定了較為公認的國際標準。
- 商業化評測機構如imatest,IE(image engineering),DXO等,他們參與國際標準制定,并基于國際標準,進一步構建了更具特色的像質測評體系。
- 細分行業類的認證標準,如騰訊會議認證等。
📚國際IQA標準簡介
1、ISO(the International Organization for Standardization)
在國際標準里面,大家耳熟能詳的應該就是ISO了,ISO是一個獨立的國際組織。
ISO中有個團隊(ISO/TC 42/WG 18)專門負責開發和發布與數字靜止攝影評估相關的客觀標準,包括數碼單反、移動、安全攝像機等(視頻和視頻標準不包括在內)。工作組與整個ISO一起定義了方法和最佳做法,但并沒有為圖像質量測試設定最低標準或要求。
Imatest采用了該工作組的多項IQ標準,包括了分辨率、空間頻率、噪聲、動態范圍、畸變等等。
- ISO 12233 for photography and electronic still picture imaging, resolution and spatial frequency
- ISO 12232 for ISO, speed rating, standard output sensitivity, and recommended exposure index
- ISO 15739: Noise and dynamic range
- ISO 14524: Tone curve OECF standard
- ISO 17850: Geometric distortion
- ISO 17957: Uniformity/shading measurements
- ISO 18844: Stray Light (Flare)
- ISO 19084: Chromatic displacement
- ISO 19567: Texture reproduction – partial support
除了通用圖像標準外,ISO 8600系列概述了內窺鏡和內治療設備的標準,定義了內窺鏡的IQ標準。
2、IEEE-SA(Institute of Electrical and Electronics Engineers Standards Association)
IEEE- SA是世界上最大的專業協會,匯集了來自廣泛的地域和技術領域的個人及組織,以促進標準開發和與標準相關的協作。在IQA領域,其主導制定了兩個非常有價值的IQA標準系列,廣受行業關注和應用。
- IEEE P1858 Standard for Camera Phone Image Quality(CPIQ)
- IEEE P2020 Standard for Automotive System Image Quality
CPIQ標準旨在標準化整個行業的圖像質量測試指標和方法,它涵蓋了從測試條件、設備要求、圖像質量屬性的定義到具體的測量步驟和計算方法,將客觀測試結果與人類感知相關聯。
因為對于常規消費者而言,他們不確定如何判斷和比較設備圖像質量,下意識認為像素越高成像質量越好。而CPIQ期望消除這種誤解,為移動設備攝像頭的圖像質量評估提供一套標準化的框架和工具,幫助消費者和制造商在不同品牌和型號之間進行客觀比較。
主要內容包括:
- 圖像質量屬性的量化:標準涵蓋了多個關鍵圖像質量屬性,如空間頻率響應(SFR)、色度水平、顏色一致性、局部幾何畸變(LGD)、橫向色差(LCD)、紋理模糊和視覺噪聲等。每個屬性都有詳細的測試方法和計算步驟。
- 測試條件和設備:詳細規定了測試環境的要求,包括溫度、濕度、照明條件、測試圖表和相機設置等,以確保測試結果的準確性和可重復性。
- 主觀評估方法學:除了客觀測量,標準還強調了主觀評估的重要性,并提供了如何通過軟拷貝質量尺(softcopy quality ruler)等工具進行主觀評價的指導。
- 視頻質量評估:包括對視頻抖動、運動模糊以及自動曝光和白平衡收斂時間的評估,提供了一套框架來評估視頻質量,盡管目前尚未包括主觀質量損失的計算。
ASIQ旨在制定汽車自動駕駛領域的應用標準,提供了包括測試方法、評估指標和報告要求在內的全面框架,為汽車制造商、系統集成商和組件供應商提供跨行業的共同參考點。
標準文檔中強調了汽車應用對圖像質量的特殊要求,如寬視場、高動態范圍(HDR)和更寬的工作溫度范圍等,并討論了現有標準在汽車領域應用中的不足,例如
- 現有標準難以覆蓋汽車攝像頭在HDR模式下的性能,尤其是在處理復雜場景時(如強光直射、陰影區域的細節保留等)。
- 現有標準未充分考慮汽車應用中常見的寬視場鏡頭(如魚眼鏡頭)的特殊投影模型(如等距投影、等立體角投影等)。
- 現有標準無法準確評估NIR波段下的信噪比、動態范圍和圖像質量。
- 現有標準在處理光源閃爍(如LED光源的PWM調光)和光斑(如強光引起的散射和雜散光)時存在不足。
等等,并討論了本標準如何通過引入特定的測試方法來解決這些問題。
文中重點涉及了包括空間頻率響應、動態范圍、幾何校準驗證、噪聲、對比度性能指標(CTA)、光斑(flare)和閃爍(flicker) 等多個圖像質量因素的詳細測試方法。強調了測試條件的一致性,包括光源特性、環境溫度、相機設置等,以確保測試結果的可重復性和可靠性。
其價值在于充分考慮了汽車應用中的挑戰,并提供了一套統一的圖像質量評估方法,有助于消除不同供應商和制造商之間評估結果的差異,促進了汽車行業的標準化。
3、ICC/CIE: International Color Consortium
國際色彩聯盟(ICC)是在1993年由八家公司發起成立的,旨在創造通用的色彩管理系統,專注于顏色表征和計算的標準化,并使之可以通行于不同操作系統和軟件的國際組織。
國際照明委員會(CIE )是由國際照明工程領域中光源制造、照明設計和光輻射計量測試機構組成的非政府間多學科的世界性學術組織,是技術、科學、文化方面的非營利組織。CIE基于人的眼睛對RGB的反應,提出了多種顏色系統和顏色空間,如CIE 1931 XYZ系統,CIELAB顏色空間,及其他標準CIE 166-2005《認知顏色》、CIE 168:2005《擴展色域顏色編碼評估標準》等。
ICC和CIE的工作成果包括標準化的跨平臺設備配置文件格式、ICC配置文件、CIELAB色彩空間和多數色差特征。
4、EMVA: European Machine Vision Association
歐洲機器視覺協會(EMVA)成立于2003年,是一個非營利性和非商業性的國際組織,旨在促進機器視覺技術的發展和應用。
隨著機器視覺技術的快速發展,用戶對成像性能的準確評估和比較需求日益增長。EMVA應運而生,致力于為機器視覺行業制定統一的性能評估標準。
其制定了EMVA 1288標準,這是EMVA最具影響力的成果之一,是一種用于評價相機性能的國際標準,涵蓋了量子效率、總增益、暗場噪聲、飽和容量、絕對靈敏度、動態范圍、最大信噪比等關鍵參數的測試方法。后續版本中還加入了對HDR(高動態范圍)和寬視場相機的測試方法,以適應技術的發展。
EMVA 1288標準已被中國CMVU、美國AIA、日本JIIA、德國VDMA等各大相關行業組織接受與支持,成為國際通用的圖像傳感器與相機性能測試的行業標準。
小結
- 標準部分建議看看ISO的IQ標準、IEEE的CPIQ標準和CIE顏色標準,均為行業內主流的標準,熟悉像質基本表征指標的概念,有助于視覺算法和影像產品的開發。
📑商業化評測機構簡介
1、Image Engineering
公司成立于 1995 年,是全球知名的圖像質量測試設備制造商。其產品和解決方案圍繞 290 多張測試圖卡,以及基于 iQ-LED 光源技術的照明設備等,可評估相機分辨率、畸變、Flare 等諸多圖像質量因素。開發了 iQ-Automator 等先進解決方案,實現測試自動化,還可通過 iQ-Analyzer 分析軟件對圖像質量測試結果進行全面客觀分析。
此外,其參與了 ISO Technical Committee 42、IEEE-P2020、IEC 62676-5 等多個國際標準的制定和更新。IE提供了全面的圖像質量測試設備和軟件,能滿足各行業對圖像質量的多種測試需求。廣泛應用于攝影、手機、汽車和 ADAS 系統、安防、廣播、機器視覺、醫療 / 內窺鏡檢查、掃描儀等多個領域。
(圖片源:https://www.image-engineering.de/library/image-quality)
2、Imatest
公司成立于 2004 年,是圖像質量測試領域的設計生產商。Imatest 軟件是其核心產品,相信做影像產品的人基本都對該軟件了解一二。
Imatest軟件配合測試卡,可檢測相機和鏡頭的銳度、噪音、色差等,如利用 SFR 模塊檢測相機和鏡頭的 MTF 性能等。它還擁有顏色一致性、畸變、均勻性等多種測試功能,能生成圖像文件用于打印測試圖,也可用于檢測打印機等相關設備的質量。在數碼相機、手機攝像頭、工業相機等領域應用廣泛,與眾多相機及設備制造商有合作關系
(圖片源:https://www.imatest.com/imaging/iqfactors/)
3、DXOMARK
DXOMARK是一家獨立的法國科技公司,成立于2003年,也是智能手機攝像頭、屏幕、音頻、電池以及其他消費電子產品(如相機和音箱等)質量評估的國際領導者。華為、OPPO、iPhone、小米等知名品牌手機均有在DXOMARK中做過測評。
10多年來,DXOMARK一直致力于通過制定行業標準,激勵制造商創新和開發產品,進而提升終端用戶的消費體驗。DXOMARK也已經涉足除相機和智能手機之外的其他行業: 車載攝像頭、網絡攝像頭、視覺監控設備、無人機等。
目前其制定的《智能手機影像測試基準》已更新至第五版。下圖可見其評價維度和類型非常豐富,涵蓋了主客觀評價。
(圖片源:走進智能手機影像測試基準 (第五版) - DXOMARK)
小結
- 工業界的IQA是以評價成像系統為主,考慮因素更全,形成了各自的綜合性像質評價解決方案。
- 需要考慮系統模塊間的促進和互斥關系,例如噪聲和銳度。
- 建議想進入影像行業的同學,有時間仔細研讀一下上述標準和評價方案。😊
IQA未來發展趨勢
至此,相信大家應該已然清楚,沒有絕對通用的評價指標。其實,IQA更像是由各種指標組成的一張網,覆蓋了大部分圖像應用,并朝更受關注的方向“編織”延伸。在AI技術的加持下,視覺感知應用將會更加廣泛,IQA也必然會有新的發展。
基于上述內容,本節梳理了以下幾個可能的發展方向(僅供參考):
-
無參考IQA的魯棒性和細粒度提升
如今AI生成圖像、Al生成內容和用戶生成內容越來越普遍,且現實中絕大部分圖像數據都缺乏真實參考,因此NR-IQA必然是研究重點之一。當前迫切需要有針對各種感知失真類型(如生成偽影、錯誤語義、不協調特征等內容)而設計的NR-1QA模型,以有效鑒別各類低質量Generation Image. -
多模態IQA探索
即利用多種模態信息(如視覺、文本、語音等)來聯合評估圖像內容質量。可通過結合圖像和描述該圖像的文本來綜合評價圖像的美學、視覺保真度或語義一致性等。(圖片+文字描述,如“這張風景照是否具備豐富的真實紋理,且構圖是否合理?“)其核心在于利用不同模態間的互補性,突破傳統單模態評價的局限性,給IQA模型賦予更多信息。在真實場景中,圖像常伴有文字描述,故多模態評價更符合實際應用需求,且具有更強的靈活性。
-
可解釋性IQA研究
可解釋性一直非常重要但也很欠缺,純靠算法或模型給出單一指標并不具備足夠的可信度。若IQA模型能夠同時輸出例如視覺量著性圖、歸因分析解釋等多形式質量評分依據,可讓評價結果更令人信服。 -
垂直領域定制IQA深化
不同行業需求多樣化,對視覺質量的要求自然不盡相同。例如工業質檢,追求高精度,主要關注微小細節的表征質量;醫療影像,追求真實性,主要關注偽影問題和清晰度是否足夠:自動駕駛,追求魯棒性,主要關注動態環境中的圖像自適應能力;文娛媒體,追求美學與內容,主要關注構圖、色調和語義一致性等藝術表征。
還有其他一些細分方向值得探索,如輕量化實時在線IQA等。
總結
其實已有很多優秀的學者總結梳理了IQA的發展歷史,并基于多種技術方案做了清晰的分類,讓他人能夠快速熟悉IQA的技術框架和演進過程。這些資料都非常有價值,本文基于這些參考資料,重新整理并大致介紹了IQA技術在各領域的發展和應用。后續將會對一些有價值或有意思的IQA指標進行詳細分析和講解。感興趣的朋友可以關注一下。
IQA即能成為圖像技術的引路燈,也可能成為圖像技術的枷鎖。在這場AI技術變革中,我們不可盲目追逐,更不可被困于舊框架之中。需因地制宜、順勢而為,去選擇或創造合適的IQA,來指引圖像技術的創新之路,讓我們的成果更有價值、更受認可。共勉。
參考資料
IQA綜述:
《2025 A Survey on Image Quality Assessment:Insights, Analysis, and Future Outlook》
《2022 A Survey on Image Quality Assessment》
NTIRE IQA賽事:
NTIRE 2021 Challenge on Perceptual Image Quality Assessment
NTIRE 2022 Challenge on Perceptual Image Quality Assessment
NTIRE 2024 Challenge on Deep Portrait Quality Assessment
NTIRE 2024 Quality Assessment of AI-Generated Content Challenge
NTIRE 2025 challenge on Text to Image Generation Model Quality Assessment
IQA數據集:
PIPAL
PIQ23
AIGIQA-20K
IQ機構:
imatest
DXOMARK
Image Quality
感謝閱讀,歡迎留言或私信,一起探討和交流。
如果對你有幫助的話,也希望可以給博主點一個關注,感謝。