當下,深度學習在農業領域的研究熱度持續攀升,相關論文發表量呈現出迅猛增長的態勢。但繁榮背后,質量卻不盡人意。相當一部分論文內容空洞無物,缺乏能夠落地轉化的實際價值,“湊數” 的痕跡十分明顯。在農業信息化領域的頂刊《Computers and Electronics in Agriculture》中也大面積存在。
眾多論文在研究方法上存在嚴重缺陷,過于簡單粗放。只是機械地把深度學習方法生硬地套用到特定農業問題中,似乎只要設計出一個模型,在學術得分榜上 “刷” 出一定成績就算大功告成。整個研究過程中,對農業領域實際存在的復雜情況和多樣特性,如復雜多變的氣候條件、千差萬別的土壤質地、各具特點的農作物生長周期等關鍵因素,全然未給予充分考量。這就導致這些研究成果與真實的農業生產實踐嚴重脫節,難以在實際農業生產中切實發揮有效作用。
文章目錄
- 1. A Convolutional Neural Network approach for image-based anomaly detection in smart agriculture ( 2024,Expert Systems with Applications)
- 1.1 介紹
- 1.2 相關工作
- 1.2.1 用于自動異常檢測的圖像處理
- 1.2.2 專注于植物器官 AutoWeed等數據集
- 1.2.3 不關注植物器官 Agriculture-Vision等數據集
- 1.3 背景-卷積神經網絡
- 1.4 方法
- 1.5 評估
- 1.6 結論
- 1.7 個人總結
- 2. AriAplBud: An Aerial Multi-Growth Stage Apple Flower Bud Dataset for Agricultural Object Detection Benchmarking(2024,Data)
- 2.1 總結
- 2.2 數據集創建
- 2.3 數據集描述
- 2.4 數據集利用率
- 2.5 數據集特征
- 2.6 個人總結
- 3. Assessing cacao beans fermentation degree with improved YOLOv8 instance segmentation,(2024,Computers and Electronlics in Agriculture)
- 3.1 個人總結
- 4. High Quality Segmentation for Ultra High-resolution Images(2022,CVPR)
- 4.1 全文閱讀
- 4.2 個人總結
- 5. VCoder: Versatile Vision Encoders for Multimodal Large Language Models(2023,CVPR)
- 5.1 背景
- 5.2 內容
- 5.3 結果
- 5.4 結論
- 5.5 個人總結
- 6. Self-supervised transformer-based pre-training method with General Plant Infection dataset (2024,Pattern Recognition and Computer Vision)
- 6.1 全文閱讀
- 6.2 結論
- 6.3 個人總結
- 7. Expanding Accurate Person Recognition to New Altitudes and Ranges: The BRIAR Dataset (2023,IEEE/CVF Winter Conference on Applications of Computer Vision Workshops (WACVW))
- 7.1 個人總結
- 8. Low-Res Leads the Way: Improving Generalization for Super-Resolution by Self-Supervised Learning (2024,CVPR)
- 8.1 背景
- 8.2 相關工作和方法
- 8.2.1 低分辨率重建預訓練
- 8.2.2 測試圖像上的自監督學習
- 8.2.3 討論
- 8.3. 實驗
- 8.3.1 實驗設置
- 8.3.2 對現有方法的改進
- 8.3.3 在真實場景中的應用
- 8.3.4 消融研究
- 8.4 結論
- 8.5 個人總結
- 9. Navigating Beyond Dropout: An Intriguing Solution Towards Generalizable Image Super Resolution (2024,CVPR)
- 9.1 引言
- 9.2 相關工作
- 9.3 Dropout的副作用
- 9.4 簡單對齊作為正則化
- 9.5 實驗
- 9.6 結論
- 9.7 個人總結
- 10. AdaBM: On-the-Fly Adaptive Bit Mapping for Image Super-Resolution (2024,CVPR)
- 10.1 個人總結
1. A Convolutional Neural Network approach for image-based anomaly detection in smart agriculture ( 2024,Expert Systems with Applications)
摘要:近期的技術進步及其在農業領域的應用,為智慧農業的新范式提供了有力支撐。遙感技術的應用有助于優化資源配置,使農業生產更趨生態化,提高生產力,并幫助農民預測原本難以避免的事件。鑒于疾病、雜草和害蟲等異常情況所造成的損失占農業總生產力的20-40%,該領域的成功研究成果將成為農業發展的重大突破。
雜草和害蟲等異常現象造成的損失占農業總生產力的20-40%,該領域的成功研究工作將是農業的突破。在本文中,我們提出了一種方法,使用不同的卷積神經網絡架構從很遠的距離捕獲的農作物圖像中的異常情況并進行分類。這種方法還處理了這類問題中通常出現的幾個困難,如類不平衡、圖像種類不足和種類少、過度訓練或缺乏模型泛化。我們在高性能計算環境中實現了四種卷積神經網絡架構,并提出了一種基于數據增強的方法,并在圖像中加入高斯噪聲來解決上述問題。我們的方法使用兩個成熟的不同開放數據集進行了測試:DeepWeeds,它使用在1m距離拍攝的圖像對澳大利亞原生的8種雜草進行分類,以及Agriculture-Vision,它使用多光譜衛星圖像對6種作物異常進行分類。我們的方法分別達到了98%和95.3%的準確率,將最先進的技術提高了幾個點。為了簡化可重復性和模型選擇,我們在計算時間和其他指標方面進行了比較,從而可以根據可用資源在架構之間進行選擇。完整的代碼可在開放存儲庫中找到,以鼓勵可重復性并促進可持續農業的科學進步。
1.1 介紹
簡單介紹了智慧農業推進對人類食品需求和糧食變化的重要性。智慧農業通過解決疾病、雜草和害蟲造成的作物損失等問題,最大限度地減少對環境的影響,同時提高土地生產力,這些問題占農業生產力的 20%-40%。通過技術創新,使用無人機或衛星圖像結合深度學習進行遠程監控,對于與水、營養物質和疾病癥狀相關的早期異常檢測具有重要價值。但是,由于元素和環境不同,從圖像中分析作物狀況很復雜。卷積神經網絡 (CNN) 由于能夠處理各種數據,因此在農業中可用于疾病和害蟲識別。然而,它們的有效性依賴于廣泛的標記數據集,而這些數據集通常是有限的,導致神經網絡難以進行泛化。
原文
- In most cases, the datasets available are small, signifying that artificial neural networks tend to over-fit and do not generalise correctly (Zahangir Alom et al., 2018). However, in recent years, work has begun to create large public image sets in order to apply these techniques to automatic anomaly detection in crops (Boulent, Foucher, Théau, & St-Charles, 2019)
- 原文這里想表達意思以前數據集小,容易過擬合,后來又出現很多新的大型數據集。但是描述方式不對,引用的文獻相隔了一年,而論文使用了“in recent years”來表示,不正確。
我們的工作提出了一種新的方法,該方法以通過高斯噪聲進行數據增強技術為中心,并在我們的方法中包括對四種 CNN 架構的比較。我們的關鍵貢獻圍繞著解決農業場景計算愿景領域的普遍挑戰。
解決的挑戰是每個類別的數據樣本不平衡和標記不足、模型泛化不足、僅關注由其分辨率決定的特定圖像類型所產生的限制,以及對單一架構方法的依賴。通過提供緩解這些問題的全面解決方案,我們提高了兩個著名的開放數據集的準確性指標:DeepWeeds和Agriculture-Vision。具體來說,我們在DeepWeeds中實現了98%的準確率,在Agriculture-Vision中實現了95.3%的準確率。為完全復制這項工作而開發的所有代碼都已包含在GitHub上的公共存儲庫中,從而鼓勵有利于農業科學和技術進步的審查和改進。然后介紹了該論文的結構。
1.2 相關工作
1.2.1 用于自動異常檢測的圖像處理
介紹了自2016年以來,開發的一些用于自動識別作物病蟲害的應用程序。
根據數據集的復雜程度,可以定義三種類型的數據集。第一種類型包括在受控條件下捕獲的圖像,其中葉子或果實被放置在具有受控照明的均勻背景上(圖1A)。第二種類型的集合是在不受控制的條件下捕獲的,但側重于特定的植物器官,通常是一片葉子或一株植物。圖像具有復雜的背景,但最大的區域被感興趣的對象占據(圖1B)。
第三種類型的數據集由在不受控制的條件下捕獲的圖像組成,并且沒有聚焦于特定的植物器官。因此,這些圖像反映了農民在田間看到的情況,最自然最真實。(圖1C)
接下來作者列出了第2種和第3種代表性數據集。
1.2.2 專注于植物器官 AutoWeed等數據集
這里介紹了3種控制的條件并專注于植物器官圖像的數據集,以及目前取得的最高精度。
1.2.3 不關注植物器官 Agriculture-Vision等數據集
這里介紹了3種不受控制的條件且不關注植物器官的數據集,以及目前取得的最高精度。
1.3 背景-卷積神經網絡
這里介紹了四種值得注意的類型(VGG16、Inception-v3、ResNet-50 和 Xception)在ILSVRC和COCO等圖像分類競賽中表現出色,在作物異常檢測和分類等類似任務中顯示出前景。簡單介紹了這4種模型的架構。
1.4 方法
我們的方法旨在填補目前大多數圖像分類問題中存在的一些空白,其解決方案代表了異常分類模型準確性的重大飛躍:
- Gap1:標簽不平衡和每類數據樣本不足。
- Gap2:模型不能很好地推廣到新的未見過的圖像。
- Gap3:方法側重于單類圖像(基于分辨率/距離)和單個神經網絡架構
在深入研究我們的方法如何解決這些差距之前,我們的方法從一個關鍵的預處理步驟開始,旨在轉換Agriculture-Vision數據集中的圖像。這一步對于實現有效的圖像級異常分類至關重要。
-
1.4.1 圖像轉換
從Agriculture-Vision數據集中基于像素的分類到基于圖像的分類 -
1.4.2 差距 1:標簽不平衡和數據樣本不足
這里主要介紹了通過圖像增強技術來擴大數據集,允許網絡在每個訓練周期中看到數據的新變化,這意味著創建了更深的模型,從而避免了過度訓練。 -
1.4.3 差距 2:模型對新圖像的泛化能力差
為了解決模型對新圖像泛化不佳的挑戰,法包含一個關鍵元素:在原始和轉換后的訓練圖像中添加高斯噪聲。 -
1.4.4 差距 3:單類圖像聚焦和有限的神經網絡架構
使用Keras Callback工具對不同實驗中模型的訓練過程進行監控、自動化和控制。此工具可以定義可在epoch或訓練批次的開始或結束時調用的方法,以便控制此過程。回調對于在訓練期間獲得模型內部狀態和統計信息的可見性非常有用。這些方法可用于執行任務,例如可視化和導出訓練進度和結果、定期或在事件發生時保存模型、通過在事件發生時提前停止來停止訓練過程以避免過度擬合或在指標停止改進時調整學習率等。
1.5 評估
在本文中,本文使用了3個指標來評估模型的性能:平衡的準確度、精密度和假陽性率,從而可以與Olsen等人(2019)針對DeepWeeds數據集所做研究進行對比。此外,對于最佳模型,我們對其在每個異常類別中的性能進行了詳盡分析,還展示了混淆矩陣,以便按類別解釋模型的分類誤差。
1.6 結論
本文提出了一種使用深度學習技術對作物進行自動異常檢測的穩健方法。我們的方法旨在填補該領域的空白:每個類別的標記數據樣本不平衡、不足,缺乏模型泛化,只關注一種類型的圖像(取決于它們的分辨率)并基于單一架構。
我們的方法已經在精準農業中兩個重要但不同的數據集上進行了測試,即DeepWeeds(Olsen等人,2019年)和Agriculture-Vision2020挑戰數據集(Chiu,Xu,Wei等人,2020年)。我們在這些圖像集上訓練了四個卷積神經網絡模型,即VGG16、Inception-v3、ResNet-50和Xception,并將一組數據增強和高斯噪聲技術應用于圖像,以填補上述空白。使用這些模型后,DeepWeeds數據集的平均分類準確率為98%,Agriculture-Vision數據集的平均分類準確率為95.3%。將所得結果與現有結果進行比較,平均分類性能提高了2.3%,假陽性率從2%降低到1.32%,考慮到作為參考的工作的良好結果,這是非常顯著的改進。
在Agriculture-Vision數據集中,由于我們將問題從基于像素的分類轉換為基于圖像的分類,無法將結果與其他工作進行比較。我們認為我們正在為該數據集的使用開辟新的視角,并且我們的結果總體上已經非常成功,可以作為與未來研究進行比較的基線。在每種情況下,最佳模型獲得的假陽性率(即DeepWeeds的高斯噪聲Xception和雙訓練集擴展和Agriculture-Vision的高斯噪聲Inception-v3)均低于1%,從而證明了模型的穩健性。Negative類在DeepWeeds中獲得了1.32%的假陽性率,在Agriculture-Vision數據集中獲得了2.52%的假陽性率。這是因為在收集圖像的地點,此類植物種類繁多。因此,在現場實施模型時,需要使用特定位置的數據訓練每個模型,以進一步減少錯誤分類目標的數量。
Agriculture-Vision2020挑戰圖像的實驗證明了使用多光譜相機和傳感器進行數據收集的重要性。這些實驗的結果表明,與使用RGB格式的彩色圖像相比,使用NRG通道(近紅外通道以及RGB模型的紅色和綠色通道)時獲得的平均精度水平提高了約1%。
1.7 個人總結
這篇論文主要采用了四種方法,在 DeepWeeds 和Agriculture-Vision 圖像集上對四個卷積神經網絡模型(VGG16、Inception-v3、ResNet-50 和 Xception)進行訓練。結果表明,其準確率和精度高于目前所有的方法。論文的優點是舉例了3種圖像場景的區別+0.5分。寫作上始終圍繞主題+1分,兩個不同類型的數據集+1分,消融實驗+1分,代碼公開+1分 ,不同方法對比+1分。但是論文把復雜場景歸結為圖像異常檢測是否合理?而且用的方式為高斯模糊、圖像增強等操作其實也是常用操作,創新型不大,但是作者從一個新的切入點去寫這篇文章。
2. AriAplBud: An Aerial Multi-Growth Stage Apple Flower Bud Dataset for Agricultural Object Detection Benchmarking(2024,Data)
摘要:作為當代計算機視覺研究中最重要的課題之一,物體檢測因其多樣化的應用而受到精準農業界的廣泛關注。雖然最先進的對象檢測框架通常是針對主要包含非農業對象的大規模公共數據集進行評估的,但反映植物獨特特性的專門數據集將幫助研究人員研究新開發的對象檢測器在農業環境中的效用。本文介紹了AriAplBud:使用基于無人機(UAV)的紅-綠-藍(RGB)相機創建的蘋果花芽特寫圖像數據集。AriAplBud包含3600張蘋果花芽在6個生長階段的圖像,其中110,467個手動邊界框注釋作為陽性樣本,2520個額外的不包含蘋果花芽的空果園圖像作為陰性樣本。AriAplBud可以直接部署用于開發接受暗網注釋格式的對象檢測模型,而無需額外的預處理步驟,可作為未來農業對象檢測研究的潛在基準。本文還演示了開發基于YOLOv8的蘋果花芽檢測器。數據集:https://osf.io/wexu7/。
2.1 總結
期刊的小標題寫的是“Summary”) 但我個人讀下來感覺還是一個“Introduction”。
該部分介紹了目標檢測的原理和應用意義,以及指出目前非常缺乏用于目標檢測基準測試的農業數據集。然后介紹了目前已有的一些數據集。但是仍然需要更加豐富的數據集。接著介紹了霜凍的危害,而檢測蘋果的花芽變化可以確定霜凍事件期間果園局部供暖需求。作者創建了航空蘋果花芽紅-綠-藍(RGB)圖像數據集AriAplBud,并在本文中進行了介紹。數據集圖像是在9個日期的蘋果園上空使用無人機捕獲的,涵蓋了從休眠到衰老的6個獨特的蘋果花芽生長階段。共獲取了3600張圖片。
2.2 數據集創建
這個部分包含了果園的位置、數據集的搜集方式、以及標注規則。
2.3 數據集描述
這個部分主要介紹了數據集網站文件的說明與數據集的使用。
2.4 數據集利用率
作為演示,本節提供了一個簡短的教程,介紹如何使用GoogleColab(GoogleLLC,MountainView,CA,USA)中最先進的對象檢測框架YOLOv8[24]使用AriAplBud開發蘋果花芽分類器。
2.5 數據集特征
這個部分包括數據不平衡、每個圖像注釋特點、邊框大小、注釋錯誤、注解樣式不一致、圖像相似度、正樣本和負樣本相異性、飛行高度不一致、圖像模糊、人造物體。
2.6 個人總結
這篇論文發表在MDPI的期刊Data上,其實是先公開的數據集,然后再發表的論文,總的來說能公開數據集就很不錯了。
3. Assessing cacao beans fermentation degree with improved YOLOv8 instance segmentation,(2024,Computers and Electronlics in Agriculture)
摘要:發酵是可可豆加工中的關鍵步驟,對最終巧克力產品的質量和風味有顯著影響。滿足國際市場標準需要發酵良好的可可豆,這突出了在出口前精確確定其發酵程度的重要性。傳統上,人工分級員依靠切割測試來評估發酵程度,但這種方法容易出現個體差異且耗時。為了解決這個問題,基于YOLOv8框架開發了YOLO-CoLa模型,專注于準確檢測可可豆的發酵程度。這個新模型是YOLOv8s模型的擴展,在網絡骨干中融入了創新的大選擇性核模塊(LSKBlock),取代了C2f模塊以提高檢測精度。應用數據增強技術來緩解訓練圖像可用性相關的限制。結果表明了YOLOv8-CoLa的有效性,其平均精度(mAP)達到70.4%,比YOLOv8顯著提高了9.3%。這些發現凸顯了整合LSKBlock的重要性以及定制模型適應性在準確識別可可豆發酵程度方面的價值。本研究中的進展為確定可可豆發酵水平所面臨的挑戰提供了可行的解決方案,有助于優化可可豆加工。
3.1 個人總結
這篇論文的數據集只采集了100張圖像,訓練集/驗證集/測試集的比例為8:1:1.按數據質量而言遠遠達不到一篇一區論文水準。而且2024年YOLOv11都出來了,作者所提的方法也知識根據少許數據改進YOLOv8.
4. High Quality Segmentation for Ultra High-resolution Images(2022,CVPR)
摘要:當我們分割4K或6K超高分辨率圖像時,需要在圖像分割中額外考慮計算因素。常見策略,例如下采樣、補丁裁剪和級聯模型,無法很好地解決精度與計算成本之間的平衡問題。基于人類從粗到精連續區分物體這一事實,我們提出了用于超高分辨率分割細化任務的連續細化模型(CRM)。CRM持續將特征圖與細化目標對齊,并聚合特征以重建這些圖像細節。此外,我們的CRM在填補低分辨率訓練圖像和超高分辨率測試圖像之間的分辨率差距方面表現出顯著的泛化能力。通過定量性能評估和可視化展示,證明了所提方法在圖像分割細化方面快速且有效。代碼可在https://github.com/dvlabresearch/Entity/tree/main/CRM獲取。
4.1 全文閱讀
隨著相機和顯示設備的快速發展,圖像分辨率越來越高,4K和6K分辨率變得常見。這在人像照片后期處理、工業缺陷檢測、醫療診斷等方面帶來了不同的機會。然而,超高分辨率圖像也給經典圖像分割方法帶來了挑戰。首先,大量的輸入像素在計算上昂貴且占用大量GPU內存。其次,大多數現有方法通過插值將最終預測上采樣4到8倍,而沒有在輸出掩碼上構建細粒度細節。先前的分割細化方法包括[18,22,27,53]中的那些。它們仍然針對1K-2K分辨率的圖像。[9,47]的工作基于從經典分割算法生成的低分辨率掩碼處理超高分辨率細化。他們在解碼器中使用級聯方案,在幾個分辨率階段對中間細化結果進行上采樣,直到達到目標分辨率。由于在解碼器的預定義分辨率階段以離散方式工作,它們仍然很耗時。我們轉而考慮連續性,以使解碼更高效,更有利于學習上采樣分辨率。我們提出連續細化模型(CRM)來利用連續性。
我們提出了一種通用的連續細化模型(CRM)。它引入了一個隱式函數,該函數利用連續位置信息,在超高分辨率分割細化中連續對齊潛在圖像特征。在沒有基于級聯的解碼器的情況下,我們有效地降低了計算成本,同時重建了更多細節。CRM與多分辨率推理適用于使用低分辨率訓練圖像和超高分辨率測試圖像。由于設計簡單,即使從低分辨率細化到高分辨率,總推理時間也不到CascadePSP[9]的一半。在實驗中,CRM在超高分辨率圖像上產生了最佳的分割結果。它還有助于在不進行微調的情況下提升最先進的全景分割模型的性能。
4.2 個人總結
這是一篇2年前發表的論文,主要提出了一種處理超高分辨率圖像的方法,創新點挺好的,而且做的很全面。在多個數據集(如BIG、COCO、重新標記的PASCALVOC2012)上的實驗表明,CRM在交并比(IoU)、平均邊界準確率(mBA)、全景質量(PQ)和平均精度(AP)等評估指標上表現出色。與其他先進方法相比,如CascadePSP、Segfix、MGMatting等,CRM不僅在分割精度上具有優勢,而且在推理速度方面也明顯更快。CRM在不同類型的分割任務(如語義分割、全景分割和實體分割)中均表現出良好的泛化能力,能夠適應多種應用場景,證明了該模型的通用性和穩定性。后面的消融實驗也分析了CRM中各個組件(如CAM和隱式函數)以及推理策略對模型性能的影響。當前模型使用低分辨率圖像進行訓練,由于超高分辨率圖像帶有精確分割注釋的數據稀缺,無法直接在超高分辨率上進行訓練,這可能限制了模型在超高分辨率場景下的性能上限。雖然CRM在一定程度上降低了計算成本,但處理超高分辨率圖像時,對GPU內存和計算資源的需求仍然較高。
5. VCoder: Versatile Vision Encoders for Multimodal Large Language Models(2023,CVPR)
摘要:人類擁有卓越的視覺感知技能,即看見并理解所見事物的能力,這有助于他們理解視覺世界并進行推理。多模態大語言模型(MLLM)最近在視覺問答、圖像字幕、視覺推理和圖像生成等視覺語言任務上取得了令人矚目的成績。然而,當被要求識別或計數(感知)給定圖像中的實體時,現有的MLLM系統卻表現不佳。為了開發一個準確的用于感知和推理的MLLM系統,我們提出使用通用視覺編碼器(VCoder)作為多模態大語言模型的感知之眼。我們向VCoder輸入分割圖或深度圖等感知模態,以提高MLLM的感知能力。其次,我們利用來自COCO的圖像和現成的視覺感知模型的輸出來創建我們的COCO分割文本(COST)數據集,用于在對象感知任務上訓練和評估MLLM。第三,我們引入指標來評估MLLM在我們的COST數據集上的對象感知能力。最后,我們提供了大量實驗證據,證明VCoder相對于包括GPT-4V在內的現有多模態大語言模型在對象級感知技能上有所提高。我們開源了我們的數據集、代碼和模型,以促進研究。
5.1 背景
多模態大語言模型在視覺語言任務上表現出色,但在對象感知任務上存在不足。例如能夠描述一幅圖但無法準備說出圖中目標的數量。
5.2 內容
- 創建了一個COST數據集,我們將來自COCO的圖像、來自OneFormer的分割圖、來自GPT-4的問題以及包含對象信息的句子組織成問答格式,以構建我們的COCO分割文本(COST)數據集。
- 對于視覺-語言編碼器(Visual-Coder,簡稱VCoder),將分割圖作為控制輸入引入多模態大語言模型(MultimodalLargeLanguageModel,MLLM),通過一個預訓練的視覺Transformer(ViT)和一個兩層多層感知器(MLP)將其投影到語言大模型(LLM)的嵌入空間中。
- 評估指標:提出計數分數(CS)和幻覺分數(HS)來評估多模態大語言模型(MLLM)的對象識別能力。
5.3 結果
在COST驗證集上比較了VCoder與其他開源MLLM以及GPT-4V的性能,結果表明VCoder在對象識別任務上表現更好。但是,COST數據集的類別有限,評估指標需要手動定義同義詞映射,VCoder對分割圖的準確性依賴較大。
5.4 結論
提出的COST數據集和VCoder能夠提高MLLM的對象感知能力,為未來開發更強大的視覺系統提供了參考。
5.5 個人總結
效果應該不如這些商用大模型。點開了論文提供的鏈接,作者也出示了代碼和數據集的樣例。但是我沒找到公開數據集。
6. Self-supervised transformer-based pre-training method with General Plant Infection dataset (2024,Pattern Recognition and Computer Vision)
摘要:病蟲害分類在農業中是一個具有挑戰性的問題。深度學習模型的性能與訓練數據的多樣性和數量密切相關,而植物病蟲害數據集的發展仍不完善,這給分類帶來了難題。本研究通過構建一個綜合數據集,并提出一種結合對比學習和掩碼圖像建模(MIM)的先進網絡架構來應對這些挑戰。該數據集包含多種植物物種和害蟲類別,是該領域最大且最多樣化的數據集之一。所提出的網絡架構在處理植物病蟲害識別任務中表現出有效性,實現了顯著的檢測精度。這種方法為快速、高效且低成本的植物病蟲害檢測提供了可行的解決方案,從而降低了農業生產成本。我們的代碼和數據集將在https://github.com/WASSER2545/GPID-22的GitHub存儲庫上公開,以推動植物病蟲害識別研究的進展。
6.1 全文閱讀
- 背景:深度學習模型的性能直接與其訓練數據的多樣性和數量相關。然而,對于許多植物病蟲害,相關數據仍然稀缺。數據量不足可能導致過擬合,而有限的數據多樣性可能影響模型的魯棒性。此外,現有研究中的大多數代碼和數據集都未公開,導致模型可能表現不佳、魯棒性未知且難以適應其他應用場景。
- 先前關于植物病蟲害分類的研究主要利用卷積神經網絡(CNNs)。然而,CNNs 需要大量的訓練數據,并且對其進行重新訓練既耗時又昂貴。
- 各種害蟲之間的細微差異以及不同疾病之間的重疊特征可能導致識別模型的準確性降低。
針對上述不足,本文旨在創建一個在數量和多樣性方面達到平衡的植物病蟲害數據集。本文提出了一種改進的網絡,該網絡集成了對比學習和掩碼圖像建模(MIM),以提高植物病蟲害的識別、分類效率和可靠性,從而降低農業生產成本。我們的貢獻總結如下:
- 我們創建了一個包含常見植物病蟲害的數據集,納入了大多數用于植物病害分類的在線開源數據集。據我們所知,我們的數據集在樣本數量和所包含的植物病蟲害種類方面是最大的,包括來自22種植物的183種病蟲害的圖像,總共205,371張圖像,來自199個不同的類別。我們計劃將我們的代碼和數據集向科學界開源,旨在促進植物病蟲害識別的進一步研究。
- 我們開發了一種基于帶有MIM的視覺Transformer(VIT)網絡的架構,在預訓練期間結合了對比學習。我們的實驗結果表明,該方法在識別植物病蟲害方面表現有效。
- 基于本文提出的GPID-22方法,我們的方法在199個不同類別上取得了最先進的結果。這種方法為快速、高效和低成本的植物病蟲害檢測提供了可行的解決方案。
- 數據集:我們的數據集(GPID-22)包含205,371張圖像,涵蓋22種植物的199個類別,包括病害、害蟲和健康樣本,其中最小的類別僅包含5個樣本。78.5%的圖像來自其他數據集,21.5%來自實地收集。為了在我們的數據集上獲得更可靠的測試結果,測試集中的每個類別都應該有足夠數量的樣本。因此,GPID-22大約以8:2的比例進行劃分。
關于數據集劃分,這里我覺得不合理,常規是最小類別不小于10,按慣例訓練:驗證:測試=6:2:2。
6.2 結論
針對植物病蟲害研究在數據質量和多樣性方面存在的較大限制,我們開發了一個廣泛的數據集,名為GPID-22。該數據集包含描繪22種植物上183種不同類型的病蟲害的圖像,共計205,371張圖像,分布在199個不同的類別中。值得注意的是,GPID-22是該領域規模最大且最具多樣性的數據集之一。為了最大限度地利用我們廣泛的預訓練數據集,我們提出了一種名為CRE的先進網絡。CRE的架構集成了對比學習和掩碼圖像建模(MIM)。受先前生成模型的啟發,CRE在輸入與輸出環節均結合了由矢量量化生成對抗網絡(GAN)學習的語義標記以及掩碼技術。此外,我們通過向編碼器輸出引入對比損失來增強特征表示。隨后,我們在IP102、PlantVillage和CCD數據集上進行了驗證實驗。
6.3 個人總結
篇論文創建了一個新的數據集,規模是20W張,并基于這個數據集做了一個植物病蟲害檢測的專業預訓練模型,在多個數據集上與傳統的自監督方法(特別是 MIM 和對比學習模型)相比,該論文的方法表現出更優越的性能。文中大約20%的圖片是自己收集的,也就是不超過5W張圖。這個數據量稍小了一點。方法上創新的程度弱,在之前貴州大學團隊已經發表過一篇40W數據(大部分數據采用現在公開數據集)的農業病蟲害圖像預訓練模型。優點是代碼、數據全公開。
7. Expanding Accurate Person Recognition to New Altitudes and Ranges: The BRIAR Dataset (2023,IEEE/CVF Winter Conference on Applications of Computer Vision Workshops (WACVW))
摘要: 近年來,人臉識別技術取得了重大進展,這在很大程度上得益于深度學習模型中可使用的大型且日益復雜的訓練數據集。然而,這些數據集通常由從新聞網站或社交媒體平臺上抓取的圖像組成,因此在更先進的安全、法醫和軍事應用中的效用有限。這些應用場景面臨著低分辨率、長距離和高視角的挑戰。為了滿足這些關鍵需求,我們收集并整理了一個大型多模態生物特征數據集的第一和第二個子集,旨在用于在極具挑戰性的條件下進行生物特征識別技術的研究和開發(R&D)。到目前為止,該數據集包括超過350,000張靜態圖像,以及時長超過1300小時、涉及約1000個對象的視頻片段。為了收集這些數據,我們使用了尼康數碼單反相機、各種商業監控相機、專門用于遠程拍攝的相機以及第1組和第2組無人機平臺。目標是支持開發能夠在高達1000米的距離和高仰角下準確識別人的算法。這些進展將包括提升人臉識別的現有技術水平,并支持使用基于步態和人體測量學的方法在全身識別領域進行新的研究。
7.1 個人總結
這篇2022年發布在ARXIV上的數據集論文優點明顯,主要優勢在于提供了一個多距離、多海拔、包含穿著多種服裝對象的圖像和視頻數據集,為生物特征識別研究提供了新資源。該數據集數據來源多樣,涵蓋多種相機和無人機平臺,以及不同的地形、天氣和大氣條件,具有豐富的挑戰性場景。
8. Low-Res Leads the Way: Improving Generalization for Super-Resolution by Self-Supervised Learning (2024,CVPR)
摘要:在圖像超分辨率(Super-Resolution)領域,縮小合成數據集上的性能與真實世界退化場景下性能之間的差距仍是一項挑戰。本研究引入了一種全新的“低分辨率引領方向”(Low-ResolutionWay)訓練框架,將監督預訓練與自監督學習相結合,以增強超分辨率模型對真實世界圖像的適應性。我們的方法利用低分辨率(Low-Resolution)重建網絡從低分辨率圖像中提取退化嵌入,將其與超分辨率輸出融合用于低分辨率重建。利用未見過的低分辨率圖像進行自監督學習,引導模型將其建模空間適應目標域,從而在無需成對高分辨率(High-Resolution)圖像的情況下對超分辨率模型進行微調。離散小波變換(DiscreteWaveletTransform)的集成進一步聚焦于高頻細節的優化。大量評估表明,我們的方法顯著提升了超分辨率模型在未知真實世界數據集上的泛化能力和細節恢復能力,優于現有方法。我們的訓練機制具有普遍兼容性,無需修改網絡架構,為實際超分辨率應用提供了切實可行的解決方案。
8.1 背景
圖像超分辨率(SR)旨在從低分辨率(LR)或退化圖像中恢復高分辨率(HR)圖像。基于深度學習的超分辨率模型的起源可以追溯到 SRCNN。近年來,深度學習模型的進步顯著提升了超分辨率性能,尤其是在處理雙三次下采樣等特定退化類型時。然而,超分辨率模型的有效性通常受到訓練階段所采用的退化策略的限制,這在復雜的實際應用中帶來了巨大挑戰。
在實際超分辨率領域,訓練方法主要可分為三大類。
(a)使用未配對數據的無監督學習。這類方法通常利用生成對抗網絡(GAN)架構在沒有配對數據的情況下學習目標分布。它們使用一個或多個判別器來區分生成圖像和實際樣本,引導生成器進行準確建模。然而,由于這種方法嚴重依賴外部數據,在面對目標域數據稀缺的情況時,尤其是在實際場景中,會遇到重大挑戰。用于無監督學習的 GAN 框架也存在一些缺點。首先,它在訓練過程中固有地存在穩定性問題,導致超分辨率輸出中出現明顯的偽影。其次,判別器所建模的單一 0/1 平面難以準確分離目標域,這可能導致分布學習不準確。
(b)使用合成配對數據的監督學習。BSRGAN 和 Real - ESRGAN 通過模擬更真實的退化,在很大程度上增強了超分辨率模型的泛化能力。然而,盡管合成數據模仿了某些真實世界的條件,但無法充分捕捉真實場景的復雜性和可變性,合成退化與真實退化之間的差距依然存在。因此,合成數據中有限的退化模式可能導致過度平滑的問題,犧牲關鍵的細節和紋理。有效適應復雜、多變或未知的退化仍然是一個艱巨的挑戰。
(c)使用單張圖像的自監督學習。這類技術利用自然圖像的內在統計特征,無需外部數據集。通常,這些方法能夠直接從輸入的低分辨率圖像進行自監督學習。盡管具有內在的靈活性,但在處理缺乏重復模式的圖像時,這種方法的效果可能會降低。因此,在實際場景中,當缺乏必要的重復結構時,與使用合成配對數據的監督學習方法相比,這些技術的表現往往較差。
值得注意的是,目標域中的真實低分辨率/高分辨率圖像對通常成本高昂或難以獲取。此外,合成數據與真實世界數據之間仍然存在顯著差距。鑒于當前方法的內在局限性,一個關鍵問題應運而生:是否存在一種方法能夠結合這些不同策略的優勢?為了解決這個問題,我們提出了全新的“低分辨率引領方向”(LWay)訓練框架,將監督學習(SL)預訓練與自監督學習(SSL)相結合。該方法旨在縮小合成訓練數據與真實測試圖像之間的差距,如圖1所示。通過將監督學習的預測能力與快速適應測試低分辨率圖像獨特特征的能力相結合,這個框架有效地為未知的真實世界圖像生成高質量的結果。(在研究背景中,作者總結了超分辨率領域的3個類別訓練方法,以及他們的局限性。然后引出問題,再提出解決方案。)
第一步是訓練一個專門設計的低分辨率重建網絡,用于從低分辨率圖像中提取退化嵌入。然后將這個退化嵌入應用于高分辨率圖像,促進低分辨率內容的再生。遇到測試圖像時,我們從在合成數據上預訓練的現成超分辨率模型中獲得其超分辨率結果。將這個輸出輸入到固定的低分辨率重建網絡中,生成相應的退化圖像。隨后,通過將這個退化圖像與原始低分辨率圖像進行比較,計算自監督損失,從而更新超分辨率模型中的特定參數。鑒于我們觀察到預訓練的超分辨率模型在處理低頻域時表現出色,但在高頻區域存在不足,我們引入離散小波變換(DWT)來從低分辨率圖像中分離高頻元素。這一組件有效地將模型的重點轉移到高頻細節的恢復上,避免對低頻區域產生負面影響。(論文的主要方法)
通過這個創新框架,我們的方法無需目標域中的配對低分辨率/高分辨率圖像,顯著提升了監督學習預訓練模型在未知真實世界數據上的性能。我們的方法不僅保留了低分辨率圖像的基本內容,還增加了高清特征,確保了保真度和質量之間的平衡。此外,這種訓練機制無需對網絡架構進行修改,對所有超分辨率模型都具有廣泛的兼容性。通過在真實世界數據集上的大量評估,我們證明了我們的方法在泛化性能上有顯著提升。(方法的效果與意義)
8.2 相關工作和方法
在追求圖像超分辨率的實際應用過程中,我們引入了一種前所未有的訓練方法。這種新策略打破了傳統范式,將監督預訓練的精確性與自監督學習的創新性相結合,以應對真實世界圖像退化的復雜性。我們提出的框架如圖3所示。圖3.所提出的訓練流程(LWay)包括兩個步驟。在步驟1中,我們預訓練一個低分辨率重建網絡,以從低分辨率圖像中捕獲退化嵌入。然后將這個嵌入應用于高分辨率圖像,再生低分辨率內容。進入步驟2,對于測試圖像,預訓練的超分辨率模型生成超分辨率輸出,然后由固定的低分辨率重建網絡對其進行退化處理。我們使用應用于低分辨率圖像的自監督學習損失迭代更新超分辨率模型,并通過加權損失聚焦于高頻細節。這個優化過程提高了超分辨率模型在未見圖像上的泛化性能。
8.2.1 低分辨率重建預訓練
我們引入了一個低分辨率重建分支,它在對來自真實世界環境的測試圖像進行超分辨率模型微調中起著關鍵作用。這個過程的核心是退化編碼器ε,它被設計用來將低分辨率圖像 I L R I_{LR} ILR?中的退化特征提取為一個簡潔的退化嵌入e,其維度為512,公式為 e = E ( I L R ) e=E(I_{LR}) e=E(ILR?)。隨后,重建器R利用e和高分辨率圖像 I H R I_{HR} IHR?來合成一個估計的低分辨率圖像 I ^ L R \hat{I}_{LR} I^LR?,目標是實現 I ^ L R = R ( I H R , e ) \hat{I}_{LR}=R(I_{HR},e) I^LR?=R(IHR?,e)。為確保e的完整性,我們引入了一個雙分量損失函數c,它結合了L1范數和學習感知圖像塊相似性(LPIPS)度量。因此,組合損失函數表示為 L ( I L R , I ^ L R ) = L 1 + L L P I P S L(I_{LR},\hat{I}_{LR})=L_{1}+L_{LPIPS} L(ILR?,I^LR?)=L1?+LLPIPS?,通過精心調整來優化重建保真度。值得注意的是,低分辨率重建分支具有很強的魯棒性,只需要極少的數據進行訓練,這正是我們主張包含低分辨率重建分支的原因。這確保了即使面對新形式的退化,它對超分辨率模型微調的支持也不會受到影響。這種方法的效率和魯棒性在我們的方法中至關重要,將在以下部分詳細闡述和驗證。
8.2.2 測試圖像上的自監督學習
我們的方法創新性地對超分辨率網絡中的一部分參數進行微調,專門用于處理以前未見過的真實世界圖像。這種方法優化了超分辨率網絡,使其能夠熟練應對實際退化模式的復雜性。對于一個真實世界的低分辨率測試圖像 I L R t e s t I_{LR}^{test} ILRtest?,超分辨率網絡S最初生成一個超分辨率圖像 I S R i n i t I_{SR}^{init} ISRinit?。預訓練的低分辨率重建分支在參數凍結的情況下,從 I L R t e s t I_{LR}^{test} ILRtest?中提取一個退化嵌入 e t e s t e^{test} etest,表示為 e t e s t = E ( I L R t e s t ) e^{test}=E(I_{LR}^{test}) etest=E(ILRtest?)。然后開始自監督微調,利用 I S R i n i t I_{SR}^{init} ISRinit?和 e t e s t e^{test} etest來調整超分辨率網絡的特定參數子集 θ f t \theta_{ft} θft?。這個微調被表述為一個優化問題:
θ f t ? = a r g m i n θ f t L ( R ( S θ ( I L R t e s t ) , e t e s t ) , I L R t e s t ) \theta_{ft}^{*}=argmin_{\theta_{ft}}\mathcal{L}(\mathcal{R}(\mathcal{S}_{\theta}(I_{LR}^{test}),e^{test}),I_{LR}^{test}) θft??=argminθft??L(R(Sθ?(ILRtest?),etest),ILRtest?),其中 θ f t ? \theta_{ft}^{*} θft??是從完整模型θ中優化得到的參數。
這種策略性調整增強了超分辨率網絡對低分辨率輸入圖像進行高保真重建的能力,提高了超分辨率網絡對真實世界退化的泛化能力,且無需配對數據。
聚焦高頻細節增強:傳統的超分辨率方法往往能夠熟練重建低頻區域,但常常忽略或無法充分恢復高頻細節。此外,由于低頻區域沒有詳細的紋理,不需要進行低分辨率重建。因此,我們的方法旨在將低分辨率重建過程專門集中在高頻區域,從而避免在低頻區域引入偽影。具體來說,我們應用離散小波變換(DWT)來獲取高頻分量,然后對其進行歸一化以生成一個權重圖 W ∈ [ 0 , 1 ] W \in [0, 1] W∈[0,1]。這個權重圖隨后用于計算加權損失,確保對高頻細節的保真度:
L = L 1 ( W ⊙ I ^ L R t e s t , W ⊙ I L R t e s t ) + L L P I P S ( W ⊙ I ^ L R t e s t , W ⊙ I L R t e s t ) \mathcal{L} = \mathcal{L}_{1}(W \odot \hat{I}_{LR}^{test}, W \odot I_{LR}^{test}) + \mathcal{L}_{LPIPS}(W \odot \hat{I}_{LR}^{test}, W \odot I_{LR}^{test}) L=L1?(W⊙I^LRtest?,W⊙ILRtest?)+LLPIPS?(W⊙I^LRtest?,W⊙ILRtest?)
其中⊙表示逐元素相乘。這個組合損失有效地引導網絡更精確地恢復高頻細節,在不影響低頻內容的情況下提高超分辨率圖像的感知質量。
聚焦高頻細節增強:傳統的超分辨率方法往往能夠熟練重建低頻區域,但常常忽略或無法充分恢復高頻細節。此外,由于低頻區域沒有詳細的紋理,不需要進行低分辨率重建。因此,我們的方法旨在將低分辨率重建過程專門集中在高頻區域,從而避免在低頻區域引入偽影。具體來說,我們應用離散小波變換(DWT)來獲取高頻分量,然后對其進行歸一化以生成一個權重圖。這個權重圖隨后用于計算加權損失,確保對高頻細節的保真度:
8.2.3 討論
通過結合合成數據上的監督學習(SL)與具有未知退化的測試圖像上的自監督學習(SSL),我們根據測試圖像的內在特征動態調整建模空間,將監督學習空間導向更精確的自監督學習空間。圖4展示了我們的方法在微調過程中的有效性。我們的方法在保持對所有模型普遍兼容性的同時,實現了高質量和高保真度的超分辨率。與其他方法相比,我們的方法主要有以下優勢:
- 通用退化建模:從低分辨率到高分辨率圖像的轉換頗具挑戰性,而從高分辨率到低分辨率的轉換則相對簡單穩健。我們的方法利用了這一觀察結果,避免了對大量配對數據集的過度依賴。相反,我們選擇預訓練一個通用的退化嵌入提取和低分辨率重建模型。這一特點確保了我們的方法不受圖像數據集上均勻退化假設的限制。在超分辨率模型的訓練過程中,這些參數保持固定,使超分辨率模型能夠靈活適應真實世界場景中的未知分布。相反,基于CycleGAN的方法同時學習從低分辨率到高分辨率和從高分辨率到低分辨率的映射。這個過程嚴重依賴大量數據。此外,由于CycleGAN在沒有明確退化提取過程的情況下隱式學習高分辨率到低分辨率的映射,其潛在假設是整個數據集的退化是一致的。因此,它只能擬合某些退化模式,在數據有限的真實世界場景中,其性能受到很大影響。
- 密集逐像素自監督:通過自監督學習,我們的方法獨立于外部標簽運行,利用密集的低分辨率像素級信號進行監督。這使模型能夠從圖像的內在結構中學習更豐富的紋理特征。這與傳統的依賴判別器的監督方法形成對比,傳統方法可能由于監督信號的稀疏性而學習到不準確的特征,導致結果不理想。
- 穩健的正則化:我們的方法可以看作是一種正則化約束。通過整合退化嵌入提取并將其與低分辨率圖像重建解耦,即使在面對不完美的退化預測時,我們的方法也能有效地指導重建過程。這大大提高了我們方法的穩健性,使其能夠從測試圖像中學習豐富準確的紋理信息。
8.3. 實驗
8.3.1 實驗設置
- 測試方法:我們提出的方法是一種普遍適用于各種前沿盲超分辨率模型的自監督學習策略,無需對架構進行修改。我們對一系列先進的超分辨率方法進行評估,包括采用傳統CNN框架的BSRGAN和Real-ESRGAN+,集成Transformer結構的SwinIR-GAN,利用VQGAN的FeMaSR,以及基于預訓練擴散模型的StableSR。我們使用官方發布的超分辨率模型作為基線,并在目標測試數據集上進行自監督微調。雖然對單個圖像進行微調可以獲得更好的性能,但為了提高訓練效率,我們選擇對整個測試數據集進行集體微調。除非另有說明,所有實驗均在此配置下進行。
- 實現細節:我們采用Adam優化器。對于StableSR,我們設置了相應的學習率,其他模型也根據各自特點進行參數調整。訓練時長因模型和圖像而異,通常在150到500次迭代之間。
- 訓練數據集:我們的自監督微調方法直接應用于測試集,無需單獨的訓練集。唯一需要預先訓練的是低分辨率重建網絡,它使用內部收集的6000對真實配對圖像進行訓練。需要注意的是,這些數據對于超分辨率網絡是不可見的。
- 測試數據集:我們的方法在真實配對數據集上進行評估,包括RealSR和DRealSR。這些數據集包含了各種設備傳感器的數據,以反映不同的退化特征。為了與其他方法進行公平比較,我們遵循標準設置,將每張圖像裁剪成多個小塊進行4倍超分辨率處理。低分辨率圖像塊大小為128×128,相應的高分辨率圖像塊大小為512×512。
- 評估指標:我們采用與人類感知密切相關的LPIPS、DISTIS和平均絕對偏差(MAD)指標,同時納入PSNR、SSIM和MSE等傳統指標進行綜合評估。這六種不同的指標能夠提供全面的評價。
8.3.2 對現有方法的改進
表1中的結果有力地證明了我們方法在顯著提升超分辨率質量方面的有效性。值得注意的是,在所有模型、數據集和指標上都能觀察到性能提升,這突出了我們方法的普遍適用性。對于基于CNN的模型,如Real-ESRGAN+,我們的方法在尼康數據集上取得了顯著改進,PSNR提升了1.77dB,SSIM提高了0.0388,這些改進有助于更精確地重建高質量圖像。此外,LPIPS降低了0.0532,這進一步驗證了感知質量的提升。當應用于Transformer模型,如SwinIR-GAN時,我們的方法同樣展現出顯著進步。在奧林巴斯數據集上,PSNR提高了0.63dB,MAD顯著降低了5.69,這凸顯了該框架增強圖像保真度和清晰度的能力。如圖5所示,在第一個例子中,所有超分辨率模型都未能保留輸入圖像中的原始紋理,導致織物圖案過度平滑。然而,應用我們的自監督微調方法后,所有方法都有了顯著改進,成功重建出清晰的織物紋理。在油畫的第二個例子中也有類似的改進。現有超分辨率模型難以捕捉油畫的精細細節,而我們的方法有效地恢復了藝術效果,特別是在StableSR模型上展現出明顯的提升。在其他例子中,結果也類似,我們的方法顯著改善了高頻細節的恢復,生成的圖像既清晰又富有細節。
8.3.3 在真實場景中的應用
老電影通常存在顆粒感、褪色和分辨率較低等問題,使其成為評估超分辨率模型實際能力的理想測試平臺。為了進行全面比較,我們挑選了一系列最先進的真實世界超分辨率模型,包括自監督學習模型ZSSR、退化自適應方法DASR、大型擴散模型如LDM、DiffBIR和StableSR、利用無監督技術提升性能的DARSR,以及逼真的超分辨率模型CALGAN。我們以StableSR為基礎模型,實施所提出的自監督學習策略。圖6中的第一個案例是一部480p的低分辨率電影《窈窕淑女》。在評估的模型中,ZSSR、DASR和DARSR的改進最小,DiffBIR引入了令人不悅的偽影,其他模型的結果稍顯平滑。值得注意的是,我們的模型不僅準確地再現了帽子上清晰的織物紋理,還有效地恢復了面部特征,包括皺紋和輪廓。與一些可能引入不自然效果或過度平滑失真的方法不同,我們的模型在精細紋理恢復和整體圖像清晰度保持之間實現了良好的平衡。
我們使用BSRGAN對RealSR尼康測試集進行消融研究。為在該測試集上獲得最低的LPIPS分數,我們對65%的模型參數進行了訓練。
- 低分辨率重建的訓練數據:在本節中,我們展示了用有限數據訓練的低分辨率重建網絡的魯棒性,這是我們設計的基石。如表3所示,我們納入了兩種類型的訓練數據。第一類是使用BSRGAN退化創建的合成數據,第二類是收集用于訓練的真實配對圖像。這兩種設置都提高了性能。具體而言,使用合成數據使LPIPS提高了0.0486,與之相比,僅使用600張圖像使LPIPS提高了0.0299,而使用4000張圖像則顯著將LPIPS提高了0.058。超過此閾值增加圖像數量并沒有帶來進一步的提升。我們將此歸因于從高分辨率到低分辨率的映射比相反的低分辨率到高分辨率的映射更容易,從而減少了對大量訓練數據的需求。圖9進一步支持了這一觀點,t-SNE可視化清晰地分離了不同的退化,即使是未見過的退化類型。
- 退化嵌入維度:表4測試了不同的嵌入維度,表明所有變體都顯著提高了性能。雖然默認的512維有效,但更高的維度(2048)可以進一步改善結果。
- 用戶研究:我們邀請了24位經驗豐富的研究人員參與用戶研究。每位參與者被要求為每張圖像給出0到10分的視覺感知質量評分。圖8中的結果顯示,我們提出的方法比其他方法有顯著優勢,比第二好的方法得分高出2分多。值得注意的是,DASR、DiffBIR和DARSR的得分甚至低于低分辨率圖像,這表明這些方法在處理真實世界圖像方面效果有限。
- 我們的方法與監督微調對比:為全面說明我們方法的有效性,我們使用收集到的真實配對數據對基線模型進行額外的監督微調。如表5所示,我們注意到改進甚微。這與我們的觀點一致,即低分辨率到高分辨率的映射存在固有困難。用一種傳感器類型的數據進行訓練對另一種傳感器的圖像幾乎沒有好處,這表明退化模式存在顯著差異。圖7進一步證實了這一點,監督微調產生了過度平滑的輸出。相反,我們的方法展現出魯棒性,并顯著提高了最終的超分辨率質量。這證明了我們提出的訓練策略更有效。
8.3.4 消融研究
- 微調圖像數量:我們采用自監督低分辨率重建微調方法對測試圖像上的超分辨率模型進行優化。在本節中,我們將研究微調圖像數量對最終性能會產生怎樣的影響。
- 高頻損失:探討引入高頻損失所產生的影響。整合高頻損失帶來了顯著的改進,這證實了我們設計的有效性。
- 微調參數:在探索參數微調過程中,我們觀察到隨著訓練參數數量的增加,PSNR值會升高。然而,LPIPS分數在訓練參數數量達到總參數的大約60%-70%時達到最佳點。
8.4 結論
總之,我們提出的超分辨率訓練策略“低分辨率引領方向”,是一種創新方法,成功彌合了合成數據監督訓練與真實世界測試圖像自監督之間的差距。我們的方法在各種超分辨率框架和真實世界基準測試中展現出令人矚目的性能和魯棒性,朝著實現有效的真實世界應用邁出了重要一步。
8.5 個人總結
這篇論文提出了一個創新性的方法,引入了一種全新的“低分辨率引領方向”(LWay)訓練框架,將監督預訓練與自監督學習相結合,以增強超分辨率模型對真實世界圖像的適應性。全文實現過程和細節也很詳細。當論文送審,有審稿人要求增加方法描述細節,可以參考這篇論文。
9. Navigating Beyond Dropout: An Intriguing Solution Towards Generalizable Image Super Resolution (2024,CVPR)
摘要: 近年來,深度學習使單圖像超分辨率(SISR)性能有了巨大飛躍。雖然大多數現有工作假設一個簡單且固定的退化模型(例如雙三次下采樣),但盲超分辨率(BlindSR)研究旨在提高模型對未知退化的泛化能力。最近,Kong等人率先使用Dropout研究了一種更適合盲超分辨率的訓練策略。雖然這種方法確實通過緩解過擬合帶來了顯著的泛化改進,但我們認為Dropout同時引入了不良副作用,損害了模型忠實重建細節的能力。我們在本文中展示了理論和實驗分析,并且進一步提出了另一種簡單而有效的訓練策略,通過簡單地調制其一階和二階特征統計來增強模型的泛化能力。實驗結果表明,我們的方法可以作為一種與模型無關的正則化方法,在包括合成和真實場景的七個基準數據集上優于Dropout。
9.1 引言
在深度學習技術迅猛發展的浪潮下,基于深度神經網絡(DNN)的單圖像超分辨率(SISR)近年來取得了長足進步(例如,VDSR、SRResNet、EDSR、RDN 和 SwinIR),相比傳統預測模型表現出更優越的性能。
然而,為DNN訓練收集大量自然低分辨率(LR)和高分辨率(HR)圖像對存在一定困難,早期的SISR研究者采用手動設計的HR/LR圖像對(即雙三次)作為替代。然而,現實中的退化很少遵循這種簡單假設,導致這些模型的性能嚴重下降。
盲超分辨率作為上述問題的解決方案,旨在提高模型對未知退化的泛化能力。盡管通過豐富訓練退化空間(例如通過手工合成或數據分布學習)和增強模型能力(例如展開退化模型或探索圖像內部統計)已經取得了有前景的結果,但我們注意到目前為止,對有利于盲超分辨率的訓練策略(正則化)的研究幾乎沒有涉及。
在本文中,我們認為鑒于盲超分辨率的當前研究現狀,這種研究是必要且有意義的。原因如下:首先,如果不擴大訓練的退化空間,盲超分辨率的發展已經遇到瓶頸。盡管有方法試圖挖掘圖像的內部相似模式以進行零樣本學習,但在自然情況下,如果沒有自重復模式,它們很容易失敗。另一方面,從理論上講,通過大的退化空間進行訓練可以使模型更好地泛化,因為它鼓勵模型更多地關注學習自然圖像的形狀和紋理先驗。因此,構建一個多樣化的退化池進行訓練(即根據Li等人的數據驅動盲超分辨率)已成為近期盲超分辨率研究的主流方向,并且在基于CNN、基于GAN和基于擴散的模型中都已被證明是有效的。
然而,只有在理想情況下,用多樣化退化訓練的模型才能自動釋放其全部潛力來學習退化不變表示,從而對未知退化具有更強的泛化能力。其他領域的經驗警告說,如果沒有適當的正則化,這種理想情況可能不容易實現。最近,Kong等人首先注意到這個問題,并更新了Dropout的使用,以緩解數據驅動盲超分辨率中的 “對退化過擬合” 問題。他們指出,如果沒有適當的正則化,僅僅增加數據和網絡規模現在不能持續提高泛化能力。然而,我們注意到,盡管性能有所提高,但Dropout也引入了不良副作用,減少了特征交互和多樣性,這進一步導致了生動的高頻細節的丟失。我們在圖1中展示了一個初步示例,并將在第3節中詳細闡述理論和實驗分析。
此外,“對退化過擬合” 問題源于網絡對某些特定退化的過度關注。為了解決這個問題,我們進一步提出了一種統計對齊方法,在訓練期間對齊具有相同內容但不同退化的兩個圖像的一階和二階特征統計(即均值和協方差)。我們觀察到這種簡單的正則化可以有效地增強模型在前向傳播過程中選擇性地去除退化相關信息的能力。因此,模型可以不受退化干擾地恢復細粒度的HR內容,并且更具泛化性。我們的正則化可以以與模型無關的方式輕松應對現有的流行DNN,并且其實現前提(即具有相同內容但不同退化的圖像)與當前具有隨機退化生成模型的數據驅動盲超分辨率方法配合良好。我們的方法細節將在第4節中介紹。
我們在此總結本文的主要貢獻:
我們從理論和實驗上論證并驗證了Dropout不是盲超分辨率設置的理想正則化選擇,因為它在減少特征交互和多樣性方面存在副作用,這進一步導致特別是高頻細節信息的丟失。我們提出了一種簡單的統計對齊方法,鼓勵模型完全忽略退化信息,從而挖掘模型泛化能力的全部潛力。請注意,我們的正則化實際上與現有的數據驅動盲超分辨率研究并行工作并作為其補充。我們在七個廣泛使用的基準上進行了大量實驗,以驗證我們的提議和論點。
9.2 相關工作
盲圖像超分辨率旨在從具有未知退化的低分辨率圖像中有效恢復高分辨率圖像。多年來,這個問題的解決方案大致可分為三類。第一類研究者試圖通過調整相機焦距收集真實世界的 HR-LR 圖像對進行訓練。然而,這種收集過程繁瑣且容易出現空間錯位,使得構建一個大型多樣的訓練集幾乎不可能。
考慮到上述工作面臨的困難,第二類研究者通過執行零樣本學習完全消除了對外部數據的需求。這個方向的代表性工作包括 ZSSR 和 DGDML-SR,它們分別利用雙三次下采樣和深度信息作為超分辨率先驗。然而,這些方法嚴重依賴于圖像中頻繁出現的內容,將其良好性能限制在非常有限的數據集中。
第三類工作的核心在于通過手工合成或數據分布學習豐富訓練退化空間。這個想法可以追溯到盲超分辨率研究的初期(即 SRMD),并且非常符合機器學習的直覺,即大的訓練空間自然會導致更好的泛化。Zhang 等人和 Wang 等人提出使用重復合成的退化而不是單一退化來構建更通用的數據集。后來,為了進一步模擬真實世界的退化,將 GAN 和擴散模型納入其中以學習更現實的分布。對于退化學習的隨機性,Bulat 等人和 Maeda 提出將隨機向量集成到退化建模中,Luo 等人進一步設計了一個具有普遍適用性的統一概率框架。我們也將在這種多退化設置基礎上探索模型設計的工作歸類到這一類,包括退化自適應網絡和深度展開網絡。
然而,正如 Liu 等人指出的,即使使用大型退化池進行訓練,網絡仍然有過度擬合某些特定退化的趨勢,有效地在網絡中嵌入了與退化相關的 “語義”,導致泛化能力降低。從這個角度來看,現有的仍然堅持直接優化的工作迫切需要一種適當的訓練策略(正則化),以幫助充分利用隱藏在訓練數據多樣化退化中的泛化知識。最近,Kong 等人首次嘗試使用 Dropout 對網絡進行正則化,并取得了吸引人的結果。然而,我們認為 Dropout 也會對恢復圖像中的高頻細節產生負面影響,還有進一步改進的空間。我們的方法通過簡單地調制特征統計來鼓勵模型對退化感知信息不敏感,從而避免了這個問題,從而挖掘訓練數據中的退化不變信息并提高泛化能力。
基于第三類想法的研究工作已經逐漸成為近期盲超分辨率的主流方向。我們的方法實際上是對這一系列工作的補充。在未來,即使有更大更現實的退化池,以直接方式訓練的模型仍然容易受到過擬合的影響(例如,某些退化比其他退化更容易學習),從而限制了它們對退化不變表示的探索(即盲超分辨率的最終目標)。因此,我們的努力實際上以一種不同的方式為研究做出了貢獻,既不是從模型設計也不是從構建更好的數據集,而是從提出一種可以使現有和未來工作受益的訓練策略(正則化)。
9.3 Dropout的副作用
Dropout及其變體是諸多高級視覺任務(如分類任務)中用于緩解協同適應問題與過擬合現象的基礎技術。然而,任何事物都有兩面性,Dropout的代價在于模型的特征交互和多樣性降低。雖然這對高級視覺任務幾乎沒有威脅,但它會嚴重影響圖像恢復的性能。在本節中,我們首先證明Dropout會減少特征交互,然后進行兩個實驗來支持我們的觀點。
從頻率視角出發,我們對SRResNet模型的誤差進行了可視化處理,結果如圖2所示。該模型在DIV2K上使用不同策略(包括本文提出的策略,見第4節)進行訓練,并在六個基準數據集上按照Real-ESRGAN的設置進行測試。誤差的估計方法是通過快速傅里葉變換(FFT)將圖像轉換至頻域。隨后,我們引入平均絕對百分比誤差(MAPE)指標,用以表征因低頻與高頻間數量失衡所導致的各頻帶誤差。請注意,這里較大的MAPE值表示較大的誤差。
從圖2中可以看出,正如預期的那樣,使用Dropout訓練的模型在高頻恢復方面表現較差。值得注意的是,約90%的圖像由低頻信號構成,而人類視覺感知對圖像的高頻細節天生敏感。因此,高頻恢復能力的缺失往往會致使感知質量欠佳。此外,Dropout還傾向于通過類似低通濾波器的方式,對網絡激活進行平滑處理,進而減少特征多樣性。然而,人們意識到,特征的多樣性實際上有助于提升對不同頻率信息的表示能力。在超分辨率的情況下,如前所述,低頻信號在自然圖像中占主導地位。因此,雖然使用Dropout訓練的網絡別無選擇,只能將特征的表示能力集中在低頻(即特征不夠多樣化以表示廣泛的頻率信息),而未采用Dropout訓練的網絡,則在不同頻率上具備多樣化的特征表示能力。我們在圖3展示了一項輔助實驗,此實驗首先運用文獻[55]中的離散余弦變換,識別每個通道的代表性頻帶,隨后計算跨通道的香農熵,以揭示模型編碼的頻帶信息范圍。該實驗在上述六個數據集上基于SRResNet運行,我們在此展示平均結果。不出所料,我們觀察到使用Dropout訓練的模型覆蓋的頻帶范圍較小,限制了其在該范圍之外的恢復能力。
9.4 簡單對齊作為正則化
在上一節中,我們揭示了在超分辨率中應用Dropout的缺點(即減少特征交互和多樣性)。在本節中,我們將展示簡單的對齊如何有效地提高盲超分辨率的性能。我們方法的總體架構如圖4所示。
我們方法的思想源于這樣的期望:模型應該獨立于不同的退化進行預測。例如,給定兩個具有相同內容但不同退化的圖像,期望模型從這兩個輸入中輸出相同的恢復圖像,即。雖然通過簡單地強制它們的中間特征完全相同似乎很直接,但我們認為這將過于苛刻并過度約束模型,阻礙其有效地達到局部最小值的能力(補充材料中顯示其性能較差的消融研究)。相反,在本文中,我們從圖像風格遷移中獲得靈感,并將具有不同退化的圖像視為具有不同風格。請注意,[40]中也采用了類似的想法,但他們專注于退化生成,因此不在我們的討論范圍內。
然后,我們遵循風格遷移的傳統,利用均值和協方差作為退化(風格)敏感指標。雖然這種選擇似乎缺乏堅實的理論基礎,但它實際上符合研究直覺:均值和協方差是圖像處理中常用的一階和二階統計量,并且已被證明分別反映激活的全局狀態和詳細結構與紋理。我們假設不同的退化應該對這些方面產生不同的影響,因此使用這兩個統計量是合理的。第5節中的實證研究也為它們的有效性提供了有力證據。因此,通過對齊具有相同內容但不同退化的圖像的這些統計量,我們旨在引導模型在特征編碼期間自動忽略特定于退化的信息,從而提高其學習處理新的和未知退化至關重要的退化不變特征的能力。接下來,我們展示如何以線性和非線性方式精確地進行對齊。
9.5 實驗
在本文中,我們遵循Kong等人的方法,采用盲超分辨率研究中廣泛認可的多退化設置,以進行公平且可信的比較。由于篇幅限制,我們請讀者參考補充材料,以獲取更多實驗設置和消融研究的相關內容。同時,我們也將在后續內容中闡述基線模型的改進之處。
9.6 結論
在理論和實驗方面,本文首先揭示了在超分辨率中應用 Dropout 作為正則化器的副作用。然后作為替代方案,我們提出了一種簡單而有效的特征對齊正則化方法,該方法可以進一步增強盲超分辨率模型的泛化能力。鑒于當前推進盲超分辨率研究的挑戰,我們呼吁更多地努力探索訓練正則化,這是一條尚未充分發展但可能具有高度影響力的途徑。
9.7 個人總結
這篇論文創新點在于方法,提出了一種相比 Dropout更簡單有效的特征對其正則化方法。
10. AdaBM: On-the-Fly Adaptive Bit Mapping for Image Super-Resolution (2024,CVPR)
摘要:盡管深度神經網絡使圖像超分辨率(SR)問題在恢復精度方面取得了前所未有的提升,但由于其高昂的計算成本,其應用仍受到限制。由于不同的SR輸入圖像面臨不同的恢復難度,根據輸入圖像調整計算成本(即自適應推理)已成為壓縮SR網絡的一種有前途的解決方案。具體而言,調整量化位寬已成功在不犧牲精度的情況下降低了推理和內存成本。然而,盡管自適應網絡有諸多益處,但現有工作依賴于耗時的量化感知訓練,且需要完全訪問原始訓練對來學習適當的位分配策略,這限制了其廣泛應用。為此,我們引入了第一個即時自適應量化框架,將處理時間從數小時加速到數秒。我們僅用兩個位映射模塊來制定位分配問題:一個將輸入圖像映射到圖像層面的位適應因子,另一個獲取層層面的適應因子。這些位映射僅使用少量校準圖像進行校準和微調。我們實現了與先前自適應量化方法相當的性能,同時處理時間加快了2000倍。代碼可在https://github.com/Cheeun/AdaBM獲取。
10.1 個人總結
本文提出了一種用于圖像超分辨率的自適應位映射框架,旨在降低SR網絡的計算成本。該框架基于對量化誤差在圖像層面方差和層層面方差相互獨立的觀察,將圖像和層層面的適應分開處理,極大地降低了搜索成本。對于圖像層面位適應,設計了圖像到位映射模塊,根據圖像復雜度映射到位適應因子;對于層層面位適應,由層到位映射模塊根據層的量化敏感度確定適應因子。通過優化量化范圍,進一步提升了量化效果。該框架僅用少量校準LR圖像在秒級內即可完成學習,實現了與基于QAT方法相當的性能,但處理時間縮短了2000倍。這篇論文的創新點顯著,主要在于技術性突破,且公開了代碼。