【NeurIPS-2022】CodeFormer: 將人臉復原轉化為碼本預測以減少LQ-HQ映射的不確定性

寫在前面:本博客僅作記錄學習之用,部分圖片來自網絡,如需引用請注明出處,同時如有侵犯您的權益,請聯系刪除!


文章目錄

  • 前言
  • 論文
    • 動機
    • 方法
    • 實驗
  • 總結
  • 互動
  • 致謝
  • 參考
  • 往期回顧


前言

盲人臉恢復是一個高度不適定的問題,通常需要輔助指導,各種先驗已經被用來減輕這個問題的不適定性,包括幾何先驗,參考先驗和生成先驗。

LQ-HQ映射不確定性仍然存在,并且輸出質量因輸入圖像的退化而惡化。一些基于生成先驗方法,通過迭代優化或直接潛在編碼將退化的人臉投影到連續的無限空間中。在嚴重退化的情況下,很難找到準確的潛在向量,導致低保真度的結果。

進而將盲人臉恢復作為碼本預測任務可大大降低恢復映射的不確定性和模糊性,同時提供豐富的視覺原子來生成高質量的人臉。進一步依賴可控的特征變換模塊,允許靈活的保真度和質量之間的權衡。


論文

論文名: Towards Robust Blind Face Restoration with Codebook Lookup Transformer

論文速遞: 點我轉跳哦

代碼通道: GitHub、Gitee

動機

本質上實現以下內容即可實現較高質量的復原:

  • 改進/改進從LQ輸入到期望輸出的映射
  • 補充輸入中丟失的高質量細節

在這里插入圖片描述

(a)連續生成先驗(頂部)和離散碼本先驗(底部)的恢復框架。(B)HQ/LQ面部特征和碼本的 t-SNE 可視化。

  • 高質量圖像,面部組件的潛在向量/碼本是可分的

  • 退化圖像,面部組件的潛在向量/碼本分布邊界不清晰

    • 因此在連續潛在空間,退化嚴重就很難找到準確的潛在向量進行優化,導致復原質量不高。
    • 將潛在空間選取有限的碼本, 可大幅減少LQ到HQ的錯誤映射。

方法

在這里插入圖片描述

CodeFormer框架。首先學習一個離散的碼本和一個解碼器,通過自重構學習來存儲人臉圖像的高質量視覺部分。在固定碼本和解碼器的情況下,引入Transformer模塊來進行碼序列預測,對低質量輸入的全局人臉組成進行建模。

  • 第一階段 - 學習碼本:為了減少LQ-HQ映射的不確定性并補充高質量的恢復細節,對量化的自動編碼器進行預訓練,以學習上下文豐富的碼本,去提高網絡的表現力以及對降級的魯棒性。

  • 第二階段 - 碼本Transformer學習:由于LQ面部中紋理的破壞,最近鄰匹配通常無法找到用于面部恢復的準確碼本,采用Transformer來對全局相互關系進行建模,以實現更好的碼本預測。自編碼器的編碼器后面插入一個包含九個自注意塊的Transformer模塊。

  • 第三階段 - 可控特征轉換:其實第二階段已經獲得了一個很好的人臉恢復模型,利用可控特征變換(CFT)模塊來控制信息流從LQ編碼器EL到解碼器DH。

將512 × 512 × 3的人臉圖像表示為16 × 16的碼元序列,使用四個NVIDIA Tesla V100 GPU進行訓練,羨了這算力。

實驗

毫無疑問,吊打當時的先進方法,上圖。

在這里插入圖片描述

合成數據集

在這里插入圖片描述


在這里插入圖片描述

真實數據集

在這里插入圖片描述


在這里插入圖片描述

側臉也不賴


總結

總結: CodeFormer通過學習一個小的離散但有表現力的碼本空間,將人臉恢復轉化為碼元預測,大大降低了恢復映射的不確定性,簡化了恢復網絡的學習。同時通過一個有表現力的Transformer模塊從降級的面孔中探索全局組合和依賴性,以獲得更好的碼本預測。


互動

  • 上述內容對你有幫助嗎?

歡迎在評論區解答上述問題,分享你的經驗和疑問!

當然,也歡迎一鍵三連給我鼓勵和支持:👍點贊 📁 關注 💬評論。


致謝

欲盡善本文,因所視短淺,怎奈所書皆是瞽言蒭議。行文至此,誠向予助與余者致以謝意。


參考

[1] Towards Robust Blind Face Restoration with Codebook Lookup Transformer
[2] https://gitee.com/qianxdong/CodeFormer
[3] https://github.com/sczhou/CodeFormer?tab=readme-ov-file


往期回顧


👆 DeepSeek本地化部署保姆級教程👆

👆 EfficientTrain++幫你降低網絡訓練的成本👆

👆 PyCharm環境下Git與Gitee聯動👆

👆 【CVPR-2023】DR2:盲人臉復原👆

👆 輕量化設計如何提高模型的推理速度👆

👆 正則化與正則剪枝👆

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/73997.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/73997.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/73997.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

k8s1.30 部署calio網絡

一、介紹 網路組件有很多種,只需要部署其中一個,推薦calio。 calio是一個純三成的數據中心網絡方案,calico支持廣泛的平臺。如k8s,openstack等。 calio在每一個計算節點利用linux內核,實現了一個高效的虛擬路由器來…

提升AI性能的秘密武器:量化、蒸餾與剪枝全面解析

通過高效的模型壓縮技術推進 NLP 在快速發展的自然語言處理 (NLP) 領域,模型的大小和復雜性顯著增加,從而顯著提高了性能。然而,這些龐大模型的部署和維護也帶來了挑戰,特別是在計算成本、功耗和資源受限用戶的可訪問性方面。本博客深入探討了量化、剪枝和蒸餾等尖端模型壓…

數據結構(python)-------棧和隊列2

目錄 二、隊列 (一)、定義 1. 定義 2. 邏輯結構 3. 存儲結構 4. 運算規則 5. 實現方式 (二)、隊列與一般線性表的區別 一般線性表 隊列 (三)、分類 …

基于SpringBoot的“校園招聘網站”的設計與實現(源碼+數據庫+文檔+PPT)

基于SpringBoot的“校園招聘網站”的設計與實現(源碼數據庫文檔PPT) 開發語言:Java 數據庫:MySQL 技術:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系統展示 系統整體功能圖 局部E-R圖 系統首頁界面 系統注冊…

投資日記_道氏理論技術分析

主要用于我自己參考,我感覺我做事情的時候容易上頭,忘掉很多事情。 技術分析有很多方法,但是我個人相信并實踐的還是以道氏理論為根本的方法。方法千千萬萬只有適合自己價值觀,習慣,情緒,性格的方法才是好的…

ceph運維硬件規劃技巧

在規劃Ceph集群的硬件配置時,需要綜合考慮性能、成本、冗余、可擴展性以及特殊場景需求等因素。以下是關于Ceph硬件規劃的關鍵技巧和建議,涵蓋存儲設備、網絡、服務器配置、容量規劃、冗余策略等多個方面: 1. 硬件選型建議 存儲設備 存儲節點…

Windows主機、虛擬機Ubuntu、開發板,三者之間文件互傳

以下內容源于日常學習的整理,歡迎交流。 下圖是Windows主機、虛擬機Ubuntu、開發者三者之間文件互傳的方式示意圖: 注意,下面談及的所有方式,都要求兩者的IP地址處于同一網段,涉及到的軟件資源見felm。 一、Windows主…

Softmax溫度調節與注意力縮放:深度神經網絡中的平滑藝術

Softmax溫度調節與注意力縮放:深度神經網絡中的平滑藝術 在深度學習的精密機械中,有些細微的調整機制往往被視為理所當然,卻實際上蘊含著深刻的數學洞察和巧妙的工程智慧。今天,我們將探討兩個看似獨立卻本質相通的機制&#xff…

RIP路由欺騙攻擊與防御實驗詳解

一、基礎網絡配置 1. 路由器R1配置 interface GigabitEthernet0/0/0ip address 192.1.2.254 255.255.255.0 ! interface GigabitEthernet0/0/1ip address 192.1.3.254 255.255.255.0 ! router rip 1version 2network 192.1.2.0network 192.1.3.0 2. 路由器R2配置 interface…

阿里云平臺Vue項目打包發布

目錄: 1、vue項目打包2、通過ngixn發布vue的打包文件 1、vue項目打包 在你的vue項目下執行npm run build命令進行打包。 2、通過ngixn發布vue的打包文件 直接將打包的dist文件拷貝到nginx目錄下即可。 修改nginx.conf的配置文件的相關配置,如端口或者ro…

《基于Spring Boot+Vue的智慧養老系統的設計與實現》開題報告

個人主頁:@大數據蟒行探索者 一、研究背景及國內外研究現狀 1.研究背景 根據1982年老齡問題世界大會聯合國制定的標準,如果一個國家中超過65歲的老人占全國總人口的7%以上,或者超過60歲的老人占全國總人口的10%以上,那么這個國家將被定義為“老齡化社會”[1]。 隨著國…

SpringCache @Cacheable 在同一個類中調用方法,導致緩存不生效的問題及解決辦法

由于項目需要使用SpringCache來做一點緩存,但自己之前沒有使用過(其實是沒有聽過)SpringCache,于是,必須先學習之。 顯然,就是在同一個類中,MethodA 調用了 MethodB,那么 MethodB 上…

2025-03-20(DS復習):詳細介紹一下Databricks 的Delta Lake

Delta Lake 是 Databricks 推出的一種開源存儲層,它構建在現有數據湖(如 Amazon S3、Azure Data Lake Storage、Google Cloud Storage)之上,為數據湖提供了數據倉庫級別的可靠性、性能和管理功能。Delta Lake 解決了傳統數據湖的許…

在VMware上部署【Ubuntu】

鏡像下載 國內各鏡像站點均可下載Ubuntu鏡像,下面例舉清華網站 清華鏡像站點:清華大學開源軟件鏡像站 | Tsinghua Open Source Mirror 具體下載步驟如下: 創建虛擬機 準備:在其他空間大的盤中創建存儲虛擬機的目錄&#xff0c…

初入ARM,點燈,按鍵與中斷相結合

與MCU不同,ARM屬于功能更復雜,更強大的SOC,是可以移植操作系統的,但是在最開始學習arm,需要了解arm的運行方式,所以現在使用的是裸機開發。arm系統有多種工作模式,分別是User,IRQ&am…

Moonlight-16B-A3B: 變革性的高效大語言模型,憑借Muon優化器打破訓練效率極限

近日,由Moonshot AI團隊推出的Moonlight-16B-A3B模型,再次在AI領域引發了廣泛關注。這款全新的Mixture-of-Experts (MoE)架構的大型語言模型,憑借其創新的訓練優化技術,特別是Muon優化器的使用,成功突破了訓練效率的極…

風尚云網|前端|JavaScript性能優化實戰:從瓶頸定位到高效執行

JavaScript性能優化實戰:從瓶頸定位到高效執行 JavaScript性能優化 在移動優先和Web應用日益復雜化的今天,JavaScript性能優化已成為前端工程師的必修課。本文將通過真實場景案例,深入解析從性能瓶頸定位到具體優化策略的完整閉環&#xff…

強大的AI網站推薦(第一集)—— Devv AI

網站:Devv AI 號稱:最懂程序員的新一代 AI 搜索引擎 博主評價:我的大學所有的代碼都是使用它,極大地提升了我的學習和開發效率。 推薦指數:🌟🌟🌟🌟🌟&#x…

使用 .NET Core 的本地 DeepSeek-R1

使用 .NET 在我的 MacBook Pro 上與當地 LLM 聊天的歷程。 如今,只需使用瀏覽器即可輕松使用 ChatGPT 或其他 genAI。作為開發人員,我們可以通過直接集成 OpenAI API 等來做更復雜的事情。如果我們想在自己的機器上運行 LLM,只是為了找人聊天…

將 VOC 格式 XML 轉換為 YOLO 格式 TXT

目錄 1. 導入必要的模塊 2. 定義類別名稱 3. 設置文件路徑 完整代碼 1. 導入必要的模塊 import os import xml.etree.ElementTree as ET os:用于文件和目錄操作,例如創建目錄、遍歷文件等。 xml.etree.ElementTree:用于解析XML文件&#…