圖像增強
Towards Robust Event-guided Low-Light Image Enhancement: A Large-Scale Real-World Event-Image Dataset and Novel Approach
解決的主要問題是低光照條件下的圖像增強
通過多尺度整體融合分支提取事件和圖像的結構和紋理信息,并引入信噪比(Signal-to-Noise Ratio, SNR)引導的區域特征選擇,以增強低SNR區域的圖像
嵌入表示
?Transcriptomics-guided Slide Representation Learning in Computational Pathology
試圖解決的主要問題是如何在計算病理學中有效地從整個千兆像素級的全切片圖像學習到有用的嵌入表示
使用ViT來編碼組織學幻燈片的圖像塊,以及使用MLP來編碼基因表達數據,通過對比學習對齊
除了對比損失外,作者還引入了表達重建目標和視覺內模態目標
事件相機
??Bilateral Event Mining and Complementary for Event Stream Super-Resolution
旨在解決現有事件相機在復雜場景應用中面臨的空間分辨率不足的挑戰
采用雙流網絡分別獨立處理正事件和負事件,并通過提出的雙邊信息交換模塊促進兩流之間的信息交換
擴散模型
GPLD3D: Latent Diffusion of 3D Shape Generative Models by Enforcing Geometric and Physical Priors
旨在解決現有3D形狀生成模型在幾何可行性和物理穩定性方面的一些關鍵問題
??Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following
旨在解決現有文本到圖像擴散模型在解釋復雜提示時通常遇到的挑戰
引入一個語義面板作為中間件,這個面板通過大型語言模型解析輸入文本中的視覺概念,然后將其注入到去噪網絡中,作為詳細的控制信號以補充文本條件
?EscherNet: A Generative Model for Scalable View Synthesis
試圖解決的主要問題是如何學習一個通用的3D表示,以便于實現可擴展的視圖合成
EscherNet學習與場景顏色和幾何形狀相關的隱式表示
?3D重建
MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild
旨在解決從單目野外視頻中重建多個人物的3D模型這一具有挑戰性的任務
定義整個場景的分層神經表示、使用分層可微體積渲染從視頻中學習該表示(為場景中的每個人定義一個3D形狀和外觀的隱式神經表示,這些表示在場景中是分層和交織的)
圖像生成
??Instruct-Imagen: Image Generation with Multi-modal Instruction
多模態指令引入
兩階段訓練方法:
第一階段:檢索增強訓練
第二階段:多模態指令微調
模型架構設計:Instruct-Imagen基于預訓練的文本到圖像擴散模型,通過添加一個交叉注意力層來編碼多模態指令
?Attention Calibration for Disentangled Text-to-Image Personalization
試圖解決的問題是如何從單個參考圖像中捕捉多個新穎概念
引入新的可學習修飾符與類別綁定以捕獲多個概念的屬性,并通過分離和加強不同類別的注意力圖來減少概念間的相互影響
姿態估計
?Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences
目標是在不需要額外的深度測量或場景重建信息的情況下,通過學習跨圖像匹配3D坐標,實現無需尺度的相對相機姿態估計
深度估計
Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
探索現代生成性擴散模型中捕獲的廣泛先驗知識是否能夠使深度估計更加準確和泛化。
Marigold是一種基于Stable Diffusion的仿射不變單目深度估計方法,它保留了豐富的先驗知識