1、Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?
中文標題:更好的文本語義在提示微調中能否提高視覺語言模型的泛化能力?
簡介:這篇論文介紹了一種新的可學習提示調整方法,該方法超越了僅對視覺語言模型進行微調的傳統方法,成為一種潛在的資源高效替代方案。然而,有效學習提示面臨兩大挑戰:
在低樣本情況下訓練會導致過擬合,限制了模型的適應性,并在新類別或數據集上表現較差。
提示調整的有效性嚴重依賴于標簽空間,在大類別空間中性能下降,表明在橋接圖像和類別概念方面存在潛在差距。
論文提出了一種利用從大型語言模型獲得的類別描述的提示調整方法。該方法構建了基于部分級別描述的圖像和文本特征視圖,并對其進行對齊,以學習更具可推廣性的提示。
論文在11個基準數據集上進行了廣泛的實驗,結果優于現有方法,展現了顯著的性能改進。
2、Exploring the Low-Pass Filtering Behavior in Image Super-Resolution
中文標題:圖像超分辨率中的低通濾波行為探究
簡介:深度神經網絡在圖像超分辨率任務上已經顯示出明顯的優勢,相比傳統的插值等方法。但與數學基礎扎實的傳統方法相比,深度神經網絡常常被批評為"黑箱"。
本文嘗試使用信號處理理論來解釋深度神經網絡在這一任務上的行為。研究發現了一個有趣的現象,稱為"sinc現象",當給神經網絡輸入脈沖信號時會出現這種現象。基于這一觀察,作者提出了一種稱為Hybird Response Analysis (HyRA)的方法來分析神經網絡的行為。
HyRA將神經網絡分解為線性系統和非線性系統的并聯連接。其中,線性系統起到低通濾波器的作用,而非線性系統則注入高頻信息。為了量化這些注入的高頻信息,作者還引入了一種稱為Frequency Spectrum Distribution Similarity (FSDS)的圖像對圖像的度量方法,它可以捕捉傳統度量忽略的細微差別。
該研究的代碼可在作者提供的GitHub倉庫(https://github.com/RisingEntropy/LPFInISR)中找到。
3、CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models
中文標題:CTRLorALTer:用于高效0-shot控制和修改T2I模型的條件LoRAdapter
簡介:文本到圖像生成模型已經成為一種強大的工具,能夠生成高分辨率且逼真的圖像。然而,如何在生成過程中細粒度地控制和調節生成的風格和結構信息,仍然是一個懸而未決的問題。
本文提出了LoRAdapter,這是一種新穎的方法。LoRAdapter利用條件LoRA塊,將風格和結構的調節統一到同一公式中,實現了0-shot的控制調節能力。LoRAdapter是一種高效、強大且與架構無關的方法,可以用于調節文本到圖像擴散模型,在生成過程中實現細粒度的控制調節,并且優于現有的最先進方法。