論文閱讀--CLIPasso

讓計算機把真實圖片抽象成簡筆畫,這個任務很有挑戰性,需要模型捕獲最本質的特征

?

以往的工作是找了素描的數據集,而且抽象程度不夠高,筆畫是固定好的,素描對象的種類不多,使得最后模型的效果十分受限

之所以用CLIP是因為它可以不管圖像的風格,都能把物體的視覺特征編碼的特別好

本模型不僅是生成簡筆畫,還可以通過控制使用筆畫的多少實現不同程度的抽象

在白紙上隨機初始化曲線,最后不斷訓練成簡筆畫

一個筆畫1~4個點,點在空間中是二維的(x,y),模型訓練更改四個點的位置,從而改變筆畫的形狀

learned parameters就是初始化的筆畫

Rasterizer光柵化器是可導的,是圖形學那邊的工作

這篇文章的貢獻在于前面如何更好的初始化,后面如何選擇損失函數

像ViLD一樣,在這里的ground truth是CLIP模型蒸餾,無論是原圖還是簡筆畫,如果它們描述的是同一物體,那么最后得到的特征應該是差不多的,也就是Ls語義損失

但僅有語義不夠,比如馬頭的位置反了,但還是馬,這是語義相近,但是和原始輸入圖像就不匹配了,因此需要在幾何形狀上對模型的輸出進行限制,即Lg。用前幾層去算幾何形狀的loss,因為前幾層語義空間較低,更關注形狀的特征

做了幾個實驗后發現初始化位置很重要,作者提出saliency的方式:把圖片扔進訓練好的ViT,把最后一層的多頭自注意力取一個加權平均,做成一個saliency map,然后看哪個區域更顯著,到顯著的區域上去采點

局限性:

當圖像有背景的時候效果不好;筆畫數是超參,無法自行調整

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/15429.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/15429.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/15429.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

小米財報:業績遠超預期,汽車推著手機跑!

隨著一季度財報陸續出爐,企業間的分化越來越明顯。 新環境下,很多公司都陷入停滯時,去討論“掉隊”已經沒有多少意義,現在真正值得我們關注的,是那些在逆風情況下,還能“領先”的企業。毫無疑問&#xff0…

ES集群性能優化參考建議

Elasticsearch(ES)集群性能優化是一個多方面的任務,涉及硬件、配置、查詢優化等多個方面。以下是一些建議,幫助你優化Elasticsearch集群的性能: 1. 硬件優化 內存:確保分配給Elasticsearch的內存足夠大&a…

C++|設計模式(三)|抽象工廠模式

抽象工廠模式仍然屬于創建型模式,我們在【簡單工廠和工廠方法模式】這篇文章中,描述了簡單工廠和工廠方法模式,并在文末,簡單介紹了工廠方法模式的局限性。 本文將通過汽車工廠的例子繼續來闡述使用抽象工廠模式相比較于工廠方法…

Linux修煉之路之馮系結構,操作系統

目錄 一:馮諾依曼體系結構 1.五大組件 2.存儲器存在的意義 3.幾個問題 二:操作系統 接下來的日子會順順利利,萬事勝意,生活明朗-----------林辭憂 一:馮諾依曼體系結構 我們當代的計算機的基本構成都是由馮諾依曼…

Kubernetes 容器編排

應用程序部署演變 主要有三個演變: 傳統部署:互聯網早期,會直接將應用程序部署在物理機上 優點:簡單,不需要其它技術的參與 缺點:不能為應用程序定義資源使用邊界,很難合理地分配計算資源&…

【開源】多語言大型語言模型的革新:百億參數模型超越千億參數性能

大型人工智能模型,尤其是那些擁有千億參數的模型,因其出色的商業應用表現而受到市場的青睞。但是,直接通過API使用這些模型可能會帶來數據泄露的風險,尤其是當模型提供商如OpenAI等可能涉及數據隱私問題時。私有部署雖然是一個解決…

PY32F003+RTL8710(AT) 實現獲取天氣情況

一、RTL8710主要AT指令 1、ATSR:模塊重啟 2、ATSE1:開啟回顯 3、ATPW1:station模式 4、ATPNssid,password,,:連接到AP 5、ATPK1:設置自動接收 6、ATPC0,v1.yiketianqi.com,80:與網站建立TCP連接 7、ATPT125…

關于pytorch加載模型報錯問題

load_net[“params”] 報keyerror 加載模型后查看對應參數是什么 model2 torch.load(m1_path "xxx.pth") print(model1.keys())若輸出如下: 已經有相應參數不需要執行 load_net[“params”]若輸出如下 則需要load_net[“params”]

Linux-命令上

at是一次性的任務,crond是循環的定時任務 如果 cron.allow 文件存在,只有在文件中出現其登錄名稱的用戶可以使用 crontab 命令。root 用戶的登錄名必須出現在 cron.allow 文件中,如果這個文件存在的話。系統管理員可以明確的停止一個用戶&am…

3D 生成重建014-Bidiff使用二維和三維先驗的雙向擴散

3D 生成重建014-Bidiff使用二維和三維先驗的雙向擴散 文章目錄 0 論文工作1 論文方法2 效果 0 論文工作 大多數三維生成研究集中在將二維基礎模型向上投影到三維空間中,要么通過最小化二維評分蒸餾采樣(SDS)損失,要么通過對多視圖…

判斷變量是否為數組的幾種方法

1、isArray 方法 isArray() 方法用于判斷一個對象是否為數組。如果對象是數組返回 true,否則返回 false。 Array.isArray(arr); // true 1 2、對象原型 通過原型鏈判斷是否具有和數組同一原型鏈的頂端。 arr.__proto__ Array.prototype; // true 1 3、instanceof…

[數據結構] -- 雙向循環鏈表

🌈 個人主頁:白子寰 🔥 分類專欄:C打怪之路,python從入門到精通,數據結構,C語言,C語言題集👈 希望得到您的訂閱和支持~ 💡 堅持創作博文(平均質量分82)&#…

一文理清database/sql包的使用場景和宕機查詢流程

一文理清database/sql包你可能遇到的問題 那么database/sql包實現了什么功能呢?建立數據庫連接檢測連接是否能ping通通過連接進行具體的sql查詢查詢完將連接進行關閉當數據庫宕掉重啟后再次查詢 database/sql包創建的db連接 對于數據庫宕掉后重啟是否仍然有效&#…

AI繪畫工具:創意與技術的完美融合

隨著人工智能技術的飛速發展,我們見證了無數領域的革新與變革。其中,AI繪畫工具的出現,無疑為藝術界帶來了一股清新的風潮。這些工具以其獨特的魅力,吸引了無數藝術家和創意人士的目光,成為他們表達自我、探索未知的重…

Compose在xml中使用滑動沖突處理

一、背景 在現有Android項目中使用Compose可能存在滑動沖突問題,例如 SmartRefreshLayoutCoordinatorLayoutComposeView(ComposeView這里又是一個LazyColumn) 二、解決方案 官方介紹:https://developer.android.google.cn/develop/ui/compose/touch-inp…

huggingface 筆記:device_map

1 基本映射方法 設計設備映射時,可以讓Accelerate庫來處理設備映射的計算通過設置device_map為支持的選項之一("auto"、 "balanced"、 "balanced_low_0"、 "sequential");或者如果想更精…

golang的context和chan 的使用

1. context 作用 context包的context的接口,主要是控制協程執行上下文的時間,以及取消程序的執行,以及上下文中傳遞數據等作用,golang中耗時或者需要協同的操作都會見到context的身影。 context有幾個常用的方法 1.1 context.B…

用爬山算法解決離散的優化問題

爬山算法,也稱為梯度上升算法或局部搜索算法,是一種簡單有效的優化算法,常用于解決連續或離散的優化問題。爬山算法的基本思想是從一個隨機的初始點開始,通過迭代地向局部最優的方向移動,逐步逼近全局最優解。 爬山算…

git管理Codeup云效平臺

HTTPS方式實現Git命令 1.進入項目路徑,如 cd demo,與此同時,在Codeup平臺創建一個空倉庫repo,獲取空倉庫的https協議地址,例如 https://codeup.aliyun.com/xxxx/xxxx/xxx.git。 2.在demo項目下執行 git init命令初始化…

從反向傳播(BP)到BPTT:詳細數學推導【原理理解】

從反向傳播到BPTT:詳細推導與問題解析 在本文中,我們將從反向傳播算法開始,詳細推導出反向傳播通過時間(Backpropagation Through Time, BPTT)算法。重點討論BPTT中的梯度消失和梯度爆炸問題,并解釋如何解…