每日AIGC最新進展(10):符號音樂生成SYMPLEX、新型圖像編輯數據集ReasonPix2Pix、角色一致性插畫生成、高級的風格個性化擴散模型

Diffusion Models專欄文章匯總:入門與實戰

SYMPLEX: Controllable Symbolic Music Generation using Simplex Diffusion with Vocabulary Priors

http://arxiv.org/abs/2405.12666v1?

本文介紹了一種新的符號音樂生成方法,名為SYMPLEX,它基于單純形擴散(Simplex Diffusion,SD)模型,通過操作概率分布而非信號空間來生成音樂。該方法利用詞匯表先驗(vocabulary priors)來控制音樂的生成過程,允許在不進行任務特定模型調整或應用外部控制的情況下,對時間和音高進行填充、選擇樂器等。

SYMPLEX模型采用SSD-LM作為基礎,SSD-LM是一種基于窗口的單純形擴散模型,用于生成任意長度的自然語言序列。與SSD-LM處理序列不同,SYMPLEX操作的是一組包含9個屬性的音符事件集合。模型通過訓練神經網絡從噪聲概率中恢復數據樣本,并在生成新樣本時,從隨機初始化的概率開始,逐步迭代細化。此外,通過將詞匯表先驗與當前概率相乘并重新歸一化,可以在不依賴外部模型的情況下控制生成過程。

作者從MetaMIDI數據集中提取了4小節多樂器MIDI循環,并構建了一個包含約25萬個循環的數據集。他們使用了一種無序集合表示法來表示MIDI循環,每個音符事件包含9個屬性。實驗中,SYMPLEX在多個任務上進行了演示,包括無條件生成、有條件生成以及多種編輯任務。作者還討論了未來工作,包括如何避免根據不同生成場景調整參數設置,以簡化工作流程。

ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing

http://arxiv.org/abs/2405.11190v1

本文介紹了一個名為ReasonPix2Pix的新型圖像編輯數據集,旨在提升生成模型在遵循人類指令進行圖像編輯時的推理能力。現有的圖像編輯模型通常只能理解明確具體的指令,但在處理隱含或定義不明確的指令時表現出推理能力的不足。為了解決這一問題,研究者們創建了ReasonPix2Pix,這是一個包含推理指令、更真實圖像和輸入與編輯圖像之間更大變化的數據集

ReasonPix2Pix數據集通過三個部分來增強模型的推理能力:第一部分利用InstructPix2Pix數據集中的圖像對,生成推理指令;第二部分和第三部分則通過生成新的編輯圖像和指令來提升模型對現實圖像的編輯能力。研究者們還結合了多模態大型語言模型(MLLM)和擴散模型來構建一個簡單的框架,該框架能夠理解指令的明確或隱含意圖,并生成符合指令的輸出圖像。

在實驗部分,研究者們使用了GPT-3.5-turbo生成數據集,并采用了Stable Diffusion v1.5和LLaVA-7Bv1.5進行微調。他們將圖像大小調整為256×256,并在訓練期間使用了基礎學習率。通過定性和定量的實驗結果,證明了ReasonPix2Pix在不需要推理和需要推理的指令編輯任務中均展現出優越的性能。用戶研究也表明,當指令變得更加隱含時,ReasonPix2Pix與先前方法相比具有更大的優勢。最后,研究者們討論了數據集的局限性,并指出了數據集規模因API成本而受限,但提供了清晰的數據生成流程,以便研究人員可以擴展數據集規模。

Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models

http://arxiv.org/abs/2405.11852v1

本文探討了如何將新角色有效地融入現有敘事中,并保持角色一致性的問題,特別是在數據有限的情況下。作者指出,現有的故事可視化生成模型在整合新角色時存在兩大限制缺乏合適的基準測試和新舊角色區分的挑戰。為了解決這些問題,作者提出了"NewEpisode"基準測試,包含經過改進的數據集,用于評估生成模型在僅使用單一示例故事生成新故事的能力

作者引入了"EpicEvo"方法,這是一種定制的擴散模型,用于視覺故事生成。"EpicEvo"通過一個新穎的對抗性角色對齊模塊擴散過程中逐步對齊生成圖像與新角色的示例圖像,同時應用知識蒸餾來防止忘記角色和背景細節。這種方法使得模型能夠學習如何生成包含現有角色和/或新角色的故事,并且通過對抗性角色對齊模塊鼓勵模型獨特地生成角色,并通過從預訓練模型中提取知識來保持模型先驗。

為了驗證"EpicEvo"的有效性,作者在"NewEpisode"基準測試上進行了定量和定性的研究。實驗結果表明,"EpicEvo"在基準測試上的定量表現超過了現有的基線,并且通過質量研究確認了其在擴散模型中定制視覺故事生成的優越性。總結來說,"EpicEvo"提供了一種有效的方法,僅使用一個示例故事就能融入新角色,為諸如連載卡通等應用開辟了新的可能性。

TriLoRA: Integrating SVD for Advanced Style Personalization in Text-to-Image Generation

http://arxiv.org/abs/2405.11236v1

本文提出了一種名為TriLoRA的新方法,旨在改進文本到圖像生成模型的微調過程,以實現更高級的風格個性化。現有的深度學習模型,如Stable Diffusion,在視覺藝術創作中應用廣泛,但面臨過擬合、生成結果不穩定和難以精確捕捉創造者所需特征等挑戰。TriLoRA通過將奇異值分解(SVD)整合到低秩適應(LoRA)參數更新策略中,有效降低了過擬合風險,增強了模型輸出的穩定性,并更準確地捕捉到創造者所需的微妙特征調整

TriLoRA是在LoRA框架內引入SVD的概念,通過訓練兩個適配器:一個標準低秩適配器(LoRA)和一個更小的適配器,這兩個適配器相對于原始預訓練權重并行訓練。該方法的創新之處在于使用緊湊奇異值分解(Compact SVD)來確定創造者關注的特定特征數,從而提供更精確的選擇空間。在TriLoRA框架中,通過將Compact SVD整合到LoRA中,優化了權重矩陣的更新,使得模型在保持較低參數數量的同時,提高了對新任務的適應性

為了評估TriLoRA和LoRA在特定風格或主題中的適應性,作者構建了兩個數據集:一個包含多種幻想生物的Pokemon數據集,另一個是專注于特定風格服裝的GAC數據集。實驗采用了標準化Fréchet Inception距離(Normalized FID)和CLIP分數作為主要的定量評估指標,并輔以用戶研究以提供定性見解。實驗結果表明,TriLoRA在多個數據集上的表現優于LoRA,具有更好的模型泛化能力和創造性表達,同時保持了效率和資源限制下的優異性能。用戶研究結果也支持了TriLoRA在文本視覺一致性和視覺吸引力方面的優勢。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/15124.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/15124.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/15124.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

pod 庫發布腳本

repo_tag.sh 文件 #!/bin/zsh# 私有庫名稱 #PODNAME${PWD##*/} PODNAME"LBHorizontalCenterLayout"function obtain_git_tag {# 類似 "s.version 0.0.1"VERSION_STRINGgrep -E s.version.* ${PODNAME}.podspecTAGtr -cd "[0-9.]" <<&…

使用 JavaParser 解析代碼

[自用] 如何判斷出 java 代碼文本中一個方法的輸入參數個數以及類型。用結構體數組存儲遍歷信息&#xff0c;最后用一個方法實現打印。可以使用第三方庫。 如果是一個語句如何判斷這個語句中的局部變量個數和類型。那么該怎么實現呢&#xff1f; 要判斷 Java 代碼文本中一個方…

【電源專題】什么是層間短路(Rare Short),如何檢測?

層間短路發生的原因 一般線圈類制品是以漆包線纏繞導磁材料制造而成,漆包線是指外層披覆一層薄薄絕緣漆的銅線。我們常見的線圈類制品有: 電源變壓器、 高壓變壓器、 Switching Power 變壓器、 通訊變壓器、 脈沖變壓器、 環型變壓器、 電力傳輸變壓器、 音頻傳輸變壓器、 電…

k8s pvc pending waiting for first consumer to be created before binding

動態創建PV失敗且提示waiting for first consumer to be created before binding 問題現象 使用WaitForFirstConsumer的StorageClass創建PV失敗&#xff0c;PVC Event提示persistentvolume-controller waiting for first consumer to be created before binding。 問題原因 PV…

c# mysql 加鎖解鎖

c# mysql 加鎖解鎖 在C#中操作MySQL實現加鎖和解鎖&#xff0c;通常是通過執行特定的SQL語句來完成。MySQL支持表級鎖定和行級鎖定。以下是使用MySQL命令執行加鎖和解鎖的示例代碼&#xff1a; using MySql.Data.MySqlClient;// 連接字符串 string connStr "serverloca…

【QGIS入門實戰精品教程】5.3:CGCS2000轉Lambert投影

參考閱讀: 【GlobalMapper精品教程】081:WGS84/CGCS2000轉Lambert投影 文章目錄 一、加載實驗數據二、投影轉換三、批量投影轉換一、加載實驗數據 加載配套實驗數據,如下圖所示:圖層為長沙市范圍、長沙市酒店賓館分布點位、湖南省酒店分布點位矢量數據。 雙擊圖層,打開信…

網段與廣播域

ip地址與子網掩碼做與運算得到網絡號&#xff0c;得到的網絡號相同就是同一個網段&#xff0c;否則不是&#xff0c;跟他們在什么位置沒有任何關系 這里面pc3和前兩個pc雖然不在同一個網段&#xff0c;但是pc1發廣播包的時候&#xff0c;pc3也能收到&#xff0c;因為路由器的所…

Vue 安裝vue

1、官網安裝下載安裝nodejs 2、安裝完成后&#xff0c;通過命令查看版本,可以查看到版本 node -v npm -v 3、安裝Vue CLi npm install -g vue/cli 4、創建項目,vue create test 如果遇到報錯&#xff1a; ERROR Error: spawn yarn ENOENT Error: spawn yarn ENOENT at ChildP…

前端基礎入門三大核心之HTML篇:深入理解重繪與重排 —— 概念、區別與實戰演練

前端基礎入門三大核心之HTML篇&#xff1a;深入理解重繪與重排 —— 概念、區別與實戰演練 HTML渲染基礎回顧重繪與重排的概念重繪&#xff08;Repaint&#xff09;重排&#xff08;Reflow&#xff09; 區別與影響實戰示例&#xff1a;優化策略與代碼演示示例1&#xff1a;避免…

Dilworth 定理

這是一個關于偏序集的定理&#xff0c;事實上它也可以擴展到圖論&#xff0c;dp等中&#xff0c;是一個很有意思的東西 偏序集 偏序集是由集合 S S S以及其上的一個偏序關系 R R R定義的&#xff0c;記為 ( S , R ) (S,R) (S,R) 偏序關系&#xff1a; 對于一個二元關系 R ?…

用 vue3 + phaser 實現經典小游戲:飛機大戰

本文字數&#xff1a;7539字 預計閱讀時間&#xff1a;30分鐘 01 前言 說起小游戲&#xff0c;最經典的莫過于飛機大戰了&#xff0c;相信很多同學都玩過。今天我們也來試試開發個有趣的小游戲吧&#xff01;我們將從零開始&#xff0c;看看怎樣一步步實現一個H5版的飛機大戰&a…

C# 串口通訊之艱難排錯之路 —— system.ObjectDisposedException已關閉 Safe handle

今天寫了一個串口通訊掃碼槍驅動&#xff0c;程序運行后&#xff0c;不出意外的全線崩潰&#xff0c;開始了漫長的排查之旅&#xff0c;具體情況報錯如下&#xff1a; 解決未處理 System.ObjectDisposedException Message已關閉 Safe handle Sourcemscorlib ObjectName"&…

【pyspark速成專家】4_Spark之RDD編程2

目錄 四&#xff0c;常用PairRDD的轉換操作 五&#xff0c;緩存操作 四&#xff0c;常用PairRDD的轉換操作 PairRDD指的是數據為長度為2的tuple類似(k,v)結構的數據類型的RDD,其每個數據的第一個元素被當做key&#xff0c;第二個元素被當做value. reduceByKey #reduceByKey…

層次式架構設計理論與實踐

層次式體系結構概述 軟件體系結構為軟件系統提供了結構、行為和屬性的高級抽象&#xff0c;由構成系統的元素描述這些元素的相互作用、指導元素集成的模式以及這些模式的約束組成。 層次式體系結構的每一層最多只影響兩層&#xff0c;同時只要給相鄰層提供相同的接口&#xff…

禁用win10自動更新

services.msc——Windows Update——常規——啟動類型——禁用 services.msc——Windows Update——恢復——三個無操作&#xff0c;9999天。 gpedit.msc——計算機配置——管理模板——Windows組件——Windows更新——配置自動更新——已啟用——2-通知下載和自動更新 Windows…

如何參與github開源項目并提交PR

&#x1f47d;System.out.println(“&#x1f44b;&#x1f3fc;嗨&#xff0c;大家好&#xff0c;我是代碼不會敲的小符&#xff0c;目前工作于上海某電商服務公司…”); &#x1f4da;System.out.println(“&#x1f388;如果文章中有錯誤的地方&#xff0c;懇請大家指正&…

高速公路定向廣播(聲光一體) HT-600D

1、產品概述&#xff1a; HT-600D聲光一體平面波IP定向廣播是北京恒星科通創新性研發產品&#xff0c;采用公司自主研發的平面波傳聲技術&#xff0c;該產品具有高聲壓、強指向性、高清晰度等特點&#xff0c;采用定向聲傳聲技術將聲音聚集到正前方定向傳輸,周邊聲壓級明顯降低…

BTC系列-系統學習銘文(二)-序數理論

Ordinals的BIP: https://github.com/ordinals/ord/blob/master/bip.mediawiki 序數理論概述 序數是一種比特幣的編號方案&#xff0c;允許跟蹤和轉移單個聰。這些數字被稱作序號。比特幣是按照它們被挖掘的順序編號的&#xff0c;并從交易輸入轉移到交易輸出&#xff08;遵循先…

面試題:對已經關閉的channel進行讀寫

在Go語言中對已經關閉的channel進行讀寫&#xff0c;結果會有所不同。 讀操作 我們可以安全地從一個已經關閉的channel中進行讀取數據。如果channel中還有未讀取的數據&#xff0c;讀操作將成功并返回數據以及一個用于表示數據是否有效的標記(如果channel已經關閉并且該數據有…

YOLOV10實時端到端目標檢測

代碼地址&#xff1a;GitHub - THU-MIG/yolov10: YOLOv10: Real-Time End-to-End Object Detection 論文地址&#xff1a;https://arxiv.org/pdf/2405.14458 本文介紹了YOLO系列目標檢測器在實時和高效方面的優勢&#xff0c;但是仍然存在一些缺陷&#xff0c;包括依賴非極大值…