智能版面設計:指令跟隨模型在自動布局規劃中的應用

在廣告行業一個吸引人的視覺布局能夠顯著提升信息的傳播效果。但對于非專業設計師來說,創建既美觀又功能性強的布局常常是一項挑戰。他們往往缺乏必要的設計技能、審美訓練或資源來快速實現創意構想。傳統的設計軟件和在線工具雖然提供了一些模板和指導,但這些往往限制了設計的個性化和創新性,難以滿足用戶多樣化和不斷變化的設計需求。

本文旨在解決這一問題,介紹一種基于指令跟隨模型的自動布局規劃方法。這種方法利用最新的人工智能技術,特別是大模型(LLMs)的指令跟隨能力,為用戶提供一種新的、用戶友好的設計工具。通過簡單的指令輸入,用戶可以指導模型理解設計目的和畫布尺寸,自動地將各種視覺元素(如文本、圖片、標志等)排列組合,生成符合特定應用場景(如海報、書籍封面、宣傳冊等)的定制化布局。

模型根據人類提供的指令自動進行布局規劃并安排設計目的下的視覺內容的例子

方法

三個布局推理任務的示例輸入和輸出

圖2為三個布局推理任務的示例輸入和輸出。這些任務是模型訓練的關鍵部分,旨在提高模型對布局指令的理解和執行能力。

(a) 和 (b) 的示例來自Crello數據集,由Yamaguchi在2021年提出。Crello數據集基于在線服務收集的設計模板,這些模板通常從一個空畫布開始,要求模型能夠組織所提供視覺組件的布局。這些示例展示了模型如何預測每個組件的邊界框坐標,以確保它們不會遮擋主要對象。例如,一個設計模板可能包含文本組件或標志,模型需要預測這些組件在畫布上的具體位置,同時考慮到它們之間的相互關系和視覺平衡。

(c) 的示例來自PosterLayout數據集,由Hsu等人在2023年提出。與Crello不同,PosterLayout數據集的畫布不是從空開始,而是已經包含了背景圖像,特別是針對海報的設計。在這種情況下,模型的任務是戰略性地放置文本、標簽和徽標等組件。這要求模型不僅要理解各個組件的視覺特性,還要考慮它們與背景圖像的關系,以及如何在保持設計美觀的同時傳達必要的信息。

這些示例展示了模型在不同設計場景下的應用能力,包括從空白畫布開始的布局規劃和在有背景的畫布上進行組件放置。通過這些任務的訓練,模型能夠學習如何在不同的設計約束下有效地安排視覺元素,以實現既定的設計目的和審美要求。

在視覺豐富文檔的創建過程中,設計元素的多樣性和畫布上的分布對于實現有效的視覺傳達至關重要。為了保持原始文本設計的完整性,文本內容在實驗設置中被轉換成圖像。布局規劃任務涉及將這些設計組件,以圖像序列的形式提供,例如其中 n 代表組件的數量,按照特定應用場景 a(如海報、Instagram帖子、書籍封面)和定義好的尺寸 w(寬度)和 ?(高度)進行排列。畫布可能是空白的,或者有預定義的背景。

為了提供更適應性強的解決方案并增強用戶體驗,研究者采用了指令跟隨的方式來處理視覺豐富的布局規劃任務。模型除了接收設計組件的序列外,還會根據應用場景和畫布尺寸接收詳細的指令 I。模型的任務是預測每個組件的布局,并以結構化格式輸出,包括CSS樣式,如上、左、寬、高以及層級屬性,后者管理可能重疊元素的堆疊順序。

研究者提出的模型 DocLap 擴展了 mPLUG-Owl,這是一個集成了大型語言模型(LLM)、視覺編碼器和視覺抽象器模塊的多模態框架。它采用了 Llama-7b v1 作為大型語言模型,CLIP ViT-L/14 作為視覺編碼器。視覺抽象器模塊將 CLIP 的視覺特征轉換為64個標記,與文本嵌入的維度相匹配,允許同時處理多個視覺輸入。研究者擴展了 Llama v1 的詞匯表,增加了0到128范圍內的數值標記,并在進一步的指令調整中調整了這些擴展標記的嵌入。

?實驗設置

研究者在兩個視覺豐富文檔的布局規劃基準測試上進行了實驗:Crello和PosterLayout。Crello數據集基于從在線服務收集的設計模板構建,挑戰模型從空白畫布開始組織所提供視覺組件的布局。而PosterLayout數據集則從帶有背景圖像的非空白畫布開始,要求模型策略性地放置文本、標簽和徽標。為了確保實驗的公平性,驗證示例被限制為不超過4個圖像,這與提交時GPT-4V的輸入約束一致。

本研究中使用的兩個數據集Crello和PosterLayout在訓練或驗證任務中包含的示例數量

研究者的訓練數據得到了Adobe Express設計模板的補充。具體到每個訓練或驗證任務的數據集示例數量,如表1所示。在預處理階段,小于畫布大小5%的組件被排除,所有模板都被調整大小以確保最長邊不超過128像素。

為了評估所提出模型的性能,研究者將其與Crello上的CanvasVAE和FlexDM,以及PosterLayout上的DSGAN進行了比較。此外,還包括了GPT-4和GPT-4V的文本版本進行比較評估。對于這些文本版本的評估,視覺組件不直接提供,而是通過BLIP-2生成每個組件的文本描述。

對于Crello的評估,研究者測量了預測和實際邊界框之間的平均交并比(mIoU),以及左、上、寬、高維度的準確性。準確性通過將預測值與真實值進行64-bin量化范圍比較來量化,如果預測值落在與真實值相同的范圍內,則得分為1,否則為0。在PosterLayout的評估中,研究者采用了內容感知度量標準,包括遮擋率(表示主要對象被設計元素遮擋的百分比)、效用率(反映設計組件覆蓋非主要對象區域的程度)和不可讀性(測量包含文本元素的區域的均勻性)。

結果

結果顯示在模型間交并比(mIoU)和各方面(左、上、寬、高)的精度上,DocLap模型超過了少量GPT-4(V)模型,但與FlexDM相比仍有提升空間。

Crello數據集上自動評估的結果
PosterLayout數據集上的評估結果,其中"Occ."代表遮擋率,衡量的是設計元素遮擋主要對象的程度;"Uti."代表效用率,反映設計組件覆蓋非主要對象區域的廣度;"Rea."代表不可讀性

表2展示了Crello數據集上的評估結果,包括mIoU和各個維度的準確性。表3則展示了PosterLayout數據集上的評估結果,其中包括遮擋率、效用率和不可讀性等指標。?

(a)設計模板中視覺組件數量對模型mIoU的影響
(b)單個視覺組件的相對大小與模型預測與真實值的IoU之間的相關性

圖3(a)揭示了所有列出的模型在只有一個組件的模板上展現出高mIoU。隨著組件數量的增加,DocLap和GPT-4(V)的mIoU呈現下降趨勢,這表明涉及更多視覺組件的更復雜場景可能對當前的指令跟隨模型構成挑戰。

圖3(b)展示了單一視覺組件的相對大小與模型預測的IoU與真實值之間的線性相關性。這表明較小的視覺組件在布局規劃中實現精確放置面臨更大挑戰。這些小組件,如標志、小文本框或裝飾元素,在布局中具有一定的位置靈活性,允許多種有效的放置方式。

Crello上布局規劃結果的定性比較,包括真實情況、本文提出的模型(Ours)、GPT4V以及FlexDM的結果
PosterLayout上布局規劃結果的定性比較,同樣包括真實情況、本文提出的模型(Ours)、GPT4V以及DS-GAN的結果

圖4和圖5分別展示了Crello和PosterLayout的布局規劃結果示例。這些示例包括了真實情況、DocLap模型的輸出、GPT4V模型的輸出以及FlexDM和DS-GAN模型的輸出。通過這些示例,研究者展示了不同模型在處理具有挑戰性的設計任務時的表現。

通過定量和定性的結果分析,研究者揭示了其在簡化設計流程和提升非專業設計者效率方面的顯著潛力,同時也指出了在面對復雜設計任務時的局限性:盡管DocLap在簡化設計過程和提高非專業用戶的設計效率方面顯示出潛力,但在處理更復雜的設計場景時,模型的性能有所下降。盡管如此,這項工作為設計自動化領域提供了寶貴的見解,并強調了開發更全面的評估體系的重要性。

論文鏈接:https://arxiv.org/abs/2404.15271

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/38486.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/38486.shtml
英文地址,請注明出處:http://en.pswp.cn/web/38486.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

0702_ARM6

練習: 中斷實驗 main.c #include "key.h" int main() {//初始化rcc gpiohal_key_rcc_gpio_init();//初始化extihal_key_exti_init();//初始化gichal_key_gic_init();while(1){}return 0; }key.c #include "key.h"//GPIOF初始化 void hal_key_…

Linux的一些雜項函數總結

getopt_long 解析命令行。 參考: C語言linux getopt_long()函數(命令行解析)(getopt、getopt_long_only)(短選項 -,長選項 --)(option結構體)(opt…

vue3-openlayers marker 光暈擴散(光環擴散)(postrender 事件和 render 方法)

本篇介紹一下使用 vue3-openlayers marker 光暈擴散(光環擴散)(postrender 事件和 render 方法) 1 需求 marker 光暈擴散(光環擴散) 2 分析 marker 光暈擴散(光環擴散)使用 post…

中級java每日一道面試題-2024年7月2日

題目: 請解釋一下 Java 中的線程安全問題,并提供一些常見的解決方法。 答案: 線程安全問題是指在多線程環境下,多個線程同時訪問共享資源時可能出現的數據不一致或錯誤的情況。這可能導致程序的不可預測性和錯誤的結果。 常見的…

徐州三線服務器租用的優勢有哪些?

對于單線服務器與雙線服務器來說,三線服務器是能夠同時擁有電信、聯通和移動三條線路的服務器,同時也被稱為三線路由器或者是三線寬帶路由器,有著三個獨立的網卡和三個IP地址,使用戶無論是通過哪些線路連接都能夠進入服務器&#…

android.bp 靜態庫 依賴 動態庫

在Android平臺上,使用Android.bp文件來定義和構建Android靜態庫(.so文件)和動態庫(.so文件)之間的依賴關系是很常見的。以下是一個簡單的例子,展示了如何在Android.bp文件中定義一個靜態庫,它依…

SPI NAND、SD NAND和eMMC對比—MK米客方德

目錄 1. 容量: 2.封裝類型: 3.速度: 4.性能: 5.壽命: 6. 使用方式: 7. 其他優缺點: 8.常見應用場景: 1. 容量: SPI NAND通常提供從幾百MB到幾GB的存儲容量。 SD NAND的容量覆蓋范圍比SPI NAND更廣,從幾GB到幾十GB不等。 eMMC的容量范圍更大&a…

代碼隨想錄第41天|動態規劃

322. 零錢兌換 dp[j] : 最小硬幣數量, j 為金額(相當于背包空間)遞推公式 : dp[j] min(dp[j - coins[i]] 1, dp[j])初始化: 需要一個最大值, 避免覆蓋, dp[0] 0遍歷順序: 錢幣有序無序不影響, 因為求解最小個數, 結果相同(先遍歷物品后背包, 先背包后物品都可) class Solut…

【chatgpt】兩層gcn提取最后一層節點輸出特征,如何自定義簡單數據集

文章目錄 兩層gcn,提取最后一層節點輸出特征,10個節點,每個節點8個特征,連接關系隨機生成(無全連接層)如何計算MSE 100個樣本,并且使用批量大小為32進行訓練第一個版本定義數據集出錯&#xff0…

怎樣在《語文世界》期刊上發表論文?

怎樣在《語文世界》期刊上發表論文? 《語文世界》知網國家級 1.5-2版 2500字符左右 正常收25年4-6月版面 可加急24年內(初中,高中,中職,高職,大學均可,操作周期2個月左右) 《語文世…

【084】基于SpringBoot實現的家鄉特色推薦系統

系統介紹 視頻演示 點擊查看演示視頻 基于SpringBoot實現的家鄉特色推薦系統主要采用SpringBootVue進行開發,系統整體分為管理員、用戶兩種角色,主要功能包括首頁,個人中心,用戶管理,文章分類管理,文章分…

C語言結構體深入解析【結構體嵌套結構體,結構體變量和指針,結構體和函數,計算結構體大小,結構體數組,結構體成員的訪問,結構體與聯合】

C語言結構體深入解析 目錄 C語言結構體深入解析前言結構體的定義結構體在內存中的表示結構體變量初始化直接定義并初始化使用自己定義的結構體變量初始化新變量結構體數組初始化 結構體中嵌套結構體結構體成員訪問點操作符(.)箭頭操作符(->) 結構體變量和指針結構體指針定義…

TensorFlow代碼邏輯 vs PyTorch代碼邏輯

文章目錄 一、TensorFlow(一)導入必要的庫(二)加載MNIST數據集(三)數據預處理(四)構建神經網絡模型(五)編譯模型(六)訓練模型&#xf…

@RequestMapping屬性詳解及案例演示

RequestMapping源碼 Target({ElementType.TYPE, ElementType.METHOD}) Retention(RetentionPolicy.RUNTIME) Documented Mapping public interface RequestMapping {String name() default "";AliasFor("path")String[] value() default {};AliasFor(&quo…

智能寫作與痕跡消除:AI在創意文案和論文去痕中的應用

作為一名AI愛好者,我積累了許多實用的AI生成工具。今天,我想分享一些我經常使用的工具,這些工具不僅能幫助提升工作效率,還能激發創意思維。 我們都知道,隨著技術的進步,AI生成工具已經變得越來越智能&…

簡單分享 for循環,從基礎到高級

1. 基礎篇:Hello, For Loop! 想象一下,你想給班上的每位同學發送“Hello!”,怎么辦?那就是for循環啦, eg:首先有個名字的列表,for循環取出,分別打印 names ["Alice", …

Apache APISIX 介紹

Apache APISIX 是一個動態、實時、高性能的云原生API網關,屬于Apache軟件基金會旗下的項目。以下是對Apache APISIX的詳細介紹: 一、基本概述 定義:Apache APISIX是一個提供豐富流量管理功能的云原生API網關。功能:包括負載均衡…

git出現Permission denied問題

Warning: Permanently added ‘icode.baidu.com,10.11.81.103’ (RSA) to the list of known hosts. Permission denied (baas,keyboard-interactive,publickey). fatal: Could not read from remote repository. Please make sure you have the correct access rights and the…

nodejs操作excel文件實例,讀取sheets, 設置cell顏色

本代碼是我幫客戶做的兼職的實例,涉及用node讀取excel文件,遍歷sheets,給單元格設置顏色等操作,希望對大家接活有所幫助。 gen.js let dir"D:\\武漢煙廠\\山東區域\\備檔資料\\銷區零售終端APP維護清單\\走訪檔案\\2024年6月…

Spring之事務失效的場景

Spring事務失效的場景 異常捕獲處理:自己處理了異常,沒有拋出。解決:手動拋出拋出檢查異常:配置rollbackFor屬性為Excetion非public方法導致事務失效,改為public 1、異常捕獲處理 示例: 張三1000元&#…