今天給大家介紹一篇令人驚喜的論文《JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent》
論文地址:https://arxiv.org/pdf/2506.17612
Code(暫無代碼):https://github.com/LYL1015/JarvisArt
項目主頁:https://jarvisart.vercel.app/
國內主頁:https://www.jarvisart.site/
這篇論文最大的亮點是給大家介紹了一個智能修圖Agent:JarvisArt,它是一種由多模態大型語言模型(MLLM)驅動的智能照片修圖代理,旨在通過理解和模仿專業藝術家的推理過程,實現高質量的圖像編輯。個人認為這也是修圖行業的未來趨勢,未來的修圖將會是一個基于語音+文字交互的Agent,而這個論文將這個未來變得越來越近。
JarvisArt這個Agent可以實現什么功能?用戶如何使用?
答案很簡單,用戶輸入一張圖,然后輸入修圖的簡單描述prompt,JarvisArt會使用MLLM對prompt進行分析,比如調色分析,最終得出用戶輸入圖需要進行的調色步驟和指令,這些指令將包含lightroom的各項調色功能參數,將這些指令下發給Lightroom的200+工具,由工具執行對用戶原圖進行調色,最終得到調色效果圖;
項目界面如下圖所示:
創新點
這篇論文創新點總結:
-
多模態大語言模型驅動(MLLM-driven):
-
支持圖像 + 文本輸入;
-
使用自然語言和區域框等多模態交互方式。
-
-
模仿專業修圖師的思維過程:
-
采用 Chain-of-Thought(CoT)訓練模型先“思考”如何修圖,再給出參數操作。
-
-
與 Lightroom 集成:
-
通過提出 Agent-to-Lightroom (A2L) Protocol,讓智能體能調用超過 200 項 Lightroom 操作指令,進行非破壞性編輯。
-
方案流程
JarvisArt 的總體流程可分為三大模塊 + 一條訓練主線:
1.多模態上下文理解(Multi-modal Context Understanding)
-
輸入:用戶圖像、自然語言指令、可選區域框或筆刷標記;
-
模型通過圖像 + 文本聯合理解,明確目標風格、區域及期望效果;
-
示例指令:
“請使眼睛更亮,在框 <box>[x1,y1,x2,y2]</box> 內增強發質”
。
2.策略推理與參數規劃(Strategic Reasoning)
-
使用 Chain-of-Thought 思維鏈結構:
-
<think>
標簽內寫出模型的修圖思路,如先調色溫再調整曝光等;
-
-
生成的 reasoning 過程符合攝影美學和人類邏輯。
3.工具編排與操作執行(Tool Orchestration)
-
將上述思路轉化為 Lightroom 的操作指令:
-
<answer>
標簽內為一組 Lightroom 參數配置(稱為 ROC 文件); -
支持多種類型的局部蒙版(徑向、線性、人物、顏色等);
-
-
最終由 JarvisArt 調用 A2L 協議將參數發送給 Lightroom 實際執行。
算法層面上,JarvisArt實現了這樣一個函數:
兩階段訓練流程(核心算法機制)
Ⅰ. CoT SFT:鏈式思維的監督微調
-
基于人工構造的 CoT 注釋訓練模型建立初步的:
-
指令理解能力;
-
編輯邏輯;
-
Lightroom 操作熟練度。
-
Ⅱ. GRPO-R:基于獎勵的強化優化策略
-
提出新的 Group Relative Policy Optimization for Retouching 方法,結合三類獎勵:
-
格式獎勵:結構化輸出格式是否規范;
-
參數匹配獎勵(ROA):是否選對工具、設置合適參數;
-
感知質量獎勵(PQ):編輯后圖片是否視覺美觀、保留內容。
-
MMArt-55K 數據集
論文研究團隊構建了MMArt-55K 數據集(5K標準 + 50K思維鏈樣本)。
數據生成管道如下圖所示:
-
圖像對和Lightroom配置生成:從PPR10K、Adobe Lightroom社區和授權的開源集合中獲取原始圖像Isrc,創建多樣化的全球和本地藝術預設庫。使用Qwen2.5-VL-72B進行多模態角色扮演和Grounding DINO進行精確區域定位,模擬專家級編輯,生成圖像對和Lightroom配置ROC文件。每個樣本數據表示為<Isrc,Itgt,Q,C,O>,其中Isrc表示原始圖像,Itgt表示目標圖像,Q是用戶指令,C是用標簽包裝的CoT推理,O是標簽內的修圖操作配置ROC文件,這些文件是lightroom可執行的操作文件;
該管道按以下步驟進行:1)策劃多樣化的源目標示例,涵蓋不同的場景和風格,以及相應的Lightroom配置;2)生成反映用戶意圖的自然語言指令;3)生成逐步的推理痕跡。
-
用戶指令生成:為了模擬多樣化的編輯意圖,使用Qwen2.5-VL-72B和一個角色扮演提示將每個<Isrc,Itgt,O>三元組轉換為場景級和區域級指令Q,覆蓋簡單的全局編輯和精確的局部調整。
-
推理過程生成:對于每個樣本四元組<Isrc,Itgt,Q,O>,應用QVQ-max的先進視覺推理生成初始CoT注釋。為了消除冗余并強制人類般的連貫性,隨后使用Qwen2.5-VL-72B通過迭代多模態提示細化這些痕跡,產生簡潔、上下文豐富的推理過程C。
上面就是這篇文章的介紹,目前代碼尚未開源,但論文為我們提供了一套可行的方案思路,修圖Agent是未來趨勢,以像素蛋糕為例,目前像素蛋糕的各項修圖功能已經基本完善,完全可以基于這些功能,構建數據集,進而構建自有的修圖Agent,屆時將會給修圖行業帶來新的用戶體驗!