影樓精修-智能修圖Agent

今天給大家介紹一篇令人驚喜的論文《JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent》

論文地址：https://arxiv.org/pdf/2506.17612

Code（暫無代碼）：https://github.com/LYL1015/JarvisArt

項目主頁：https://jarvisart.vercel.app/

國內主頁：https://www.jarvisart.site/

這篇論文最大的亮點是給大家介紹了一個智能修圖Agent：JarvisArt，它是一種由多模態大型語言模型（MLLM）驅動的智能照片修圖代理，旨在通過理解和模仿專業藝術家的推理過程，實現高質量的圖像編輯。個人認為這也是修圖行業的未來趨勢，未來的修圖將會是一個基于語音+文字交互的Agent，而這個論文將這個未來變得越來越近。

JarvisArt這個Agent可以實現什么功能？用戶如何使用？

答案很簡單，用戶輸入一張圖，然后輸入修圖的簡單描述prompt，JarvisArt會使用MLLM對prompt進行分析，比如調色分析，最終得出用戶輸入圖需要進行的調色步驟和指令，這些指令將包含lightroom的各項調色功能參數，將這些指令下發給Lightroom的200+工具，由工具執行對用戶原圖進行調色，最終得到調色效果圖；

項目界面如下圖所示：

創新點

這篇論文創新點總結：

多模態大語言模型驅動（MLLM-driven）：
1. 支持圖像 + 文本輸入；
2. 使用自然語言和區域框等多模態交互方式。
模仿專業修圖師的思維過程：
1. 采用 Chain-of-Thought（CoT）訓練模型先“思考”如何修圖，再給出參數操作。
與 Lightroom 集成：
1. 通過提出 Agent-to-Lightroom (A2L) Protocol，讓智能體能調用超過 200 項 Lightroom 操作指令，進行非破壞性編輯。

方案流程

JarvisArt 的總體流程可分為三大模塊 + 一條訓練主線：

1.多模態上下文理解（Multi-modal Context Understanding）

輸入：用戶圖像、自然語言指令、可選區域框或筆刷標記；
模型通過圖像 + 文本聯合理解，明確目標風格、區域及期望效果；
示例指令：“請使眼睛更亮，在框 <box>[x1,y1,x2,y2]</box> 內增強發質”。

2.策略推理與參數規劃（Strategic Reasoning）

使用 Chain-of-Thought 思維鏈結構：
- <think> 標簽內寫出模型的修圖思路，如先調色溫再調整曝光等；
生成的 reasoning 過程符合攝影美學和人類邏輯。

3.工具編排與操作執行（Tool Orchestration）

將上述思路轉化為 Lightroom 的操作指令：
- <answer> 標簽內為一組 Lightroom 參數配置（稱為 ROC 文件）；
- 支持多種類型的局部蒙版（徑向、線性、人物、顏色等）；
最終由 JarvisArt 調用 A2L 協議將參數發送給 Lightroom 實際執行。

算法層面上，JarvisArt實現了這樣一個函數：

兩階段訓練流程（核心算法機制）

Ⅰ. CoT SFT：鏈式思維的監督微調

基于人工構造的 CoT 注釋訓練模型建立初步的：
- 指令理解能力；
- 編輯邏輯；
- Lightroom 操作熟練度。

Ⅱ. GRPO-R：基于獎勵的強化優化策略

提出新的 Group Relative Policy Optimization for Retouching 方法，結合三類獎勵：
- 格式獎勵：結構化輸出格式是否規范；
- 參數匹配獎勵（ROA）：是否選對工具、設置合適參數；
- 感知質量獎勵（PQ）：編輯后圖片是否視覺美觀、保留內容。

MMArt-55K 數據集

論文研究團隊構建了MMArt-55K 數據集（5K標準 + 50K思維鏈樣本）。

數據生成管道如下圖所示：

圖像對和Lightroom配置生成：從PPR10K、Adobe Lightroom社區和授權的開源集合中獲取原始圖像Isrc，創建多樣化的全球和本地藝術預設庫。使用Qwen2.5-VL-72B進行多模態角色扮演和Grounding DINO進行精確區域定位，模擬專家級編輯，生成圖像對和Lightroom配置ROC文件。每個樣本數據表示為<Isrc,Itgt,Q,C,O>,其中Isrc表示原始圖像，Itgt表示目標圖像，Q是用戶指令，C是用標簽包裝的CoT推理，O是標簽內的修圖操作配置ROC文件，這些文件是lightroom可執行的操作文件；

該管道按以下步驟進行：1）策劃多樣化的源目標示例，涵蓋不同的場景和風格，以及相應的Lightroom配置；2）生成反映用戶意圖的自然語言指令；3）生成逐步的推理痕跡。

用戶指令生成：為了模擬多樣化的編輯意圖，使用Qwen2.5-VL-72B和一個角色扮演提示將每個<Isrc,Itgt,O>三元組轉換為場景級和區域級指令Q，覆蓋簡單的全局編輯和精確的局部調整。
推理過程生成：對于每個樣本四元組<Isrc,Itgt,Q,O>，應用QVQ-max的先進視覺推理生成初始CoT注釋。為了消除冗余并強制人類般的連貫性，隨后使用Qwen2.5-VL-72B通過迭代多模態提示細化這些痕跡，產生簡潔、上下文豐富的推理過程C。

上面就是這篇文章的介紹，目前代碼尚未開源，但論文為我們提供了一套可行的方案思路，修圖Agent是未來趨勢，以像素蛋糕為例，目前像素蛋糕的各項修圖功能已經基本完善，完全可以基于這些功能，構建數據集，進而構建自有的修圖Agent，屆時將會給修圖行業帶來新的用戶體驗！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/913034.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/913034.shtml
英文地址，請注明出處：http://en.pswp.cn/news/913034.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！