影樓精修-智能修圖Agent

今天給大家介紹一篇令人驚喜的論文《JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent》

論文地址:https://arxiv.org/pdf/2506.17612

Code(暫無代碼):https://github.com/LYL1015/JarvisArt

項目主頁:https://jarvisart.vercel.app/

國內主頁:https://www.jarvisart.site/

這篇論文最大的亮點是給大家介紹了一個智能修圖Agent:JarvisArt,它是一種由多模態大型語言模型(MLLM)驅動的智能照片修圖代理,旨在通過理解和模仿專業藝術家的推理過程,實現高質量的圖像編輯。個人認為這也是修圖行業的未來趨勢,未來的修圖將會是一個基于語音+文字交互的Agent,而這個論文將這個未來變得越來越近。

JarvisArt這個Agent可以實現什么功能?用戶如何使用?

答案很簡單,用戶輸入一張圖,然后輸入修圖的簡單描述prompt,JarvisArt會使用MLLM對prompt進行分析,比如調色分析,最終得出用戶輸入圖需要進行的調色步驟和指令,這些指令將包含lightroom的各項調色功能參數,將這些指令下發給Lightroom的200+工具,由工具執行對用戶原圖進行調色,最終得到調色效果圖;

項目界面如下圖所示:

創新點

這篇論文創新點總結:

  1. 多模態大語言模型驅動(MLLM-driven)

    1. 支持圖像 + 文本輸入;

    2. 使用自然語言和區域框等多模態交互方式。

  2. 模仿專業修圖師的思維過程

    1. 采用 Chain-of-Thought(CoT)訓練模型先“思考”如何修圖,再給出參數操作。

  3. 與 Lightroom 集成

    1. 通過提出 Agent-to-Lightroom (A2L) Protocol,讓智能體能調用超過 200 項 Lightroom 操作指令,進行非破壞性編輯。

方案流程

JarvisArt 的總體流程可分為三大模塊 + 一條訓練主線:

1.多模態上下文理解(Multi-modal Context Understanding)

  • 輸入:用戶圖像、自然語言指令、可選區域框或筆刷標記;

  • 模型通過圖像 + 文本聯合理解,明確目標風格、區域及期望效果;

  • 示例指令:“請使眼睛更亮,在框 <box>[x1,y1,x2,y2]</box> 內增強發質”

2.策略推理與參數規劃(Strategic Reasoning)

  • 使用 Chain-of-Thought 思維鏈結構

    • <think> 標簽內寫出模型的修圖思路,如先調色溫再調整曝光等;

  • 生成的 reasoning 過程符合攝影美學和人類邏輯。

3.工具編排與操作執行(Tool Orchestration)

  • 將上述思路轉化為 Lightroom 的操作指令:

    • <answer> 標簽內為一組 Lightroom 參數配置(稱為 ROC 文件);

    • 支持多種類型的局部蒙版(徑向、線性、人物、顏色等);

  • 最終由 JarvisArt 調用 A2L 協議將參數發送給 Lightroom 實際執行。

算法層面上,JarvisArt實現了這樣一個函數:

兩階段訓練流程(核心算法機制)

Ⅰ. CoT SFT:鏈式思維的監督微調
  • 基于人工構造的 CoT 注釋訓練模型建立初步的:

    • 指令理解能力;

    • 編輯邏輯;

    • Lightroom 操作熟練度。

Ⅱ. GRPO-R:基于獎勵的強化優化策略
  • 提出新的 Group Relative Policy Optimization for Retouching 方法,結合三類獎勵:

    • 格式獎勵:結構化輸出格式是否規范;

    • 參數匹配獎勵(ROA):是否選對工具、設置合適參數;

    • 感知質量獎勵(PQ):編輯后圖片是否視覺美觀、保留內容。

MMArt-55K 數據集

論文研究團隊構建了MMArt-55K 數據集(5K標準 + 50K思維鏈樣本)。

數據生成管道如下圖所示:

  • 圖像對和Lightroom配置生成:從PPR10K、Adobe Lightroom社區和授權的開源集合中獲取原始圖像Isrc,創建多樣化的全球和本地藝術預設庫。使用Qwen2.5-VL-72B進行多模態角色扮演和Grounding DINO進行精確區域定位,模擬專家級編輯,生成圖像對和Lightroom配置ROC文件。每個樣本數據表示為<Isrc,Itgt,Q,C,O>,其中Isrc表示原始圖像,Itgt表示目標圖像,Q是用戶指令,C是用標簽包裝的CoT推理,O是標簽內的修圖操作配置ROC文件,這些文件是lightroom可執行的操作文件;

該管道按以下步驟進行:1)策劃多樣化的源目標示例,涵蓋不同的場景和風格,以及相應的Lightroom配置;2)生成反映用戶意圖的自然語言指令;3)生成逐步的推理痕跡。

  • 用戶指令生成:為了模擬多樣化的編輯意圖,使用Qwen2.5-VL-72B和一個角色扮演提示將每個<Isrc,Itgt,O>三元組轉換為場景級和區域級指令Q,覆蓋簡單的全局編輯和精確的局部調整。

  • 推理過程生成:對于每個樣本四元組<Isrc,Itgt,Q,O>,應用QVQ-max的先進視覺推理生成初始CoT注釋。為了消除冗余并強制人類般的連貫性,隨后使用Qwen2.5-VL-72B通過迭代多模態提示細化這些痕跡,產生簡潔、上下文豐富的推理過程C。

上面就是這篇文章的介紹,目前代碼尚未開源,但論文為我們提供了一套可行的方案思路,修圖Agent是未來趨勢,以像素蛋糕為例,目前像素蛋糕的各項修圖功能已經基本完善,完全可以基于這些功能,構建數據集,進而構建自有的修圖Agent,屆時將會給修圖行業帶來新的用戶體驗!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/913034.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/913034.shtml
英文地址,請注明出處:http://en.pswp.cn/news/913034.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

帕金森與健康人相關數據和處理方法(一些文獻的記錄)

主要的帕金森腦電數據進行一些分類分析的文章。 帕金森病 2004 年至 2023 年腦電圖研究的文獻計量分析對于研究的分析以及關鍵研究和趨勢從腦電圖信號中檢測帕金森病&#xff0c;采用離散小波變換、不同熵度量和機器學習技術使用機器學習和深度學習方法分析不同模態的數據以診…

優象光流模塊,基于python的數據讀取demo

優象光流模塊&#xff0c;型號UP-FLOW-LC-302-3C&#xff0c;準備將其應用于設備的運行速度測量&#xff0c;物美價廉。 廠家提供的數據格式表&#xff1a; 實測用python的serial包readline()函數讀取到的幀數據&#xff1a; 與官方的給定略有出入&#xff0c;不過主要字節的順…

模型部署與推理--利用libtorch模型部署與推理

文章目錄 1從pytorch導出pt文件2下載并配置libtorch3推理4結果&#xff1a;時間對比&#xff1a;推理結果&#xff1a; 參考 以deeplabv3plus為例講解怎么利用libtorch部署在c上模型。關于libtorch和pt文件請參考我之前的博客。 1從pytorch導出pt文件 if __name__ __main__: …

芯得EP.21丨基于極海APM32F4的TencentOS Tiny實時操作系統移植詳解

《APM32芯得》系列內容為用戶使用APM32系列產品的經驗總結&#xff0c;均轉載自21ic論壇極海半導體專區&#xff0c;全文未作任何修改&#xff0c;未經原文作者授權禁止轉載。 如遇技術問題&#xff0c;可前往 極海半導體開發者論壇 1 前言 最近在了解TencentOS的特性&#xf…

【Docker基礎】Docker數據持久化與卷(Volume)介紹

目錄 1 Docker數據持久化概述 1.1 為什么需要數據持久化 1.2 Docker數據管理方式對比 2 Docker卷(Volume)核心概念 2.1 數據卷基本特性 2.2 卷類型詳解 2.2.1 命名卷(Named Volumes) 2.2.2 匿名卷(Anonymous Volumes) 2.2.3 主機綁定卷(Host Volumes) 3 數據卷操作全…

yolo8,10,11之處理不平衡類別問題

一、前言 使用 yolo11進行目標檢測時&#xff0c;發現訓練數據集存在類別數量不平衡的情況&#xff0c;查閱了一下資料&#xff0c;可采取以下方法。 二、樣本增強 少數類的框是獨立存在于圖片中&#xff0c;則可通過顏色、亮度、幾何變換等方法人為增加少數類的樣本數&#x…

基于 51 單片機做的二十四點小游戲

用 51 單片機做的二十四點小游戲 一、任務要求 設計一個模擬紙牌 24 點玩法的單片機模擬器&#xff0c;由單片機隨機發出四個牌點&#xff0c;測試者在實驗板按鍵上輸入計算過程&#xff0c;單片機判斷計算結果是否正確&#xff0c;并評定測試者的成績。 【基本要求】&#…

Hadoop WordCount 程序實現與執行指南

Hadoop WordCount 程序實現與執行指南 下面是使用Python實現的Hadoop WordCount程序,包含完整的Mapper和Reducer部分。 這個程序可以在PyCharm中本地測試,也可以部署到遠程Hadoop集群上運行。 mapper.py import sys# 從標準輸入讀取數據 for line in sys.stdin:# 移除行首…

數據可視化:5 分鐘讀懂其核心價值與技術實踐

為什么數據可視化成為企業數字化轉型的“必修課”&#xff1f;在信息爆炸的時代&#xff0c;企業每天產生海量數據&#xff0c;從客戶行為到銷售業績&#xff0c;從供應鏈運作到市場趨勢。如何從這些原始數據中快速提煉有價值的信息&#xff1f;如何將復雜數據轉化為直觀易懂的…

Python 量化交易安裝使用教程

一、什么是量化交易&#xff1f; 量化交易是通過數學模型和計算機程序&#xff0c;自動化地執行證券買賣決策的交易方式。Python 憑借其豐富的生態和強大的數據處理能力&#xff0c;成為量化交易的首選語言。 二、環境準備 建議使用 Anaconda 安裝 Python 3.8&#xff0c;方便…

從 PostgreSQL 到 DolphinDB:數據實時同步一站式解決方案

隨著越來越多的用戶使用 DolphinDB&#xff0c;各種不同的應用的場景也對 DolphinDB 的數據接入提出了不同的要求。部分用戶需要將 PostgreSQL 的數據實時同步到 DolphinDB 中來&#xff0c;以滿足在 DolphinDB 中使用數據的實時性需求。本篇教程將介紹使用 Debezium 來實時捕獲…

關于聯詠(Novatek )白平衡色溫坐標系探究

目錄 一、疑問 二、結論 三、分析 四、釋疑 五、仿真模擬 一、疑問 為什么Novatek的白平衡色溫坐標系是這個樣子的呢?各條直線和曲線分別代表什么含義呢?色溫坐標系中所標定的參數代表什么含義呢?如何標定新增一些特殊的光源呢?二、結論

Protein FID:AI蛋白質結構生成模型評估新指標

一、引言&#xff1a;蛋白質生成模型面臨的評估挑戰 近年來&#xff0c;AI驅動的蛋白質結構生成模型取得了令人矚目的進展&#xff0c;但如何有效評估這些模型的質量卻一直是一個懸而未決的問題。雖然實驗驗證仍然是金標準&#xff0c;但計算機模擬評估對于快速開發和比較機器…

Vim 高效編輯指南:從基礎操作到塊編輯的進階之路

文章目錄?? 一、基礎編輯命令(生存必備)? 二、進階操作:可視化塊模式 (Ctrl+v)典型應用場景?? 三、效率提升技巧?? 四、配置建議(~/.vimrc)結語作為開發者最強大的文本編輯器之一,Vim 的高效操作離不開其命令模式(Normal Mode)。本文將系統性地介紹 Vim 的核心編…

docker學習第一天框架學習以及在redhat7.9安裝操作

一.docker是什么。 Docker 是一個開源的容器化平臺&#xff0c;通過將應用程序及其依賴項&#xff08;如代碼、運行時環境、系統工具等&#xff09;打包到輕量級、可移植的容器中&#xff0c;實現「一次構建&#xff0c;處處運行」的現代化開發模式。它利用了 Linux 內核特性來…

QT控件 使用Font Awesome開源圖標庫修改QWidget和QML兩種界面框架的控件圖標

又一個月快要結束了&#xff0c;在這里總結下分別在QWidget和QML兩種界面設計模式中應用Font Awesome開源圖標庫&#xff0c;修改界面的顯示圖標效果&#xff0c; AriaNg是aria2的可視化web界面工具,其中的圖標大都是Font AWesome中的字體圖標&#xff0c;某位曾經嘗試將AriaNg…

Qt Quick 與 QML(四)qml中的Delegate系列委托組件

一、概念 在QML中&#xff0c;Delegate是一種非常重要的組件&#xff0c;特別是在使用ListView、GridView、PathView等視圖組件時。Delegate用于定義每個列表或網格中的項目是如何展示的。通過自定義Delegate&#xff0c;你可以控制每個項目的外觀和行為。 Delegate通常是一個…

android圖片優化

在 Android 中加載大圖時&#xff0c;如果不進行優化處理&#xff0c;很容易導致內存溢出&#xff08;OOM&#xff09;和應用卡頓。以下是幾種高效處理大圖加載的方法和最佳實踐&#xff1a; 1. 使用圖片加載庫&#xff08;推薦&#xff09; 成熟的第三方庫已經處理了內存管理…

【機器人】復現 DOV-SG 機器人導航 | 動態開放詞匯 | 3D 場景圖

DOV-SG 建了動態 3D 場景圖&#xff0c;并使用LLM大型語言模型進行任務分解&#xff0c;從而能夠在交互式探索過程中對 3D 場景圖進行局部更新。 來自RA-L 2025&#xff0c;適合長時間的 語言引導移動操作&#xff0c;動態開放詞匯 3D 場景圖。 論文地址&#xff1a;Dynamic …

mongodb 中dbs 時,local代表的是什么

在 MongoDB 中&#xff0c;local 是一個內置的系統數據庫&#xff0c;用于存儲當前 MongoDB 實例&#xff08;或副本集節點&#xff09;的元數據和內部數據&#xff0c;與其他數據庫不同&#xff0c;local 數據庫的數據不會被復制到副本集的其他成員。 local 數據庫的核心作用 …