GPT-4o首次引入！全新圖像自動評估基準發布！

GPT-4o首次引入！全新圖像自動評估基準發布！

diannao/2025/8/31 15:32:19/文章來源:https://blog.csdn.net/ElevenSakura/article/details/140022857

目錄

01 什么是DreamBench++？

02 與人類對齊的自動化評估

03 更全面的個性化數據集

04 實驗結果

面對層出不窮的個性化圖像生成技術，一個新問題擺在眼前：缺乏統一標準來衡量這些生成的圖片是否符合人們的喜好。

對此，來自清華大學、西安交通大學、伊利諾伊大學厄巴納-香檳分校、中科院和曠視的研究人員共同推出了一項新基準——DreamBench++。

通過收集不同的圖像和提示，團隊利用GPT-4o實現了符合人類偏好的自動評估。

簡單來說，通過精心設計的提示詞以及引入思維鏈提示，團隊讓GPT-4o在圖像評估過程中學會了像人類一樣思考，并展現其思考過程。

沒體驗過OpenAI最新版GPT-4o？快戳最詳細升級教程，幾分鐘搞定：
升級ChatGPT-4o Turbo步驟https://www.zhihu.com/pin/1768399982598909952

為了測試效果，團隊以7名專業人類標注員的打分為基準，對7種不同的圖像生成方法進行了評估。結果顯示，DreamBench++與人類評價高度一致。

01 什么是DreamBench++？

DreamBench++是一個全新的評估工具，在個性化圖像評估領域實現了兩項關鍵技術突破：

引入支持多模態的GPT-4o，實現與人類偏好的深度對齊和自動化評估。
?
推出了一個更為全面和多元化的數據集。

02 與人類對齊的自動化評估

盡管GPT-4o支持多模態輸入，但在評估圖像中的細微差異時面臨挑戰。研究人員選擇直接打分而非對比，以避免不同方法生成的圖像順序影響結果，并減少標注時間。

為了確保評估的準確性和一致性，研究人員設計了包含以下要素的提示詞：

任務描述：明確評估的目標和要求。
?
評分標準解釋：詳細說明評估的依據。
?
評分范圍定義：設定評分的量化標準。
?
格式規范：確保評分的統一性和可比性。

評分規則涵蓋了形狀、顏色、紋理以及面部細節（特別針對人和動物），以全面評估圖像的個性化效果。

為了收集無偏的人類偏好數據，研究團隊招募了7名經過專業培訓的標注員。他們的標注結果被用作人類打分的基準，以確保評估結果的客觀性和可靠性。

03 更全面的個性化數據集

為了確保評估過程的公正性和無歧視性，DreamBench++的研究人員構建了一個新的個性化數據集。構建過程包括以下步驟：

獲取主題關鍵詞：團隊挑選并生成了一系列可用于個性化生成的主體名稱，如貓、鐘表、男人等，共200個關鍵詞，分為物體、活物和風格化圖片三種類型。
?
圖片收集：收集來源包括Unsplash、Rawpixel和Google Image Search。挑選背景干凈、主體占比大的圖片，以確保圖像的清晰度和識別度。
?
提示詞(prompt)生成：引導GPT-4o生成不同復雜程度的提示詞。這些提示詞的復雜性與生成任務的難度相對應。

04 實驗結果

在DreamBench++平臺上，研究團隊對7種不同的圖像生成方法進行了評估。這些方法涵蓋了基于訓練的、無需訓練的，以及基于多模態大語言模型（MLLM）的多種方案。

評估結果顯示：

在圖像相似性方面，DINO-I和CLIP-I（現有的圖像自動評估指標）的評分往往高于人類的評價。
?
在文本遵循方面，CLIP-T的評分則相對較低。
?
GPT-4o在這兩方面的評分均更接近人類的打分。

團隊推測上述結果背后的原因是，GPT-4o和人類評價者都會綜合考慮多個視覺元素，如形狀、輪廓、紋理，以及人或動物的面部細節等，最終給出一個綜合性的評分。

這種評價方式更符合人類的直覺和偏好，因為它不僅關注單一方面，而是全面地評估圖像的各個方面。

此外，團隊還對不同圖像生成方法在DreamBench++上的生成結果進行了可視化展示。

在評估圖像生成結果的保持主體情況時，DreamBench++與人類評估者達到了79.64%的一致性。

在遵循文本指令生成圖像的能力方面，DreamBench++的一致性高達93.18%。

從數據來看，DreamBench++的人類一致性比DINO score高出54.1%，比CLIP score高出50.7%。這也側面說明，通過設計提示詞，能夠讓GPT-4o較為準確地捕捉和反映人類的審美和偏好。

另外，DreamBench++的數據集多樣性更高，與DreamBench相比，finetune-based方法在DreamBench++上的表現會下降。

團隊推測這可能是因為他們在DreamBench上調整了參數，而DreamBench的種類并不全面。同時，Emu2在非自然或復雜圖像上的表現也會下降。

這些都說明DreamBench++更全面的數據集暴露了已有的個性化方法中的新問題。

如何使用WildCard正確方式打開GPT-4o，目前 WildCard 支持的服務非常齊全，可以說是應有盡有！

官網有更詳細介紹：WildCard

推薦閱讀：

DeepSeek-Coder-v2擊敗GPT-4 Turbo，成為競技場最強開源編碼模型！

超越GPT-4o！新王Claude 3.5 Sonnet來啦！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/37490.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/37490.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/37490.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

sql server啟動、連接與 navicat連接sql server

sql server啟動、連接與 navicat連接sql server

一、sql server 啟動 1.搜索cmd->以管理員身份運行 2.輸入以下命令 net start mssqlserver 3.服務器啟動成功二、sql server連接 1.打開ssms，輸入，連接 2.右鍵，屬性 3.連接，勾選允許遠程連接到此服務器三、navicat連接sq…

閱讀更多...

java:aocache的單實例緩存(二)

java:aocache的單實例緩存(二)

之前一篇博客《java:aocache的單實例緩存》介紹了aoocache使用注解AoCacheable實現單實例緩存的方式，同時也指出了這種方式的使用限制，就是這個注解定義的構造方法，不能再創建出新實例。為了更靈活方便的實現單實例。aocache最新版本0.4.0增…

閱讀更多...

人工智能筆記本選購標準

人工智能筆記本選購標準

適合人工智能專業使用的筆記本電腦需要有高性能的CPU、大內存、快速的硬盤、高性能的GPU、支持虛擬化等特性。一、硬件配置要求要選擇適合人工智能專業使用的筆記本電腦，配置是非常重要的考慮因素。首先，它需要有高性能的CPU，如i7或i9處理器…

閱讀更多...

nodejs--nodejs內置模塊（上）

nodejs--nodejs內置模塊（上）

05 【nodejs內置模塊（上）】 1.nodejs 的官方API文檔 Node.js 的API文檔（英文）： https://nodejs.org/docs/latest-v8.x/api/index.htmlNode.js 的API文檔（中文）：http://nodejs.cn/a…

閱讀更多...

Python實現無頭瀏覽器采集應用的反爬蟲與反檢測功能解析與應對策略

Python實現無頭瀏覽器采集應用的反爬蟲與反檢測功能解析與應對策略

Python實現無頭瀏覽器采集應用的反爬蟲與反檢測功能解析與應對策略隨著網絡數據的快速增長，爬蟲技術在數據采集、信息分析和業務發展中扮演著重要的角色。然而，隨之而來的反爬蟲技術也在不斷升級，給爬蟲應用的開發和維護帶來了挑戰。為了應…

閱讀更多...

iCloud Drive使用指南：如何在云端創建和管理文件夾與文件

iCloud Drive使用指南：如何在云端創建和管理文件夾與文件

iCloud Drive是蘋果公司提供的一項云存儲服務，它允許用戶在所有Apple設備上存儲文件和文檔，并實現無縫同步。通過iCloud Drive，用戶可以輕松創建、訪問、編輯和共享文件，無論身處何地。本文將詳細介紹如何在iCloud Drive中創建文件…

閱讀更多...

Python 學習路線及技巧

Python 學習路線及技巧

一、學習路線 1. 基礎階段 ● 學習 Python 的語法基礎，如變量、數據類型、運算符、控制流等。 ● 掌握常用的 Python 標準庫，如 os、sys、re、datetime 等。 ● 通過編寫簡單的程序來鞏固基礎，如計算器、字符串處理等。 2. 進階階段 ● 深入…

閱讀更多...

媒體宣發套餐的概述及推廣方法-華媒舍

媒體宣發套餐的概述及推廣方法-華媒舍

在今天的數字化時代，對于產品和服務的宣傳已經變得不可或缺。媒體宣發套餐作為一種高效的宣傳方式，在幫助企業塑造品牌形象、擴大影響力方面扮演著重要角色。本文將揭秘媒體宣發套餐，為您呈現一條通往成功的路。 1. 媒體宣發套餐的概述媒體…

閱讀更多...

MySQL中的存儲引擎

MySQL中的存儲引擎

介紹存儲引擎就是存儲數據，建立索引，更新/查詢數據等技術的實現方式。存儲引擎是基于表的，而不是基于庫的，所以存儲引擎也可以稱為表類型（即一個數據庫下的表可以選擇不同的存儲引擎）。 1. 如何查看一個…

閱讀更多...

day57---面試專題（框架篇）

day57---面試專題（框架篇）

框架篇 1. Spring refresh 流程要求掌握 refresh 的 12 個步驟Spring refresh 概述 refresh 是 AbstractApplicationContext 中的一個方法，負責初始化 ApplicationContext 容器，容器必須調用 refresh 才能正常工作。它的內部主要會調用 12 個方法，我們把它們稱為 refre…

閱讀更多...

收銀系統源碼-千呼新零售【手機端收銀】

收銀系統源碼-千呼新零售【手機端收銀】

千呼新零售2.0系統是零售行業連鎖店一體化收銀系統，包括線下收銀線上商城連鎖店管理ERP管理商品管理供應商管理會員營銷等功能為一體，線上線下數據全部打通。適用于商超、便利店、水果、生鮮、母嬰、服裝、零食、百貨、寵物等連鎖店使用。詳細介紹請…

閱讀更多...

zabbix報警機制

zabbix報警機制

zabbix思路流程

閱讀更多...

風風火火的新造車，或正在醞釀下一個樂視系，造車就是個大坑

風風火火的新造車，或正在醞釀下一個樂視系，造車就是個大坑

隨著國內新能源汽車占新車市場的比例突破五成，燃油車發起了猛烈的反擊，5月份燃油車猛烈反彈，前五名之中就有5款是燃油車，燃油車到了背水一戰的時候，隨著電動汽車和燃油車的較量達到白熱化，新造車被淘汰一部…

閱讀更多...

deepE 定位系統卡頓問題實戰(一) ----------- 鎖造成的阻塞問題

deepE 定位系統卡頓問題實戰(一) ----------- 鎖造成的阻塞問題

deepE介紹 deepE是一個開源的用于端側（自動駕駛車，機器人）等環境的系統問題與性能分析工具。基于ebpf功能實現 deepE項目地址歡迎star 測試程序 #include <iostream> #include <thread> #include <mutex>static std::mutex lock;void func1() {int l…

閱讀更多...

FastGPT本地手動部署（一）mongodb和pgvector的安裝

FastGPT本地手動部署（一）mongodb和pgvector的安裝

本文主要介紹 mongodb 和 pgvector 的安裝，為了更快安裝，通過 docker 的方式進行安裝，本文使用的環境是 ubuntu 20.04。一、安裝 docker 直接通過 apt 進行安裝，執行如下命令。 sudo apt install docker.io docker-compose 二、安裝 mongodb 和 pgvector （1）docker…

閱讀更多...

出現 nested exception is java.sql.SQLException: 無效的列類型的解決方法

出現 nested exception is java.sql.SQLException: 無效的列類型的解決方法

目錄前言1. 問題所示2. 原理分析3. 解決方法4. 彩蛋前言以下主要以mybatisPLus或者JDBC的方式進行插入，導致數據庫出現類型不一致如果是mybatis中的xml也差不多思路 1. 問題所示代碼與數據庫交互的時候，出現如下問題 org.springframework.jdbc.UncategorizedSQLExcep…

閱讀更多...

無視OpenAI限制：智創聚合API的穩定服務承諾

無視OpenAI限制：智創聚合API的穩定服務承諾

近期OpenAI的一則消息——終止對中國提供API服務，無疑給許多依賴其技術的企業和開發者帶來了不小的困擾。但別擔心，智創聚合API平臺始終在這里，為您提供穩定、可靠且經濟的AI服務。穩定服務，不受限制智創聚合API平臺的服務器設在…

閱讀更多...

kafka（一）原理（2）組件

kafka（一）原理（2）組件

一、broker 1、介紹 kafka服務器的官方名字，一個集群由多個broker組成，一個broker可以容納多個topic。 2、工作流程 3、重要參數參數名稱描述 replica.lag.time.max.ms ISR中，如果Follower長時間未向Leader發送通信請求或同步數據&a…

閱讀更多...

MessageBox的作用與用法

MessageBox的作用與用法

在C# （ Windows Forms ）中，MessageBox 的所有常用用法如下： 1. 顯示一個簡單的消息框 MessageBox.Show("這是一個簡單的消息框。");2. 顯示帶標題的消息框 MessageBox.Show("這是一個帶標題的消息框。", &…

閱讀更多...

脈沖同步器（快到慢）

脈沖同步器（快到慢）

目錄描述輸入描述： 輸出描述： 參考代碼描述 sig_a 是 clka（300M）時鐘域的一個單時鐘脈沖信號（高電平持續一個時鐘clka周期），請設計脈沖同步電路，將sig_a信號同步到時鐘域 cl…

閱讀更多...

最新文章