GPT-4o首次引入!全新圖像自動評估基準發布!

目錄

01 什么是DreamBench++?

02 與人類對齊的自動化評估

03 更全面的個性化數據集

04 實驗結果


面對層出不窮的個性化圖像生成技術,一個新問題擺在眼前:缺乏統一標準來衡量這些生成的圖片是否符合人們的喜好。

對此,來自清華大學、西安交通大學、伊利諾伊大學厄巴納-香檳分校、中科院和曠視的研究人員共同推出了一項新基準——DreamBench++。

通過收集不同的圖像和提示,團隊利用GPT-4o實現了符合人類偏好的自動評估。

簡單來說,通過精心設計的提示詞以及引入思維鏈提示,團隊讓GPT-4o在圖像評估過程中學會了像人類一樣思考,并展現其思考過程。

沒體驗過OpenAI最新版GPT-4o?快戳最詳細升級教程,幾分鐘搞定:
升級ChatGPT-4o Turbo步驟icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

為了測試效果,團隊以7名專業人類標注員的打分為基準,對7種不同的圖像生成方法進行了評估。結果顯示,DreamBench++與人類評價高度一致。

01 什么是DreamBench++?

DreamBench++是一個全新的評估工具,在個性化圖像評估領域實現了兩項關鍵技術突破:

  1. 引入支持多模態的GPT-4o,實現與人類偏好的深度對齊和自動化評估。
    ?
  2. 推出了一個更為全面和多元化的數據集。

02 與人類對齊的自動化評估

盡管GPT-4o支持多模態輸入,但在評估圖像中的細微差異時面臨挑戰。研究人員選擇直接打分而非對比,以避免不同方法生成的圖像順序影響結果,并減少標注時間。

為了確保評估的準確性和一致性,研究人員設計了包含以下要素的提示詞:

  • 任務描述:明確評估的目標和要求。
    ?
  • 評分標準解釋:詳細說明評估的依據。
    ?
  • 評分范圍定義:設定評分的量化標準。
    ?
  • 格式規范:確保評分的統一性和可比性。

評分規則涵蓋了形狀、顏色、紋理以及面部細節(特別針對人和動物),以全面評估圖像的個性化效果。

為了收集無偏的人類偏好數據,研究團隊招募了7名經過專業培訓的標注員。他們的標注結果被用作人類打分的基準,以確保評估結果的客觀性和可靠性。

03 更全面的個性化數據集

為了確保評估過程的公正性和無歧視性,DreamBench++的研究人員構建了一個新的個性化數據集。構建過程包括以下步驟:

  • 獲取主題關鍵詞:團隊挑選并生成了一系列可用于個性化生成的主體名稱,如貓、鐘表、男人等,共200個關鍵詞,分為物體、活物和風格化圖片三種類型。
    ?
  • 圖片收集:收集來源包括Unsplash、Rawpixel和Google Image Search。挑選背景干凈、主體占比大的圖片,以確保圖像的清晰度和識別度。
    ?
  • 提示詞(prompt)生成:引導GPT-4o生成不同復雜程度的提示詞。這些提示詞的復雜性與生成任務的難度相對應。

04 實驗結果

在DreamBench++平臺上,研究團隊對7種不同的圖像生成方法進行了評估。這些方法涵蓋了基于訓練的、無需訓練的,以及基于多模態大語言模型(MLLM)的多種方案。

評估結果顯示:

  • 在圖像相似性方面,DINO-I和CLIP-I(現有的圖像自動評估指標)的評分往往高于人類的評價。
    ?
  • 在文本遵循方面,CLIP-T的評分則相對較低。
    ?
  • GPT-4o在這兩方面的評分均更接近人類的打分。

團隊推測上述結果背后的原因是,GPT-4o和人類評價者都會綜合考慮多個視覺元素,如形狀、輪廓、紋理,以及人或動物的面部細節等,最終給出一個綜合性的評分。

這種評價方式更符合人類的直覺和偏好,因為它不僅關注單一方面,而是全面地評估圖像的各個方面。

此外,團隊還對不同圖像生成方法在DreamBench++上的生成結果進行了可視化展示。

在評估圖像生成結果的保持主體情況時,DreamBench++與人類評估者達到了79.64%的一致性。


在遵循文本指令生成圖像的能力方面,DreamBench++的一致性高達93.18%。

從數據來看,DreamBench++的人類一致性比DINO score高出54.1%,比CLIP score高出50.7%。這也側面說明,通過設計提示詞,能夠讓GPT-4o較為準確地捕捉和反映人類的審美和偏好。

另外,DreamBench++的數據集多樣性更高,與DreamBench相比,finetune-based方法在DreamBench++上的表現會下降。

團隊推測這可能是因為他們在DreamBench上調整了參數,而DreamBench的種類并不全面。同時,Emu2在非自然或復雜圖像上的表現也會下降。

這些都說明DreamBench++更全面的數據集暴露了已有的個性化方法中的新問題。


如何使用WildCard正確方式打開GPT-4o,目前 WildCard 支持的服務非常齊全,可以說是應有盡有!

官網有更詳細介紹:WildCard


推薦閱讀:

DeepSeek-Coder-v2擊敗GPT-4 Turbo,成為競技場最強開源編碼模型!


超越GPT-4o!新王Claude 3.5 Sonnet來啦!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/37490.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/37490.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/37490.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

sql server啟動、連接 與 navicat連接sql server

一、sql server 啟動 1.搜索cmd->以管理員身份運行 2.輸入以下命令 net start mssqlserver 3.服務器啟動成功 二、sql server連接 1.打開ssms,輸入,連接 2.右鍵,屬性 3.連接,勾選允許遠程連接到此服務器 三、navicat連接sq…

java:aocache的單實例緩存(二)

之前一篇博客《java:aocache的單實例緩存》介紹了aoocache使用注解AoCacheable實現單實例緩存的方式,同時也指出了這種方式的使用限制,就是這個注解定義的構造方法,不能再創建出新實例。 為了更靈活方便的實現單實例。aocache最新版本0.4.0增…

人工智能筆記本選購標準

適合人工智能專業使用的筆記本電腦需要有高性能的CPU、大內存、快速的硬盤、高性能的GPU、支持虛擬化等特性。 一、硬件配置要求 要選擇適合人工智能專業使用的筆記本電腦,配置是非常重要的考慮因素。首先,它需要有高性能的CPU,如i7或i9處理器…

nodejs--nodejs內置模塊(上)

05 【nodejs內置模塊(上)】 1.nodejs 的官方API文檔 Node.js 的API文檔(英文): https://nodejs.org/docs/latest-v8.x/api/index.htmlNode.js 的API文檔(中文):http://nodejs.cn/a…

Python實現無頭瀏覽器采集應用的反爬蟲與反檢測功能解析與應對策略

Python實現無頭瀏覽器采集應用的反爬蟲與反檢測功能解析與應對策略 隨著網絡數據的快速增長,爬蟲技術在數據采集、信息分析和業務發展中扮演著重要的角色。然而,隨之而來的反爬蟲技術也在不斷升級,給爬蟲應用的開發和維護帶來了挑戰。為了應…

iCloud Drive使用指南:如何在云端創建和管理文件夾與文件

iCloud Drive是蘋果公司提供的一項云存儲服務,它允許用戶在所有Apple設備上存儲文件和文檔,并實現無縫同步。通過iCloud Drive,用戶可以輕松創建、訪問、編輯和共享文件,無論身處何地。本文將詳細介紹如何在iCloud Drive中創建文件…

Python 學習路線及技巧

一、學習路線 1. 基礎階段 ● 學習 Python 的語法基礎,如變量、數據類型、運算符、控制流等。 ● 掌握常用的 Python 標準庫,如 os、sys、re、datetime 等。 ● 通過編寫簡單的程序來鞏固基礎,如計算器、字符串處理等。 2. 進階階段 ● 深入…

媒體宣發套餐的概述及推廣方法-華媒舍

在今天的數字化時代,對于產品和服務的宣傳已經變得不可或缺。媒體宣發套餐作為一種高效的宣傳方式,在幫助企業塑造品牌形象、擴大影響力方面扮演著重要角色。本文將揭秘媒體宣發套餐,為您呈現一條通往成功的路。 1. 媒體宣發套餐的概述 媒體…

MySQL中的存儲引擎

介紹 存儲引擎就是存儲數據,建立索引,更新/查詢數據等技術的實現方式。存儲引擎是基于表的,而不是基于庫的,所以存儲引擎也可以稱為表類型(即一個數據庫下的表可以選擇不同的存儲引擎)。 1. 如何查看一個…

day57---面試專題(框架篇)

框架篇 1. Spring refresh 流程 要求 掌握 refresh 的 12 個步驟Spring refresh 概述 refresh 是 AbstractApplicationContext 中的一個方法,負責初始化 ApplicationContext 容器,容器必須調用 refresh 才能正常工作。它的內部主要會調用 12 個方法,我們把它們稱為 refre…

收銀系統源碼-千呼新零售【手機端收銀】

千呼新零售2.0系統是零售行業連鎖店一體化收銀系統,包括線下收銀線上商城連鎖店管理ERP管理商品管理供應商管理會員營銷等功能為一體,線上線下數據全部打通。 適用于商超、便利店、水果、生鮮、母嬰、服裝、零食、百貨、寵物等連鎖店使用。 詳細介紹請…

風風火火的新造車,或正在醞釀下一個樂視系,造車就是個大坑

隨著國內新能源汽車占新車市場的比例突破五成,燃油車發起了猛烈的反擊,5月份燃油車猛烈反彈,前五名之中就有5款是燃油車,燃油車到了背水一戰的時候,隨著電動汽車和燃油車的較量達到白熱化,新造車被淘汰一部…

deepE 定位系統卡頓問題實戰(一) ----------- 鎖造成的阻塞問題

deepE介紹 deepE是一個開源的用于端側(自動駕駛車,機器人)等環境的系統問題與性能分析工具。基于ebpf功能實現 deepE項目地址 歡迎star 測試程序 #include <iostream> #include <thread> #include <mutex>static std::mutex lock;void func1() {int l…

FastGPT本地手動部署(一)mongodb和pgvector的安裝

本文主要介紹 mongodb 和 pgvector 的安裝,為了更快安裝,通過 docker 的方式進行安裝,本文使用的環境是 ubuntu 20.04。 一、安裝 docker 直接通過 apt 進行安裝,執行如下命令。 sudo apt install docker.io docker-compose 二、安裝 mongodb 和 pgvector (1)docker…

出現 nested exception is java.sql.SQLException: 無效的列類型 的解決方法

目錄 前言1. 問題所示2. 原理分析3. 解決方法4. 彩蛋前言 以下主要以mybatisPLus或者JDBC的方式進行插入,導致數據庫出現類型不一致 如果是mybatis中的xml也差不多思路 1. 問題所示 代碼與數據庫交互的時候,出現如下問題 org.springframework.jdbc.UncategorizedSQLExcep…

無視OpenAI限制:智創聚合API的穩定服務承諾

近期OpenAI的一則消息——終止對中國提供API服務&#xff0c;無疑給許多依賴其技術的企業和開發者帶來了不小的困擾。但別擔心&#xff0c;智創聚合API平臺始終在這里&#xff0c;為您提供穩定、可靠且經濟的AI服務。 穩定服務&#xff0c;不受限制 智創聚合API平臺的服務器設在…

kafka(一)原理(2)組件

一、broker 1、介紹 kafka服務器的官方名字&#xff0c;一個集群由多個broker組成&#xff0c;一個broker可以容納多個topic。 2、工作流程 3、重要參數 參數名稱 描述 replica.lag.time.max.ms ISR中&#xff0c;如果Follower長時間未向Leader發送通信請求或同步數據&a…

MessageBox的作用與用法

在C# &#xff08; Windows Forms &#xff09;中&#xff0c;MessageBox 的所有常用用法如下&#xff1a; 1. 顯示一個簡單的消息框 MessageBox.Show("這是一個簡單的消息框。");2. 顯示帶標題的消息框 MessageBox.Show("這是一個帶標題的消息框。", &…

脈沖同步器(快到慢)

目錄 描述 輸入描述&#xff1a; 輸出描述&#xff1a; 參考代碼 描述 sig_a 是 clka&#xff08;300M&#xff09;時鐘域的一個單時鐘脈沖信號&#xff08;高電平持續一個時鐘clka周期&#xff09;&#xff0c;請設計脈沖同步電路&#xff0c;將sig_a信號同步到時鐘域 cl…