谷歌Gemini剛發就惹質疑：測試標準有失偏頗，效果視頻疑似剪輯

谷歌Gemini剛發就惹質疑：測試標準有失偏頗，效果視頻疑似剪輯

news/2025/9/15 17:57:59/文章來源:https://blog.csdn.net/xianyu624/article/details/134885077

夢晨克雷西發自凹非寺
量子位?| 公眾號 QbitAI

谷歌憋了許久的大招，雙子座Gemini大模型終于發布！其中一圖一視頻最引人注目：

一圖，MMLU多任務語言理解數據集測試，Gemini Ultra不光超越GPT-4，甚至超越了人類專家。

一視頻，AI實時對人類的涂鴉和手勢動作給出評論和吐槽，流暢還很幽默，最接近賈維斯的一集。04:03

然鵝當大家從驚喜中冷靜下來，仔細閱讀隨之發布的60頁技術報告時，卻發現不妥之處。

（沒錯，沒有論文，OpenAICloseAI你開了個什么壞頭啊）

MMLU測試中，Gemini結果下面灰色小字標稱CoT@32，展開來代表使用了思維鏈提示技巧、嘗試了32次選最好結果。

而作為對比的GPT-4，卻是無提示詞技巧給5個示例，這個標準下Gemini Ultra其實并不如GPT-4。

以及原圖比例尺也有點不厚道了，90.0%與人類基準89.8%明明只差一點，y軸上卻拉開很遠。

HuggingFace技術主管Philipp Schmid用技術報告中披露的數據修復了這張圖，這樣展示更公平恰當：

每到這種時候，總少不了做表情包的老哥飛速趕到戰場：

但好在，同樣使用思維鏈提示技巧+32次嘗試的標準時，Gemini Ultra還是確實超越了GPT-4的。

Jeff Dean在一處討論中對這個質疑有所回應，不過大家并不買賬。

另外，對于那段精彩視頻，也有人從開篇的文字免責聲明中發現了問題。

機器學習講師Santiago Valdarrama認為聲明可能暗示了展示的是精心挑選的好結果，而且不是實時錄制而是剪輯的。

后來谷歌在一篇博客文章中解釋了多模態交互過程，幾乎承認了使用靜態圖片和多段提示詞拼湊，才能達成這樣的效果。

但不管怎么樣，谷歌Gemini的發布還是給了其他團隊很大信心，GPT-4從此不再是獨一無二、難以企及的存在了。

正如AI搜索產品PerplexityAI創始人Aravind Srinivas總結：

1、Gemini證明了OpenAI之外的團隊可以搞出超越GPT-4的模型

2、訓練到位的密集模型可以超越GPT-4的稀疏模型架構

推論：從大教師模型蒸餾小尺寸密集模型會成為未來趨勢，實現效率和能力的最佳結合。

更多網友關心的話題是，這下子還有必要繼續為ChatGPT Plus付費每月20美元嗎？？

目前，Gemini Pro版本已更新到谷歌聊天機器人Bard中，水平到底有沒有宣傳的好，可以看看實際情況。

Gemini真的超越ChatGPT？

首先明確一點，目前大家能上手玩到的是Gemini Pro版本，也就是中杯，對標GPT-3.5。

對標GPT-4的大杯Gemini Ultra，要明年才出。

另外目前Gemini僅支持英文，中文和其他語言也是后面才會出。

雖然暫時玩不到Gemini Ultra，威斯康星大學麥迪遜分校的副教授Dimitris Papailiopoulos找了個好辦法：

把Gemini發布時展示的原題發給GPT-4對比，結果14道題中，GPT-4約獲得12分。

其中有兩題由于截圖沒法再清晰了，給GPT-4算0.5分。

還有一道數學題GPT-4做錯，其他題基本平手。

接下來，要說最能體現一個大模型綜合能力的，肯定少不了寫代碼。

根據大家的測試結果來看，Gemini編程水平還是有保證的。

有開發者測試用Pytorch實現一個簡單的CNN網絡，Gemini只用了2秒而且代碼質量更高。

當然速度快可能是由于Bard搭載的Gemini Pro尺寸更小，GPT-4現在有多慢懂得都懂了。

但是下一項編寫SQL語句方面，這位開發者就認為Gemini表現就不太行了。

不過對于廣大開發者來說還有一個利好消息，在遵循指令方面，Gemini對比Bard升級之前可謂是史詩級進步。

提示工程師先驅Riley Goodside，此前想要Bard輸出純JSON格式前后不帶任何廢話，百般嘗試也不成功，最后需要假裝威脅AI不這么做就鯊個無辜的人才行。

現在更新以后，只需要把要求說出來，無需任何提示詞技巧就能完成了。

Gemini還有一大賣點是多模態能力，針對開頭畫小鴨子的視頻，我們從中抽取了8個關鍵幀，分別進行提問，看看Gemini的表現有沒有那么神奇。

（不確定視頻中是Ultra還是Pro版本，現在只能測試Pro版本）

對于圖1-4，我們問的問題都是“What is this person doing?”，Gemini給出的回答分別是：

可能在用馬克筆寫字，但不知道具體是什么
在用鉛筆畫蛇，而且是一條眼鏡蛇
在用鉛筆畫烏龜，而且正處于畫畫的初期階段
在用黑色馬克筆畫鳥，臉朝左，頭朝右，站在樹枝上，翅膀沒有展開

對于圖1和圖2，的確判斷線索還不是很明顯，出現這樣的結果情有可原，不過圖3這個“烏龜”的答案就有些繃不住了。

至于圖4，至少可以肯定的是鴨子的確屬于鳥類，但是其它細節分析得還是欠缺了一些準確性。

而當我們拿出圖5的成型作品時，Gemini終于分析出了這是一只鴨子，水波紋也分析對了。

但分析出的繪畫工具變成了鉛筆，頭的朝向問題也依然沒說對，喙被說成了張開的，還臆想出了一些蘆葦。

接下來是圖6和圖7的上色過程，一般情況下鴨子不會是藍色，所以我們問了Gemini圖片中有什么異常（Is there anything abnormal?）。

針對圖6，Gemini給出的回答不能說十分精準，只能說是驢唇不對馬嘴，還配上了一張風馬牛不相及的圖片。

針對圖7的成品，Gemini直接說沒毛病，該有的東西都有，背景也很真實，甚至沒忘繼續提根本不知道哪里來的蘆葦。

但下面的一句“Here is the image you sent”就屬實令人費解了：

說Gemini沒看我們上傳的圖吧，讀出來的又的確是鴨子；說它看了吧，又給出了完全不同的一張的圖說是我們傳上去的。

所以我們想到了用“深呼吸”和“一步一步解決”提示詞技巧看看能不能提高一下Gemini的表現，其中深呼吸正是適用于谷歌上一代大模型PaLM的提示詞。

結果這次的答案直接讓人笑出了聲：

不正常的是，鴨子被畫到了紙上，鴨子是一種活的生物，在紙上是無法存在的……

視頻的結尾，博主還拿出了橡膠鴨子玩具，我們也拿這一幀（圖8）讓Gemini分析一下鴨子的材質。

結果橡膠倒是分析對了，但是藍色的鴨子被說成了黃色，難怪上一張圖會說沒有異常……

逐幀詢問完成后，我們又把8張圖放在一起詢問，結果也是只有鴨子說對了。

“打假”完這段視頻后，我們又用之前拿來考察GPT-4V的“吉娃娃和松餅”圖給Gemini試了試。

結果Gemin直接擺爛，告訴我們所有的圖都是“吉娃娃坐在松餅上”，甚至連圖的數量都沒數對……

于是我們換了種問法，讓它告訴我們哪些是吉娃娃，哪些是松餅。

這次Gemini倒是誠實的很，直接告訴我們吉娃娃和松餅實在太像了自己區分不出來。

和藍色鴨子的問題一樣，“深呼吸”在這里依然是沒起到什么作用，Gemini還是連數量都搞不清楚。

而勉強解說了的8個（實際上是6個，因為有兩個是重復的）圖，只有左下和右下兩張圖是對的，至于middle指的到底是哪一行，我們不得而知……

或許是這樣細小的差別實在是難為Gemini了，我們接下來換一些圖形推理題試試。

第一題的前四個符號是由1-4這四個數字與鏡像后的結果拼接而成，所以下一個圖應該是5與其鏡像拼接，答案是C。（藍色塊是為了方便觀察，傳給Gemini的圖中沒有）

這里一開始還出現了一段小插曲：最開始的提示詞中是沒有最后一句話（注意字母不是符號本身）的，結果Gemini真的就把ABCD這四個字母當成了備選的符號。

調整之后，Gemini前面給出的分析基本正確，可惜到最后選擇了錯誤選項D。

第二題，每個框中的第三個符號是前兩個的交集，答案為A。

結果Gemini研究起了這些表情，一番分析猛如虎，最后給出的答案還是錯的。

兩道題下來，一道對了百分之七八十，另一道完全錯誤，看來Gemini Pro的圖形推理能力還有很大提升空間。

不過如果把目光放到生活場景當中，Gemini的表現還是值得肯定的。

我們用ChatGPT（DALL·E）生成了一張包含雞肉、胡蘿卜和黃瓜的圖片，Gemini正確地識別出了這三種食材，然后給出了很多種可以烹飪的菜肴，而且每個都配有圖片和教程鏈接。

這么多測試結果看下來，回到最初的問題，有了Gemini還有必要為GPT-4付費嗎？

沃頓商學院副教授Ethan Mollick給出一個不錯的建議：

沒有什么理由再使用ChatGPT的免費版本了，現在已經被Bard和Claude超越，而且它們都是免費的。

但你或許應該繼續使用GPT-4，它仍然占主導地位，并且在必應（只有創意模式是GPT -4）中是免費的。

明年將結合AlphaGo能力升級

除了Gemini實際效果，60頁技術報告中披露的更多細節也是研究人員和開發者關注所在，

關于參數規模，只公布了最小的Nano版本，分為1.8B的Nano-1和3.25B的Nano-2兩個型號，4-bit量化，是蒸餾出來的，可以運行在本地設備如Pixel手機上。

Pro版本和Ultra版本規模保密，上下文窗口長度統一32k，注意力機制使用了Multi-Query Attention，此外沒有太多細節了。

值得的關注的是微調階段，報告中透露使用了SFT+RLHF的指令微調組合，也就是使用了ChatGPT的方法。

另外也引用了Anthropic的Constitutional AI，也就是結合了Claude的對齊方法。

關于訓練數據也沒披露太多細節，但之前有傳聞稱谷歌刪除了來自教科書的有版權數據。

Gemini拖了這么久才發，之前被曝光的消息還有不少，比如谷歌創始人Sergey Brin一直親自下場對模型進行評估并協助訓練。

結合最近OpenAI Q*項目的傳聞，大家最關心的莫過于：

Gemini到底有沒有結合AlphaGo的能力？如RLHF之外更多的強化學習、搜索算法等。

關于這一點，DeepMind創始人哈薩比斯在最新接受連線雜志采訪時作出了回應：

我們有世界上最好的強化學習專家……AlphaGo中的成果有望在未來改善模型的推理和規劃能力……明年大家會看到更多快速進步。

省流版本：還沒加，明年加。

這次Gemini開發整合了原谷歌大腦和DeepMind兩個團隊，整個開發團隊有超過800人（作為對比，OpenAI整個公司約770人）。

其中核心貢獻者前六位的名字首字母，恰好組成了Gemini這個單詞，也算一個小彩蛋。

許多參與者也在個人賬號發表了感想，其中DeepMind老員工Jack Rae此前在OpenAI工作一段時間，今年7月份從OpenAI跳回到谷歌，他可能是唯一一位對GPT-4和Gemini都有貢獻的人類了。

也有反著跳的，中科大校友Jiahui Yu在10月份從谷歌跳去了OpenAI，之前擔任Gemini多模態團隊的視覺共同負責人。

除了團隊成員之外，Gemini今天也是整個AI行業最大的話題。

其中著名OpenAI爆料賬號Jimmy Apples，@Sam Altman并暗示OpenAI還有沒發布的大招。

而HuggingFace聯創Thomas Wolf認為，谷歌錯過了一個重要機會：

如果Gemini開源，對OpenAI和Meta來說都是一記絕殺，上一次谷歌開源Bert的時候，整個AI行業都被重塑了。

Gemini技術報告：
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/207417.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/207417.shtml
英文地址，請注明出處：http://en.pswp.cn/news/207417.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

OpenGL學習資料

OpenGL學習資料

1.學習網站 Song Ho Ahn LearnOpenGL GAMES101:現代計算機圖形學入門 OpenGL 官網 2.書籍 Fundamentals of computer graphics OpenGL ES 3.0編程指南計算機圖形學(OpenGL版)第3版 3.參考的一些文章顏色緩沖區深度緩沖 VBO，VAO和EBO詳解深入探索透視投影變…

閱讀更多...

實戰干貨！基于ERNIE Bot SDK的數字詩人聊天開發教程

實戰干貨！基于ERNIE Bot SDK的數字詩人聊天開發教程

隨著人工智能技術的不斷迭代發展，數字人的開發與應用需求也與日俱增，并且隨著大語言模型的發展，數字人也更智能，從最初的語音預制到現在的實時交流，目前已在很多場景都有廣泛應用。虛擬客服：數字人可以通…

閱讀更多...

Mysql自動備份腳本（本地備份、遠程備份、刪除冗余備份）

Mysql自動備份腳本（本地備份、遠程備份、刪除冗余備份）

Mysql自動備份腳本（本地備份、遠程備份、刪除冗余備份） 1. 腳本功能自動備份mysql數據到服務器上，可以通過linux的 crontab定義備份周期。自動刪除七天前的備份數據。 2. 腳本內容 #!/bin/bash # auth Eric source /etc/profile # 設…

閱讀更多...

【EMNLP 2023】基于知識遷移的跨語言機器閱讀理解算法

【EMNLP 2023】基于知識遷移的跨語言機器閱讀理解算法

近日，阿里云人工智能平臺PAI與華南理工大學朱金輝教授團隊、達摩院自然語言處理團隊合作在自然語言處理頂級會議EMNLP2023上發表基于機器翻譯增加的跨語言機器閱讀理解算法X-STA。通過利用一個注意力機制的教師來將源語言的答案轉移到目標語言的答案輸出空間&#x…

閱讀更多...

計算機網絡高頻面試八股文

計算機網絡高頻面試八股文

目錄： 網絡分層結構三次握手兩次握手可以嗎？四次揮手第四次揮手為什么要等待2MSL？為什么是四次揮手？TCP有哪些特點？說說TCP報文首部有哪些字段，其作用又分別是什么？TCP和UDP的區別？…

閱讀更多...

套接字應用程序

套接字應用程序

這章節是關于實現 lib_chan 庫的。 lib_chan 的代碼在 TCP/IP 之上實現了一個完整的網絡層，能夠提供認證和Erlang 數據流功能。一旦理解了 lib_chan 的原理，就能量身定制我們自己的通信基礎結構，并把它疊加在TCP/IP 之上了。就lib_chan 本身…

閱讀更多...

MMLM之Gemini：《Introducing Gemini: our largest and most capable AI model》的翻譯與解讀

MMLM之Gemini：《Introducing Gemini: our largest and most capable AI model》的翻譯與解讀

MMLM之Gemini：《Introducing Gemini: our largest and most capable AI model》的翻譯與解讀導讀：2023年12月6日，Google重磅發布大規模多模態模型Gemini，表示了Google語言模型發展到了一個新階段，其多模態和通用能力明…

閱讀更多...

中斷、異常和系統調用（2-1，2-2，2-3）

中斷、異常和系統調用（2-1，2-2，2-3）

2-1 課堂練習2.1：外部中斷本實訓分析 Linux 0.11 對外部中斷的響應和處理過程。在每條指令執行的末尾，如果沒有關中斷，CPU 會檢查是否收到了外部中斷信號，如果有信號，則 CPU 就切換到核心態去執行對應的中斷處理程序…

閱讀更多...

Android 獲取進程名稱

Android 獲取進程名稱

Android 獲取進程名稱本篇文章主要獲取下當前應用的進程名稱,具體代碼如下: public static String getProcessNameDevice(final Context context) {int myPid Process.myPid();if (context null || myPid < 0) {return "";}ActivityManager.RunningAppProces…

閱讀更多...

DHTMLX Scheduler PRO 6.0.5 Crack

DHTMLX Scheduler PRO 6.0.5 Crack

功能豐富的 JavaScript調度程序 DHTMLX Scheduler 是一個 JavaScript 日程安排日歷，具有 10 個視圖和可定制的界面，用于開發任何類型的日程安排應用程序。 DHTMLX JS 調度程序庫的主要特性我們的 JS 調度程序最需要的功能之一是時間軸視圖。借助時間軸…

閱讀更多...

vue-loader是如何工作的？

vue-loader是如何工作的？

什么是單文件組件？ 單文件組件是一種將模板、腳本和樣式封裝在一個 .vue 文件中的方式例如： <template><div class"example">{{ msg }}</div> </template> <script>export default {data() {return {msg: &qu…

閱讀更多...

【語義分割數據集】——imagenet語義分割

【語義分割數據集】——imagenet語義分割

地址：https://github.com/LUSSeg/ImageNet-S 1 例圖 2. 類別和數量信息疑問根據原文的描述：Based on the ImageNet dataset, we propose the ImageNet-S dataset with 1.2 million training images and 50k high-quality semantic segmentation annot…

閱讀更多...

【JNPF】好用、高性價比的低代碼開發平臺

【JNPF】好用、高性價比的低代碼開發平臺

目錄 1.JNPF介紹突出優勢 2.JNPF的開放性與擴展性平臺的開放性： 平臺高拓展性在快速發展的軟件開發領域，低代碼平臺已經成為了一種重要的開發方法，它使非專業開發人員也能夠參與到軟件開發中去，大大加速了軟件開發的效率。…

閱讀更多...

2023年總結和2024年展望（以ue為主攻）

2023年總結和2024年展望（以ue為主攻）

2023年就要過去了，總結下： 先說好的地方 1，pbr材質集成到了osg中，加上直接光和間接光。終于知道pbr咋回事了。光線追蹤的視頻也跟著敲了一個。 2，得到了認可。拿到了半年獎，leader讓我明年和架構師一起進行…

閱讀更多...

Leetcode—2034.股票價格波動【中等】

Leetcode—2034.股票價格波動【中等】

2023每日刷題（五十二） Leetcode—2034.股票價格波動算法思想實現代碼 class StockPrice { public:int last 0;multiset<int> total;unordered_map<int, int> m;StockPrice() {}void update(int timestamp, int price) {if(m.count(time…

閱讀更多...

VUE學習一、環境的安裝

VUE學習一、環境的安裝

1.node.js安裝 node.js是前端依賴的環境, 類似于java中的jdk 下載地址 node.js 下載 msi文件下完就是一頓嘎嘎安裝 , 安裝后可以cmd看看node和npm的版本 1.2 yarn的安裝 Yarn是Facebook最近發布的一款依賴包安裝工具。Yarn是一個新的快速安全可信賴的可以替代NPM的依賴管…

閱讀更多...

計算機圖形學——消隱算法

計算機圖形學——消隱算法

目錄消隱算法 （1）隱藏線消除算法 （2）隱藏面消除算法曲面體消隱算法 3D Mesh 隱藏面消除算法 （1）深度緩沖器算法（zBuffer） 深度緩沖器 （2）深度排序…

閱讀更多...

SpringBoot的監控(Actuator) 功能

SpringBoot的監控(Actuator) 功能

目錄 0、官方文檔一、引入依賴二、application.yml文件中開啟監控三、具體使用四、具體細節使用五、端點開啟與禁用六、定制Endpoint 1. 定制 /actuator/health 2. 定制 /actuator/info （1）直接在配置文件中寫死 （2&#xff…

閱讀更多...

分頁顯示功能函數的核心代碼主要參考思路

分頁顯示功能函數的核心代碼主要參考思路

分頁顯示功能函數的核心代碼主要參考思路 package org.utils;import java.util.List;import org.entity.Student;/*** * author 24519* 分頁的工具類**/ public class PageUtils {//頁大小（每頁顯示多少條記錄）private int pageSize;//當前頁private in…

閱讀更多...

如何進行代碼混淆？方法與常見工具介紹

如何進行代碼混淆？方法與常見工具介紹

? 目錄什么是代碼混淆？ 代碼混淆的方法常見代碼混淆工具什么是代碼混淆？ 代碼混淆是指將計算機程序的代碼轉換成一種功能上等價，但難于閱讀和理解的形式的行為。混淆后的代碼很難被反編譯，即使反編譯成功也很難得出程序的…

閱讀更多...

最新文章