大模型“聚會”:國內卷價格,國外卷能力

[img

GPT-4o和谷歌Gemini不斷宣傳現階段AI能力大幅度提高,那么這兩家,誰的大模型能力更強呢?這篇文章里,作者就展開了多維度的測試和體驗,想了解的同學,可以來看一下。

img

在中美AI大模型的競爭上,正衍生出兩種不同的路徑。

繼北京時間5月14日凌晨OpenAI春季發布會上,OpenAI推出兼具聽、看、說能力的GPT-4o后。北京時間5月15日凌晨谷歌I/O開發者大會上,谷歌CEO桑達爾·皮查伊發布數十款Google和AI 結合產品,堪稱“全家桶”級別,全面圍剿Open AI。

其中包括支持200萬token長文本的Gemini 1.5 Pro和 Gemini 1.5 Flash,對標Sora的Veo,開源模型Gemma 2,支持生成式搜索的AI Overviews、第六代TPU等。

整場開發者大會最大的看點為,谷歌推出的AI語音助手——Astra,它能夠通過攝像頭識別物體、代碼和各種東西。現場演示視頻中,用戶要求Astra在看到發出聲音的東西時告訴她,助手回答說,它可以看到一個發出聲音的揚聲器。對于一閃而過的蘋果,Astra居然也能夠準確回答出在眼鏡旁邊。

除Astra外,谷歌還推出基于Gemini的多款通用AI Agent子系列產品。如音頻的NotebookLM、音樂的Music AI Sandbox、視頻的Veo、圖像的Imagen 3,直接對標OpenAI發布的GPT-4o、Dall-E和Sora。

和谷歌、OpenAI圍繞技術之爭不同的是,國內大模型或將迎來價格戰時代。在5月15日字節舉辦2024春季火山引擎Force原動力大會上,字節推出3款AI產品,包括AI生圖產品 PicPic、AI 教育產品河馬愛學、AI 劇情互動產品貓箱。

除這三款產品外,字節面向TOC端的產品還包括定位AI教育的Gauth,定位AI對話的豆包和CiCi;定位AI工具的小悟空ChitChop;定位Al Bot創建平臺的Coze和扣子;定位AI互動劇情的BagelBel等。

但字節率先啟動行業價格戰,火山引擎總裁譚待表示,豆包大模型將開啟付費商業化,且定價遠低于行業價格。以豆包通用模pro-32k版為例,模型推理輸入價格僅為0.0008元/千Tokens。市面上同規格模型的定價一般為0.12元/千Tokens,是豆包模型價格的150倍。

字節本輪降價后,后續國內其他大模型廠商或將跟隨。但降價能否幫助國內大模型廠商帶來更多新增用戶和付費用戶,仍值得商榷。

img做了8年產品經理后,我是這么看產品經理的我個人是從非常初級的產品經理做起,再到負責一個大產品的項目管理,現在有幸跳出了日常基礎的工作更多的去看產品的PMF,product strategy…查看詳情 >

GPT-4o和谷歌Gemini不斷宣傳現階段AI能力大幅度提高,兩家誰的大模型能力更強呢?基于此,我們也對GPT-4o和Gemini展開了多維度的測試。

01 文本輸出:Gemini和GPT-4o愈發接近,部分能力已趕超

因GPT-4o和Gemini均屬于世界TOP級的大模型,在測試兩家大模型的文本輸出能力上,我們直接將難度升級。

為什么很多國家仍以油車為主?你覺得影響新能源汽車海外滲透率提高的因素有哪些?我們將這一問題同時給到GPT-4o和Gemini,二者均指出充電基礎設施建設、購置成本、技術進步、政策支持、消費者文化習慣是很多國家仍以燃油車為主的原因。

但相較于GPT-4o,Gemini不僅識別到我們提問的是兩個問題,且均給出答案,也回答出GPT-4o沒有指出的車企方面、宣傳教育方面的問題。也就是說,Gemini的回答可能更為完整。

img

圖源:基于Gemini和GPT-4o生成內容整理 DoNews制圖

我們繼續追問要求兩個大模型同時給我們撰寫一份10000字全球新能源汽車報告,并要求報告中需要包括行業價格戰、電池技術、未來發展方向、產業趨勢。

但此時兩個大模型的表現已經出現明顯差異,GPT-4o給我們生成七大章節的框架,每個框架下也要對應的小框架。但就是不輸出我們要求的內容,這或許和當前GPT-4o在長文本能力上的欠佳有關。

img

圖源:GPT-4o官網

Gemini雖給我們具體的文本內容,但全文1679字和我們要求的萬字報告差距較大。內容被大幅度壓縮后,整個內容質量也相對欠佳。

如在提到新能源汽車產業趨勢發展上,Gemini給出的內容為產業鏈整合、跨界合作、國際化競爭,每條內容僅有一句話進行概括。換言之,在真正涉及行業專業性問題上,Gemini和GPT-4o均存在不同程度的短板。

img

圖源:Gemini官網

當我們將難度繼續提高后,詢問為什么今年以來全球大宗商品價格持續上漲?這種漲幅帶來的影響有哪些?未來價格是否會回落?在首問中GPT-4o和Gemini給出的答案有所相同,均指出和供應鏈、地緣沖突、全球經濟等因素有關。且在未來價格走勢預測中,兩者給到的答案也基本相同。

但在漲幅所帶來的影響上,Gemini給出的答案可能更為完整。尤其是在金融、企業利潤、社會等方面的影響,GPT-4o并未指出。

img

圖源:基于Gemini和GPT-4o生成內容整理 DoNews制圖

在文本內容快速分析上,我們讓兩款大模型同時給我們分析安克創新2024年Q1財報中存在的風險點,GPT-4o生成的風險點包括現金流減少、高額的銷售費用和管理費用、財務費用大幅度波動、公允價值帶來損失這四點。

img

圖源:GPT-4o官網

但Gemini給出的內容卻包括營收增速放緩、經營活動大幅度下降、銷售費用和管理費用大幅度增加、存貨跌價損失增加、匯兌大幅度增加、對政府補助依賴這六點。這也不能看出,Gemini的回答更為完整。

img

圖源:Gemini官網

而當我們要求兩款大模型同時以如何幫助失戀的人走出陰影,寫一篇2000字的文章。要求文章有觀點,并且文章內需要配上對應的圖片和音頻,Gemini的表現可以說完全吊打GPT-4o。

在文章開頭,Gemini直接放入一曲舒緩的音樂,且這個音樂也支持播放。每個細分章節下,Gemini直接從網站上檢索到和內容相關的圖片,實現OpenAI提到的文本、音頻、圖像的任意組合。

img

圖源:Gemini官網

對比之下,GPT-4o給到的內容就有些遜色。除文章開始處能看到圖片外,其余正文處均未看到任何和內容相關的圖片,且全文中也看不到音頻。

img

圖源:GPT-4o官網

整體測試下來后我們發現,谷歌在生成式AI領域尤其在文本能力輸出上已經從“落后”到追趕,甚至內容質量上、內容組合等能力上已經超過GPT-4o。

02 對比之下,Gemini綜合能力不容忽視

在測試過程中,我們發現Gemini不僅支持文本內容提問,且也支持語音提問。但因國內網絡受限,暫無法對語音功能進行測試,也無法判斷這是否為谷歌發布會上提到的Astra。相較于谷歌的快速,GPT-4o目前仍是支持單一的文本內容提問。

img

圖源:Gemini官網

img

圖源:GPT-4o官網

深耕搜索行業多年的谷歌,讓目前的Gemini也能實現AI檢索。且這種檢測不僅包括圖文網頁也包括視頻。當我們要求Gemini以汽車安全為核心,生產一個20-30S的視頻時,Gemini先是給出了我們具體的視頻腳本。

當我們繼續追問你能我們直接生成視頻嗎?Gemini的回答有些超過我們的預期,直接給到我們幾個YouTube的相關鏈接。且這些鏈接居然也無須跳轉YouTube上觀看,在Gemini大模型內也能實現自動播放。

img

圖源:Gemini官網

img

圖源:Gemini官網

對比之下,GPT-4o雖也能根據我們的要求輸出對應的視頻腳本,但卻并不具備Gemini的這些功能。

img

圖源:GPT-4o官網

值得注意的是,Gemini和GPT-4o目前均不支持音頻、視頻內容識別,且Gemini目前也不支持圖片生成功能。支持圖片生成功能的GPT-4o,目前也存在部分問題。

如當我們要求GPT-4o輸出一張同時包含中國傳統神話故事中四大神獸的照片時,圖片內容雖出現四大神獸,但除青龍稍微符合神話故事原型外,其他三大神獸均和神話故事中的原型相差極大,這可能也和OpenAI團隊對中國傳統神話故事學習能力欠佳的有關。

img

圖源:GPT-4o官網

但在圖片的識別能力上,Gemini正以圖片識別為基礎場景,衍生出更多場景服務。我們選取網絡平臺常見的面條圖片,Gemini在識別出這張圖片為雞蛋面后,又給到我們雞蛋面、中國面條等關鍵詞方便我們二次檢索。更重要的是,Gemini還直接推薦各種雞蛋面的做法。

img

圖源:Gemini官網

對比之下,GPT-4o在識別出圖片內容為拌面下,僅是簡單地對拌面進行介紹,并未展開過多敘述。

img

圖源:GPT-4o官網

當我們將識圖能力難度升級后,在網絡平臺上選取常見的竹林照片,并詢問Gemini圖片的拍攝地點時,Gemini給出包括日本京都嵐山竹林、日本京都嵯峨野竹林、日本沖繩八重山竹林、中國四川毛竹林、中國安吉竹林、南美或東南亞等地點,并指出竹林的重要性。

img

圖源:Gemini官網

GPT-4o僅指出,這樣的景色在中國、日本等東亞國家極其常見。如日本的京都嵐山竹林和中國的安吉竹海都是著名的竹林景區。不僅地點相對Gemini較少,還反問到你知道具體的拍攝地點嗎?

img

圖源:GPT-4o官網

在測試邏輯推理上,我們選取2023年全國卷數學高考真題中難度較大的壓軸題時,GPT-4o給出的答案可以用失望來形容。

img

圖源:2023年全國卷數學真題

如在全國高考卷第20題的兩問中,GPT-4o僅是簡單地給出不完整的解題步驟,沒有輸出任何一個準確答案。

img

圖源:GPT-4o官網

第21題的三問中,GPT-4o不僅將三小問變成兩小問,且前兩問求概率的問題上,本應為具體數字的答案,在GPT-4o這里卻是帶有變量N的不確定答案。

但Gemini的表現同樣欠佳,如在第20題首問的求通項公式中,Gemini雖給出兩種解法,但兩種解法給出的答案完全不同。換言之,Gemini有可能僅是簡單地抓取國內網站的相關鏈接,并未對信息內容和準確度進行二次審核。

img

圖源:Gemini官網

整體來看,目前Gemini在很多方面的綜合能力,以及產品上線速度方面比GPT-4o更加能打。且在價格方面,谷歌的Gemini 1.5 Flash 的價格定為每100萬個token 35 美分,比GPT-4o的每100萬個token 5 美元的價格低很多。產品組合性能表現不輸GPT-4o疊加低價,谷歌或許正在放出王炸。

但按照OpenAl在大模型上積累的強大技術能力來看,谷歌在某些方面稍微領先的優勢能保持多久,仍有待商榷。谷歌和OpenAI在AI大模型技術上的持續博弈下,可能會將美國AI大模型的技術能力推向新高度。

03 國內卷價格,或將推動行業加速洗牌

對于字節率先發起行業價格戰也不能理解,目前國內大模型在TOC端的商業化落地,正朝著當年的移動互聯網方向發展。

依靠價格戰,移動互聯網廠商(大模型廠商)不斷提高新增用戶和日活用戶的同時,后續逐漸衍生出如廣告、電商、與核心業務場景高度契合的其他場景收入。這在保證平臺實現單個用戶價值最大化的同時,也能幫助移動互聯網廠商(大模型廠商)提高現金流,持續減少企業虧損。

后續移動互聯網廠商(大模型廠商)繼續發動行業價格戰,資金能力不足的中小廠商被洗牌出清,行業份額繼續朝著頭部廠商集中。頭部廠商獲得高話語下,對供需兩側衍生更多商業化,最終讓行業形成強者愈強的馬太效應。

不僅僅是TOC端,大模型價格戰未來也將同樣出現在TOB端。對標SaaS產業來看,價格仍是國內SaaS企業的核心優勢之一,尤其在SaaS產業產品和場景同質化嚴重、國內企業主付費意識不強、中小客群存在流失率高、合規性差、決策集中一人等現狀下,頭部SaaS廠商想要從價格戰的泥潭中走出,面臨著不小的阻力。

但需指出的是,互聯網時代面向TOC端的價格戰,更多是建立在細分場景下的服務上。這種服務下,消費者真正關注的也就是服務好壞。剛需場景下,這種服務好壞更是被淡化。

但AI大模型時代,類似于美圖這種圖片場景類的服務,消費者的要求可能不高。但其他場景下,本質是用戶愿意為大模型的高質量內容進行付費。

換言之,消費者真正看重的仍是大模型的處理能力以及能否高效完成任務,而非價格。若在完成任務能力上表現欠佳,價格再低實則也是無用。

尤其是對于金融類、研投類對大模型輸出的內容質量要求高、數據質量生成快且專業的行業來說,更是如此。更別提企業端定制大模型,更不允許大模型的生產內容和數據存在絲毫偏差了。

或許國內大模型廠商是想借助價格戰,盡快讓大模型幫助企業帶動營收增長,進而對沖大模型前期高昂的研發成本投入,以及相關硬件方面的投入。

但隨著國內大模型廠商在價格上持續內卷,或將影響到不少技術能力優越但資金實力不足的初創企業,這又是否會讓中美在大模型方面的技術能力差距被拉開得更高呢?

讀者福利:如果大家對大模型感興趣,這套大模型學習資料一定對你有用

對于0基礎小白入門:

如果你是零基礎小白,想快速入門大模型是可以考慮的。

一方面是學習時間相對較短,學習內容更全面更集中。
二方面是可以根據這些資料規劃好學習計劃和方向。

資源分享

圖片

大模型AGI學習包

圖片

圖片

資料目錄

  1. 成長路線圖&學習規劃
  2. 配套視頻教程
  3. 實戰LLM
  4. 人工智能比賽資料
  5. AI人工智能必讀書單
  6. 面試題合集

人工智能\大模型入門學習大禮包》,可以掃描下方二維碼免費領取

1.成長路線圖&學習規劃

要學習一門新的技術,作為新手一定要先學習成長路線圖方向不對,努力白費

對于從來沒有接觸過網絡安全的同學,我們幫你準備了詳細的學習成長路線圖&學習規劃。可以說是最科學最系統的學習路線,大家跟著這個大的方向學習準沒問題。

圖片

2.視頻教程

很多朋友都不喜歡晦澀的文字,我也為大家準備了視頻教程,其中一共有21個章節,每個章節都是當前板塊的精華濃縮

圖片

3.LLM

大家最喜歡也是最關心的LLM(大語言模型)

圖片

人工智能\大模型入門學習大禮包》,可以掃描下方二維碼免費領取

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/44164.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/44164.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/44164.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

從數據倉庫到數據湖(上):數據湖導論

文章目錄 一、什么是數據湖?起源數據湖的特征 二、為什么要用數據湖?三、數據湖與數據倉庫的區別數據倉庫和數據湖的對比 四、數據湖本質數據存儲架構數據處理工具:三類第一類工具第二類工具第三類工具 小結 五、總結六、參考資料 一、什么是…

[運維平臺]泛微運維平臺

運維平臺點擊登錄沒有反應,是因為H2數據庫損壞,H2數據庫在服務器異常重啟,磁盤滿等情況下容易損壞,請按照下面的步驟操作Linux: 運維平臺升級包https://www.weaver.com.cn/cs/monitorDownload.html 1)請停…

常見數據庫類型和選取詳解

數據庫是用于存儲、檢索和管理數據的系統。它們可以根據數據模型的不同被分類為不同類型。以下是一些常見的數據庫類型和它們的選取詳解: 1. 關系型數據庫(RDBMS) 特點: 使用表格(tables)來組織數據。基…

百日筑基第十六天-java多線程編程淺學一下4-各種線程池學習和使用

百日筑基第十六天-java多線程編程淺學一下4-各種線程池學習和使用 使用線程池 Java語言雖然內置了多線程支持,啟動一個新線程非常方便,但是,創建線程需要操作系統資源(線程資源,棧空間等),頻繁…

MQ四兄弟:如何保證消息順序性

在當今的分布式系統架構中,消息隊列(MQ)是不可或缺的組成部分。它們在確保系統組件之間高效通信方面發揮著關鍵作用。特別是在金融交易、物流跟蹤等對消息處理順序有嚴格要求的場景中,消息隊列的順序性保證顯得更為重要。接下來&a…

使用libguestfs掛載qcow2磁盤鏡像

掛載qcow2磁盤鏡像的第一種方法是使用 libguestfs,它提供了一系列工具來訪問和編輯 VM 磁盤鏡像。libguestfs 支持幾乎所有類型的磁盤鏡像,包括 qcow2。你可以像下面這樣,在Linux上安裝libguestfs工具集。 1、安裝guestmount工具 在基于 De…

主干網絡篇 | YOLOv5/v7 更換骨干網絡之 MobileNetV3 | 基于神經網絡搜索的輕量級網絡(2)

主干網絡篇 | YOLOv5/v7 更換骨干網絡之 MobileNetV3 | 基于神經網絡搜索的輕量級網絡 概述 YOLOv5和YOLOv7是目前主流的輕量級目標檢測模型,在速度和精度方面取得了良好的平衡。然而,傳統的YOLOv5/v7模型使用FPN和CSPNet等結構作為主干網絡&#xff0…

SMU Summer 2024 Contest Round 2

[ABC357C] Sierpinski carpet - 洛谷 | 計算機科學教育新生態 (luogu.com.cn) 思路:通過因為圖形的生成過程是完全一樣的。可以通過遞歸,不斷分形。函數process(x,y,k)定義為以坐標(x,y)為左上角,填充sqrt3(k)級的地毯。 int n; int c[800][800]; 默認全為…

【雜說咋說】近年來國土空間規劃行業人員轉行分析

這幾年,國土空間規劃行業的人員流動引起了不少關注。我們可以從幾個方面來看這些變化: 考公務員 許多從事國土空間規劃的專業人員選擇了考公務員。這種選擇相對穩定,不需要熬夜加班,工作環境也更為舒適。尤其是進入國家機關或住…

POSIX互斥鎖和條件變量

一.概述 1.POXIS介紹 POXIS是一種操作系統接口標準,全稱為“可移植操作系統接口”。 它最初由IEEE組織制定,目的是為了使不同的操作系統之間可以互相兼容。POSIX標準定義了一系列API(應用程序接口)和命令行工具,這些…

Mybatis核心問題總結

對MyBatis源碼的理解 ORM框架:CRUD操作 1。SQL解析: 映射文件、注解--》映射器解析 XMLMapperBuilder MapperAnnotationBuilder 2。SQL執行: SqlSession 接口--》Executor --》 SimpleExecutor ReuseExecutor 【Statement--JDBC】 3。結果映射&…

Go語言---Json

JSON (JavaScript Object Notation)是一種比XML 更輕量級的數據交換格式,在易于人們閱讀和編寫的同時,也易于程序解析和生成。盡管JSON是 JavaScript的一個子集,但 JSON采用完全獨立于編程語言的文本格式,且表現為鍵/值對集合的文…

【大模型LLM面試合集】大語言模型架構_layer_normalization

2.layer_normalization 1.Normalization 1.1 Batch Norm 為什么要進行BN呢? 在深度神經網絡訓練的過程中,通常以輸入網絡的每一個mini-batch進行訓練,這樣每個batch具有不同的分布,使模型訓練起來特別困難。Internal Covariat…

【C++高階】高效數據存儲:理解并模擬實現紅黑樹Map與Set

📝個人主頁🌹:Eternity._ ?收錄專欄?:C “ 登神長階 ” 🤡往期回顧🤡:了解 紅黑樹 🌹🌹期待您的關注 🌹🌹 ?模擬實現Map與Set 📒1.…

js ES6 part1

聽了介紹感覺就是把js在oop的使用 作用域 作用域(scope)規定了變量能夠被訪問的“范圍”,離開了這個“范圍”變量便不能被訪問, 作用域分為: 局部作用域、 全局作用域 1. 函數作用域: 在函數內部聲明的…

爬取天氣數據,利用Pyecharts作輪播圖

爬取網站鏈接:https://lishi.tianqi.com/xiamen/202312.html 爬取了廈門市2023年一整年的天氣數據,包括最高溫,最低溫,天氣,風力風向等 爬蟲代碼: import requests import pandas as pd import csv from…

UML建模案例分析-時序圖和類圖的對應關系

概念 簡單地說,類圖定義了系統中的對象,時序圖定義了對象之間的交互。 例子 一個電子商務系統,會員可通過電子商務系統購買零件。具體功能需求如下: 會員請求結賬時,系統驗證會員的賬戶是否處于登錄狀態&#xff1…

極狐GitLab 17.0 重磅發布,100+ DevSecOps功能更新來啦~【三】

GitLab 是一個全球知名的一體化 DevOps 平臺,很多人都通過私有化部署 GitLab 來進行源代碼托管。極狐GitLab :https://gitlab.cn/install?channelcontent&utm_sourcecsdn 是 GitLab 在中國的發行版,專門為中國程序員服務。可以一鍵式部署…

【基礎篇】1.8 C語言基礎(二)

2.9 預處理指令和宏定義 在STM32開發中,預處理和宏定義常用于配置硬件參數、啟用或禁用特定功能、以及優化代碼以適應不同的硬件配置或應用場景。通過合理地使用預處理和宏定義,我們可以編寫更加靈活、可配置和高效的代碼。 預處理指令如#include、#define等在C語言編程中起…

防火墻圖形化界面策略和用戶認證(華為)

目錄 策略概要認證概要實驗拓撲圖題目要求一要求二要求三要求四要求五要求六 策略概要 安全策略概要: 安全策略(Security Policy)在安全領域具有雙重含義。宏觀上,安全策略指的是一個組織為保證其信息安全而建立的一套安全需求、…