谷歌掀桌子!開源Gemma:可商用,性能超過Llama 2!

2月22日,谷歌在官網宣布,開源大語言模型Gemma。

Gemma與谷歌最新發布的Gemini?使用了同一架構,有20億、70億兩種參數,每種參數都有預訓練和指令調優兩個版本。

根據谷歌公布的測試顯示,在MMLU、BBH、GSM8K等主流測試平臺中,其70億模型在數學、推理、代碼的能力超過Llama-2的70億和130億,成為最強小參數的類ChatGPT模型。

目前,Gemma可以商用,并且普通筆記本、臺式機就能跑,無需耗費巨大的AI算力矩陣。

Kaggle地址:https://www.kaggle.com/models/google/gemma/code/

huggingface地址:https://huggingface.co/models?search=google/gemma

技術報告:https://goo.gle/GemmaReport

圖片

谷歌作為貢獻出Transformers、TensorFlow、BERT、T5、JAX、AlphaFold等一系列改變世界AI發展的宗師級大師,在生成式AI領域卻一直落后于OpenAI。

不僅如此,開源領域還打不過類ChatGPT開源鼻祖Meta的Llama系列。痛定思痛之后,谷歌決定重新加入開源陣營,以搶奪開發者和用戶。

Gemma簡單介紹

谷歌表示,Gemma之所以性能如此強悍,主要是使用了與Gemini相同的技術架構。

更詳細的開發者指南:https://ai.google.dev/gemma/docs?utm_source=agd&utm_medium=referral&utm_campaign=quickstart-docu

Gemini的基礎架構建立在Transformer編碼器結構之上,通過多層自注意力和前饋神經網絡來建模序列依賴性。不同的是Gemini采用了多查詢注意力機制,可處理超復雜長文本。

圖片

具體來說,模型首先將輸入序列的每個位置編碼成多組查詢向量。然后,將這些查詢向量并行地與鍵值對進行批量注意力運算,得到多個注意力結果。

除了開源模型權重,谷歌還推出Responsible Generative AI Toolkit等一系列工具,為使用Gemma提供更安全的AI應用程序提供指導。

目前,Gemma開放了兩個版本:預訓練,該版本未針對 Gemma 核心數據訓練集以外的任何特定任務或指令進行訓練;指令微調,通過人類語言互動進行訓練,可以響應對話輸入,類似ChatGPT聊天機器人。

跨框架、工具和硬件,對Gemma進行優化

開發者可以根據自己的數據微調 Gemma 模型,以適應特定的應用程序需求,例如,生成摘要/文本或檢索增強生成 (RAG)等。Gemma 支持以下多種工具和系統:

多框架工具:可跨多框架 Keras 3.0、本機 PyTorch、JAX 和 Hugging Face Transformers 進行推理和微調。

跨設備兼容性:Gemma可以跨多種設備類型運行,包括筆記本電腦、臺式機、物聯網、移動設備和云,從而實現廣泛的 AI 功能。

圖片

高級硬件平臺:谷歌與NVIDIA合作,針對 NVIDIA GPU 優化 Gemma模型,從數據中心到云端再到本地RTX AI PC,提供行業領先的性能并與尖端AI技術集成。

針對 Google Cloud 進行了優化:Vertex AI 提供廣泛的 MLOps 工具集,具有一系列調整選項,并可使用內置推理優化功能進行一鍵式部署。

高級定制功能可通過完全管理的頂點人工智能工具或自我管理的GKE 實現,包括部署到 GPU、TPU 和 CPU 平臺上具有成本效益的基礎設施。

Gemma性能測試

谷歌在MMLU、BBH、GSM8K等主流測試平臺中,用Gemma 70億模型與Llama-2、Mistral在數學、推理、代碼等方面進行了深度測試。

Gemma的標準學術基準測試平均分數都高于同規模的Llama 2和Mistral模型。甚至在一些關鍵能力方面,高于Llama-2 130億參數模型。

圖片

也就是說,Gemma是一款參數很小,性能卻異常強悍的大模型。

本文素材來源谷歌官網,如有侵權請聯系刪除

END

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/697868.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/697868.shtml
英文地址,請注明出處:http://en.pswp.cn/news/697868.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

解密C語言選擇結構:掌握條件語句與分支邏輯的利器

引言 C語?是結構化的程序設計語?,這?的結構指的是順序結構、選擇結構、循環結構。為什么有著三種結構呢,大家其實可以想象一下,生活中的絕大數事情都可以抽象著三種結構,而我們今天要給大家介紹的就是三大結構之一——選擇結構…

Jenkins 中部署Nodejs插件并使用,并構建前端項目(3)

遇到多個版本nodeJS需要構建的時候 1、第一種就是一個配置安裝,然后進行選中配置 2、第二種就是插件:nvm-wrapper,我們還是選用NodeJS插件: (1)可以加載任意npmrc文件; (2&#x…

鴻蒙NEXT出現有前途嗎?是否會和安卓、IOS開發歷程一樣?

只要有手機操作系統這玩意存在,一定是需要原生開發人員的,但隨著獨立操作系統越來越多的話,混合App開發可能是個“萬能解決方案”。 2024年,在中國,被各大媒體和開發者稱為“鴻蒙元年”。 在2023年底就有業內人士透露…

【es6】Map 和 Object 對象的區別

對象 Object Object 是一個特殊的對象,它本身是一個頂級對象,同時還是一個構造函數,還可以使用字面量的方式聲明一個對象本質上是鍵值對的集合,但是健只能是字符串 或 Symbol使用 . [] 去獲取object 的屬性,不存在則…

jenkins編譯使用nohup部署進程到后臺失敗,解決方法

在shell腳本中加入BUILD_IDdontKillMe server為二進制文件 #!/bin/bashBUILD_IDdontKillMenohup ./server & 原理:jenkins默認會在構建完成后殺掉構建過程中shell命令觸發的衍生進程。jenkins根據BUILD_ID識別某個進程是否為構建過程的衍生進程,故…

常見鎖策略,CAS,synchrodized原理講解

🎥 個人主頁:Dikz12📕格言:那些在暗處執拗生長的花,終有一日會馥郁傳香歡迎大家👍點贊?評論?收藏 目錄 常見鎖策略 樂觀鎖和悲觀鎖 輕量級鎖和重量級鎖 自旋鎖和掛起等待鎖 讀寫鎖 公平鎖和非公平鎖…

基于Java+SpringBoot+Vue.js前后端分離玩具購物商城系統設計和實現 可行性分析

博主介紹:黃菊華老師《Vue.js入門與商城開發實戰》《微信小程序商城開發》圖書作者,CSDN博客專家,在線教育專家,CSDN鉆石講師;專注大學生畢業設計教育和輔導。 所有項目都配有從入門到精通的基礎知識視頻課程&#xff…

已解決java.lang.NullPointerException異常的正確解決方法,親測有效!!!

已解決 java.lang.NullPointerException 異常的正確解決方法,親測有效!!! 文章目錄 問題分析 報錯原因 解決思路 總結 Q1 - 問題分析 在Java編程中,NullPointerException 可能是最常見的運行時異常之一。這種異…

基于Java在線考試網站系統 設計與實現(Springboot框架)畢業設計論文提綱參考

博主介紹:黃菊華老師《Vue.js入門與商城開發實戰》《微信小程序商城開發》圖書作者,CSDN博客專家,在線教育專家,CSDN鉆石講師;專注大學生畢業設計教育和輔導。 所有項目都配有從入門到精通的基礎知識視頻課程&#xff…

264.【華為OD機試真題】最長子字符串的長度(二)(動態規劃DP-JavaPythonC++JS實現)

??點擊這里可直接跳轉到本專欄,可查閱頂置最新的華為OD機試寶典~ 本專欄所有題目均包含優質解題思路,高質量解題代碼(Java&Python&C++&JS分別實現),詳細代碼講解,助你深入學習,深度掌握! 文章目錄 一. 題目-最長子字符串的長度(二)二.解題思路三.題解代碼…

Transformer 架構—Encoder-Decoder

文章目錄 前言 一、Encoder 家族 1. BERT 2. DistilBERT 3. RoBERTa 4. XML 5. XML-RoBERTa 6. ALBERT 7. ELECTRA 8. DeBERTa 二、Decoder 家族 1. GPT 2. GPT-2 3. CTRL 4. GPT-3 5. GPT-Neo / GPT-J-6B 三、Encoder-Decoder 家族 1. T5 2. BART 3. M2M-100 4. BigBird 前言 …

每日五道java面試題之spring篇(三)

目錄: 第一題 ApplicationContext和BeanFactory有什么區別?第二題 Spring中的事務是如何實現的?第三題 Spring中什么時候Transactional會失效?第四題 Spring容器啟動流程是怎樣的?第五題 Spring Boot、Spring MVC 和 S…

Sip網絡廣播號角,sip廣播系統公共廣播系統有源喇叭

Sip網絡廣播號角,sip廣播系統公共廣播系統有源喇叭 SV-7044VP網絡有源喇叭,具有10/100M以太網接口,內置高品質揚聲器,通過自帶放大器播放網絡音頻,揚聲器輸出功率高達30W,還支持設置最多10個組播優先區域&…

js如何拋異常,拋自定義的異常

js如何拋異常,拋自定義的異常 最簡單的自定義異常 throw "hello" 來自chrome123的控制臺的測試 throw "hello" VM209:1 Uncaught hello (匿名) VM209:1 try{ throw "hello";}catch(e){console.log(e);} VM338:1 hello…

nuxt項目搭建

1.先下載nuxt腳手架 yarn create nuxt-app <項目名>&#xff0c;記得安裝完項目&#xff0c;npm i,下載node包 目錄介紹 components 存放組件分別是頭部&#xff08;包含導航&#xff09;和底部 layouts 頁面布局&#xff0c;實現一個頁面整體架構規則&#xff0c;頭…

XTuner InternLM-Chat 個人小助手認知微調實踐

要解決的問題&#xff1a; 如何讓模型知道自己做什么&#xff0c;是什么樣身份。是誰創建了他&#xff01;&#xff01;&#xff01; 概述 目標&#xff1a;通過微調&#xff0c;幫助模型認清了解對自己身份弟位 方式&#xff1a;使用XTuner進行微調 微調前&#xff08;回答…

精致女童時尚穿搭~你想要的我都有哦

不論是版型還是顏色 都絕絕子的一件輕薄外套 整件看著干凈利落有設計感 兩側按扣式口袋超級實用的 穿著透氣不悶熱 搭配各種風格的褲子都一絕

【安卓基礎5】中級控件

&#x1f3c6;作者簡介&#xff1a;|康有為| &#xff0c;大四在讀&#xff0c;目前在小米安卓實習&#xff0c;畢業入職 &#x1f3c6;本文收錄于 安卓學習大全持續更新中&#xff0c;歡迎關注 &#x1f3c6;安卓學習資料推薦&#xff1a; 視頻&#xff1a;b站搜動腦學院 視頻…

中東阿拉伯阿聯酋迪拜媒體宣發稿新聞報道推廣有哪些平臺渠道?跨境出海營銷

【本篇由言同數字科技有限公司原創】阿拉伯聯合酋長國是一個經濟和文化極為繁榮的地區&#xff0c;其中的迪拜更是以其獨特的地理位置、國際化的環境和世界級的商業和金融中心而出名。 1. 全球市場&#xff1a;阿聯酋迪拜是一個全球化的商業樞紐&#xff0c;吸引了來自世界各地…

無線聽覺新體驗:南卡、韶音、墨覺骨傳導耳機綜合評測

作為一個資深的跑步愛好者&#xff0c;我幾乎離不開音樂的陪伴。不知道大家有沒有同感&#xff0c;有時候一首歌曲就是我堅持下去的動力&#xff0c;尤其是在那段艱難的跑步時刻。但是找到一款既能讓我在運動中自由呼吸、又能提供優質音樂體驗的耳機&#xff0c;并不是一件容易…