谷歌上新!最強開源模型Gemma 2,27B媲美LLaMA3 70B,挑戰3140億Grok-1

文章目錄

    • LMSYS Chatbot Arena:開源模型性能第一
    • Gemma為什么這么強?
      • 架構創新
      • 對AI安全性的提升

A領域競爭激烈,GPT-4o 和 Claude 3.5 Sonnet 持續發力,谷歌迅速跟進。

谷歌為應對AI競爭所采取的策略:依靠 Gemini 閉源模型對抗 OpenAI,再通過 Gemma 模型牽制 Meta 的開源模型。Gemma 雖然采用了和 Gemini 同源的技術,但參數規模更為輕量。

在這里插入圖片描述

6月28日,在I/O Connect大會上,谷歌發布新一代最強開源模型 Gemma 2,共有 90 億參數(9B)和 270 億參數(27B)兩種大小。據谷歌介紹,與第一代 Gemma 模型相比,Gemma 2 的性能更高、推理效率更快,并且安全性也更有保障,可在單個NVIDIA H100或TPU主機上運行。

Gemma 2的核心亮點概括來說就是:參數雖小但性能極佳。

  1. 性能遠超同同等規模模型。27B 模型在性能上能夠與比其大兩倍的模型相媲美,9B 模型也優于 Meta 的 Llama 3 8B 等相似尺寸的開源模型。

在這里插入圖片描述

  1. Gemma 2 的突出優勢在于其效率上的提升。27B 模型支持在單個Google Cloud TPU主機、英偉達的A100 80GB Tensor Core GPU或H100 Tensor Core GPU上以全精度運行推理,這能夠極大地降低部署AI模型所需的硬件要求和成本。

  2. Gemma 2 優化了跨硬件的超快推理。比如在 Google AI Studio 中嘗試全精度的Gemma 2,在CPU上使用量化版本 Gemma.cpp解鎖本地性能,或通過 Hugging Face Transformers庫在配備英偉達RTX或GeForce RTX的家用電腦上,均可使用。

目前,模型權重已經在HuggingFace上公開。
在這里插入圖片描述

項目地址:https://huggingface.co/collections/google/gemma-2-release-667d6600fd5220e7b967f315

LMSYS Chatbot Arena:開源模型性能第一

Gemma 2 在LMSYS競技場上取得了亮眼的成績。

在總體評分上,Gemma 2 取到了開源模型最高分,而且用 27B 的參數「以小搏大」,超過了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量級的知名模型,而Gemma 2 9B 的排名甚至比肩Qwen 2 72B。

在這里插入圖片描述

新的排行類別「多輪對話」,包括兩輪或多輪的測試,以衡量模型在更長時間內交互的能力。

在「多輪對話」排行榜上,Claude家族的排名顯著提升,Gemma 2 的表現依舊強勁。Gemma 2 實現了2個名次的進步,進入前十行列,而且壓了 Llama 3-70B-Instruct 一頭。

在這里插入圖片描述

Gemma為什么這么強?

架構創新

Gemma 2 在設計的架構上均有創新,旨在實現卓越的性能和提高推理效率。

Gemma 2 訓練數據量大約是第一代的兩倍。27B模型的訓練數據有13萬億token,9B模型和2.6B模型則分別為8萬億、2萬億token。

基于Transformer解碼器架構,與 Gemma 1 不同之處在于,Gemma 2 每隔一層交替使用局部滑動窗口注意力和全局注意力機制,引入了分組查詢注意力(GQA)以提高推理速度,相比 Gemma 1 也使用了更深的網絡結構。

在這里插入圖片描述

圖注:Gemma 2 關鍵模型參數

  • 局部滑動窗口和全局注意力:Gemma 2 交替使用局部滑動窗口和全局注意力,滑動窗口大小設置為4096 token,而全局注意力層的設置為8192 token。
  • Logit軟上限:按照Gemini 1.5版,Gemma 對每個注意層和最終層的logit進行軟封頂。通過將logits設置在一個合理的固定范圍內,可以有效提升訓練的穩定性,防止內容過長。
  • 使用RMSNorm進行前后歸一化:為了使訓練更加穩定,Gemma 2 運用了 RMSNorm 對每個轉換層、注意層和反饋層的輸入和輸出進行歸一化。這一步和Logit軟上限都使得模型訓練更穩定平滑,不易出現崩潰。
  • 分組查詢注意力:GQA通過將算力集中于注意力分組內,提升數據處理速度,同時保持下游性能。
  • 知識蒸餾:能夠訓練出有競爭力性能的9B和27B模型,成功的知識蒸餾過程估計是最為重要的環節。

技術報告中也有Gemma 2的更多信息。

在這里插入圖片描述

報告地址:https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/

對AI安全性的提升

Gemma 2在實用高效的同時,也從安全角度做出了新舉措。

谷歌致力于為開發人員和研究人員提供構建和部署AI所需的資源,提供了「負責任的生成式AI工具包」。最近,谷歌開源了LLM Comparator,可以幫助評估語言模型,并通過Python庫進行比較和可視化。此外,谷歌正致力于為 Gemma 模型開源文本水印技術 SynthID。

在訓練 Gemma 2 時,遵循了嚴格的內部安全流程,預訓練數據都經過了嚴格的篩選,并根據全面指標進行了測試,以識別和減輕偏見和風險。谷歌還發布了大量與安全和代表性損害相關的公共基準測試結果。

在這里插入圖片描述

Gemma 2目前可以在Google AI Studio中使用,在Gemma 27B下測試其全部性能,而無需硬件要求。
此外,為方便研發人員使用,Gemma 2還可通過Kaggle或谷歌Colab免費獲取。

參考資料:
https://blog.google/technology/developers/google-gemma-2/
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf

歡迎各位關注我的個人微信公眾號:HsuDan,我將分享更多自己的學習心得、避坑總結、面試經驗、AI最新技術資訊。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/42308.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/42308.shtml
英文地址,請注明出處:http://en.pswp.cn/web/42308.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

hdu物聯網硬件實驗3 按鍵和中斷

學院 班級 學號 姓名 日期 成績 實驗題目 按鍵和中斷 實驗目的 實現閃燈功能轉換 硬件原理 無 關鍵代碼及注釋 /* Button Turns on and off a light emitting diode(LED) connected to digital pin 13, when pressing a pushbutton attached…

AI端側大模型未來發展趨勢

一、定義與優勢 端側AI大模型是指基于移動終端設備上的大型神經網絡模型,這些模型能夠在本地設備(如智能手機、PC、汽車、XR以及物聯網設備等)上直接運行和處理人工智能算法,實現如圖像識別、語音識別、自然語言處理等任務。端側…

解決WSL2報錯:當前電腦配置不支持WSL2,請啟用虛擬機平臺 Windows 功能并確保在 BIOS 中啟用虛擬化

事情要追溯到突發奇想下載了騰訊的手游模擬器開始。。。因為一直閃退,模擬器自檢就要求把虛擬化功能關閉了,結果還是一直閃退,WSL2也給我報錯了。。。大無語 主要通過以下兩個步驟解決,操作了之后需要把電腦重啟: 一、…

docker里日志分割的方法

在Docker中對日志進行按大小分割(log rotation)是一個常見的需求,因為長時間運行的容器可能會生成大量日志,導致磁盤空間不足。Docker提供了內置的日志管理功能,可以通過配置日志驅動來實現日志的自動分割。以下是具體…

安卓系統裁剪原生app

目錄 前言一、修改build目錄main.mk二、修改build目錄product.mk三、在.mk中使用PRODUCT_DEL_PACKAGES屬性 前言 安卓系統裁剪預置應用或服務基本步驟 一、修改build目錄main.mk ifdef FULL_BUILD# The base list of modules to build for this product is specified# by th…

小程序做自定義分享封面圖,Canvas base64圖片數據真機上不顯示?【已解決】

首選說一下需求,做一個小程序分享,但是封面圖要自定義,除了要有對應商品還有有背景圖,商品名。類似這種 實現邏輯,把商品圖和背景圖,再加上價格和商品名用canvas 渲染出來 這是弄好之后的效果圖&#xff0…

管理者要勇敢做“壞人”

有點正義感的人都對壞人深惡痛絕,但在團隊管理上,有一種觀念或許會讓你感到意外,那就是管理者要敢于做“壞人”。這并不是讓管理者去做惡,而是在某些關鍵時刻,要有勇氣打破常規的“好人”形象,做出不受歡迎…

執行數據庫語句時沒有報錯,并且提示執行成功,但在數據庫中沒有新增數據

這可能是因為你沒有提交事務。在執行 INSERT、UPDATE 或 DELETE 等修改數據的操作后,需要明確地提交事務才能將更改持久化到數據庫中。 以下是一個示例,展示python中如何在執行 INSERT 語句后提交事務: import pymysql# MySQL數據庫連接配置…

SpringSecurity中文文檔(Servlet Method Security)

Method Security 除了在請求級別進行建模授權之外&#xff0c;Spring Security 還支持在方法級別進行建模。 您可以在應用程序中激活它&#xff0c;方法是使用EnableMethodSecurity 注釋任何Configuration 類&#xff0c;或者將 < method-security > 添加到任何 XML 配…

springbootAl農作物病蟲害預警系統-計算機畢業設計源碼21875

摘要 隨著農業現代化的推進&#xff0c;農作物病蟲害的防治已成為農業生產中的重要環節。傳統的病蟲害防治方法往往依賴于農民的經驗和觀察&#xff0c;難以準確、及時地預測和防控病蟲害的發生。因此&#xff0c;開發一種基于現代信息技術的農作物病蟲害預警系統&#xff0c;對…

【計算機畢業設計】012基于微信小程序的科創微應用平臺

&#x1f64a;作者簡介&#xff1a;擁有多年開發工作經驗&#xff0c;分享技術代碼幫助學生學習&#xff0c;獨立完成自己的項目或者畢業設計。 代碼可以私聊博主獲取。&#x1f339;贈送計算機畢業設計600個選題excel文件&#xff0c;幫助大學選題。贈送開題報告模板&#xff…

Python數據分析實戰,公交車站點設置優化分析,案例教程編程實例課程詳解

一、引言 隨著城市化進程的加快,公共交通在城市交通中扮演著越來越重要的角色。公交車站點作為公共交通系統的重要組成部分,其布局設計直接影響到公共交通的運輸效率和市民的出行體驗。本文將通過Python數據分析的方法,對某城市的公交車站點設置進行優化分析,旨在提出合理的…

解決vite 斷點調試定位不準確問題

問題&#xff1a;vite構建時&#xff0c;控制臺報錯行數等信息定位不準確或debugger斷點調試定位不準確 解決&#xff1a;F12后打開設置面板&#xff0c;把“JavaScript源代碼映射”去掉可臨時解決&#xff0c;如需永久解決需升級vite到最新版 還有一種&#xff1a; 參考&…

esp32_spfiffs

生成 spiffs image python spiffsgen.py <image_size> <base_dir> <output_file> eg, python spiffsgen.py 0x2000 ./folder hello.bin Arduino 的庫有例子可以直接用于 OTA 升級 spiffs 分區 HTTPUpdateResult HTTPUpdate::updateSpiffs(HTTPClient &h…

7.9 cf div3

BProblem - B - Codeforces 題目解讀&#xff1a; 找到嚴格大于相鄰數字的數&#xff0c;將其減一&#xff0c;直到整個數組成為穩定的&#xff08;不存在數字嚴格大于相鄰數&#xff09; ac代碼 #include<bits/stdc.h> typedef long long ll;#define IOS ios::sync_w…

免費白嫖A100活動開始啦,InternLM + LlamaIndex RAG 實踐

內容來源&#xff1a;Docs 前置知識&#xff1a; 檢索增強生成&#xff08;Retrieval Augmented Generation&#xff0c;RAG&#xff09; LlamaIndex LlamaIndex 是一個上下文增強的 LLM 框架&#xff0c;旨在通過將其與特定上下文數據集集成&#xff0c;增強大型語言模型&a…

如何選擇可靠的三方支付公司?

選擇可靠的三方支付公司需要考慮以下幾個方面&#xff1a; - 資質和信譽&#xff1a;確保支付公司具有合法的資質和良好的信譽&#xff0c;可以查看其營業執照、支付業務許可證等相關證件。 - 安全性&#xff1a;了解支付公司的安全措施&#xff0c;如加密技術、風險控制體系等…

【康復學習--LeetCode每日一題】2965. 找出缺失和重復的數字

題目&#xff1a; 給你一個下標從 0 開始的二維整數矩陣 grid&#xff0c;大小為 n * n &#xff0c;其中的值在 [1, n2] 范圍內。除了 a 出現 兩次&#xff0c;b 缺失 之外&#xff0c;每個整數都 恰好出現一次 。 任務是找出重復的數字a 和缺失的數字 b 。 返回一個下標從 0…

探索回歸模型的奧秘:從理論到實踐,以PlugLink為例

回歸模型初探 回歸分析&#xff0c;顧名思義&#xff0c;旨在探索兩個或多個變量之間的關系&#xff0c;特別是當一個變量&#xff08;因變量&#xff09;依賴于其他一個或多個變量&#xff08;自變量&#xff09;時&#xff0c;它能夠預測因變量的值。常見的回歸模型包括線性…

spring web flux 記錄用戶日志及異常日志

package cn.finopen.boot.autoconfigure.aop;Configuration EnableAspectJAutoProxy Order public class EndpointLogAopConfiguration {/*** 請求方法白名單*/private static final String[] METHOD_WHITE_LIST {"get", "unreadCount", "find"…