自從 DeepSeek 把訓練成本打下來之后,各個模型廠家現在不再堆參數進行模型的能力對比。而是轉向了訓練成本優化方面,且還要保證模型能力不減反增的效果。包括使用較少的模型參數,降低 GPU 使用數量,降低模型內存占用等等技術手段。這里可以查看?DeepSeek 開源周發布的優化策略。
谷歌正式發布了全新一代 AI 模型 Gemma 3!這可不是簡單的升級,而是用了 Gemini 2.0 同款技術打造的 最先進、最便攜、最負責任的開放模型!啥意思?簡單說,就是性能更強、體積更小、更安全!更重要的是,它能在各種設備上 飛速運行,從你的手機、筆記本到專業工作站,都能輕松駕馭!Gemma 3 有多種尺寸(1B、4B、12B 和 27B),可以根據特定的硬件和性能需求選擇最佳模型。
Gemma 3 是多模態的!40 億、120 億和 270 億個參數模型可以處理圖像和文本,而 1B 版本只能處理文本。對于 1B 版本,輸入上下文窗口長度已從 Gemma 2 的 8k 增加到32k ,對于其他所有版本,則增加到 128k。與其他 VLM(視覺語言模型)一樣,Gemma 3 會根據用戶輸入生成文本,這些文本可能由文本組成,也可能由圖像組成。
與 Gemma2 相比,雖然模型參數沒有增加,但是上下文長度增加到了 128K,而且還是一個多模態的模型,不僅識別文本,還支持圖片與視頻內容的交互。更是支持了 140 種語言能力,簡直不要太強大。
Gemma 3 性能特點?
- 性能怪獸,單卡 GPU 就能起飛! Gemma 3 在 LMArena 排行榜上直接超越了 Llama3、DeepSeek 等一眾大佬!這意味著在單個 GPU 或 TPU 上,就能創建絲滑流暢的 AI 體驗!
- 140 種語言精通,走遍全球都不怕! 別再擔心語言障礙!Gemma 3 開箱即用支持超過 35 種語言,預訓練更是覆蓋 140 多種語言!
- 文能識圖寫詩,武能函數調用! 輕松搞定圖片、文本、短視頻分析,開啟交互式智能新紀元!函數調用也安排上了,自動執行任務、構建智能 Agent,不在話下!
- 海量信息輕松應對! 128k Token 上下文窗口,再復雜的任務,再多的信息,都能 hold 住!
- 官方量化版本,性能加速! 體積更小,計算更快,精度還不變!簡直是為移動端量身定制!
一張圖告訴你 Gemma 3 有多強:
看到了嗎?Gemma 3 (27B) 在眾多 AI 模型中脫穎而出!而且只需要一個 GPU,而其他模型可能需要多達 32 個!不僅如此,27B 參數的模型竟然超過了 671B 參數的 DeepSeek V3 模型,簡直不要太好用。這么小參數量的模型,完全可以跑在自己電腦上面了。普通電腦配置也能跑大模型了。
Gemma3 性能在最優點
安全第一,谷歌這次玩真的!
谷歌深知開放模型需要謹慎的風控!Gemma 3 經歷了嚴格的安全評估,包括數據管理、安全微調和基準評估。即使是增強的 STEM 性能也經過了特定評估,以確保濫用風險較低。
ShieldGemma 2:為圖像應用保駕護航!
除了 Gemma 3,谷歌還推出了 ShieldGemma 2!這是一個基于 Gemma 3 構建的強大圖像安全檢查器,能夠識別“危險內容、色情和暴力”!而且它是開源的,開發者可以根據需求進行定制!
Gemma 3 評估
在 LMSys Chatbot Arena 上,Gemma 3 27B IT 的 Elo 分數為1339,躋身前 10 個最佳模型之列,包括領先的封閉模型。Elo 與 o1-preview 相當,并且高于其他非思考開放模型。與表中的其他 LLM 一樣,Gemma 3 僅處理文本輸入即可獲得此分數。
Gemma 3 已通過 MMLU-Pro(27B:67.5)、LiveCodeBench(27B:29.7)和 Bird-SQL(27B:54.4)等基準測試進行評估,與封閉式 Gemini 模型相比,其性能更具競爭力。GPQA Diamond(27B:42.4)和 MATH(27B:69.0)等測試凸顯了其推理和數學技能,而 FACTS Grounding(27B:74.9)和 MMMU(27B:64.9)則展示了強大的事實準確性和多模態能力。然而,它在 SimpleQA(27B:10.0)的基本事實方面落后。與 Gemini 1.5 模型相比,Gemma 3 通常很接近,有時甚至更好,證明了其作為可訪問、高性能選項的價值。
無縫集成,即刻上手!
Gemma 3 和 ShieldGemma 2 可以輕松集成到你現有的工作流程中!支持 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch 等等!
#使用管道進行推理
import torch
from transformers import pipeline
pipe = pipeline("image-text-to-text",model="google/gemma-3-4b-it", # "google/gemma-3-12b-it", "google/gemma-3-27b-it" device="cuda",torch_dtype=torch.bfloat16)
messages = [{ "role": "user","content": [{"type": "image", "url": "candy.JPG"},{"type": "text", "text": "What animal is on the candy?"}]}]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
糖果上是什么動物?
讓我們分析一下圖片中的糖果吧!糖果上的動物是一只烏龜。
你可以清楚地看到龜殼和烏龜的頭和腿印在表面上。
使用 Transformer 進行推理
Transformer集成有兩個新的模型類:
Gemma3ForConditionalGeneration:適用于4B、12B和27B視覺語言模型。
Gemma3ForCausalLM:對于 1B 純文本模型
import torch
from transformers import AutoProcessor, Gemma3ForConditionalGeneration
ckpt = "google/gemma-3-4b-it"
model = Gemma3ForConditionalGeneration.from_pretrained(ckpt, device_map="auto", torch_dtype=torch.bfloat16,)
processor = AutoProcessor.from_pretrained(ckpt)
messages = [{"role": "user","content": [{"type": "image", "url": "password.jpg"},{"type": "text", "text": "What is the password?"}]}]
inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True,return_dict=True, return_tensors="pt"
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
密碼是什么?
根據圖片,密碼是aaeu
在線體驗
Gemma 3 不僅可以使用代碼進行執行,或者使用 ollama進行本地部署,若不想占用本地資源,也可以在線使用。可以直接在 hugging face 上面使用,當然也可以使用 Google studio 上面使用。
Gemmaverse 生態,無限可能!
谷歌還鼓勵社區基于 Gemma 構建各種應用和工具,形成一個龐大的 Gemmaverse 生態! AI Singapore 的 SEA-LION v3 打破語言障礙,促進了東南亞地區的交流;INSAIT 的 BgGPT 是首個保加利亞語大型語言模型;Nexa AI 的 OmniAudio 展示了設備內置 AI 的潛力!
Gemma 3 的發布,標志著 AI 技術民主化的又一里程碑!它將強大的 AI 能力帶到了每個人的指尖,讓開發者能夠創造出更多創新應用,改變我們的生活!不僅參數少,模型小,還可以在單個 GPU 上面運行,普通電腦也可以直接跑大模型了,而 DeepSeek 系列的模型需要 32 個 GPU,不是普通玩家玩的模型。
huggingface.co/blog/gemma3
blog.google/technology/developers/gemma-3/頭條號:人工智能研究所
v號:啟示AI科技
?動畫詳解transformer? 在線教程?