全新大模型開源，騰訊（int4能打DeepSeek） Vs 谷歌（2GB運行多模態）

大家好，我是 Ai 學習的老章

最近除了阿里?Qwen3?模型更新了圖片生成和處理能力，大家都可以玩轉吉卜力風格

還有幾個最近發布的大模型值得關注

1 是騰訊開源了 80B 混元 A13B 模型，亮點是精度無損的 int4 很能打
2 是谷歌開源的小參數 Gemma 3n 多模態大模型，亮點是可以在手機端運行
3 是我剛剛發現的一個小參數超長上下文大模型 Jan-nano-128k，亮點是只有 2.5GB 的Q4_K_M版即可擁有 128K 超長上下文

騰訊混元 A13B

官方技術博客介紹的足夠詳細了，感興趣大家可以細看[1]

試用地址：https://hunyuan.tencent.com/?model=hunyuan-a13b

核心特性與優勢

?小參數量，高性能?：僅激活 130 億參數（總參數量 800 億），即可在多樣化基準任務中媲美更大規模模型的競爭力表現
?混合推理支持?：同時支持快思考和慢思考兩種模式，支持用戶靈活選擇，模型的默認輸出是慢思考模式，若想讓模型進行快思考，可在 query 前附加上 "/no_think"
?超長上下文理解?：原生支持 256K 上下文窗口，在長文本任務中保持穩定性能
?增強 Agent 能力?：優化 Agent 能力，在 BFCL-v3、τ-Bench、C3-Bench 等智能體基準測試中領先
?高效推理?：采用分組查詢注意力（GQA）策略，支持多量化格式，實現高效推理

我是看的 modelscope 上的中文總結版技術博客[2]，感覺有幾個方面值得關注

1 是騰訊開源了兩個新數據集：ArtifactsBench 旨在彌合代碼評估中的視覺與交互鴻溝[3]，而 C3-Bench 則是專為智能體設計的評估數據集，用于揭示模型弱點并推動性能可解釋性研究[4]

2 是 A13B 在數學、科學、agent 等領域可以和OpenAI-o1-1217、DeepSeek R1、Qwen3-A22B掰手腕。Agent

3是Hunyuan-A13B-Instruct-GPTQ-Int4 量化模型與 Instruct 差別極小，幾乎是精度無損！

Bench	Hunyuan-A13B-Instruct	Hunyuan-A13B-Instruct-GPTQ-Int4
OlympiadBench	82.7	84.0
AIME 2024	87.3	86.7
Gsm8k	94.39	94.24
BBH	89.1	87.91
DROP	91.1	91.05

這樣的話，本地部署，完全可以直接使用 int4 版本了

完整版本模型文件 160GB，int 只有不到 44GB，我感覺 4 張 4090 就可以跑起來了

https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/

int4 版部署

#?下載模型：
#?ModelScope:?
modelscope?download?--model?Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4#?拉取
國內：
docker?pull?docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm?#?使用modelscope下載的模型起服務
docker?run??--privileged?--user?root??--net=host?--ipc=host?\-v?~/.cache/modelscope:/root/.cache/modelscope?\--gpus=all?-it?--entrypoint?python???docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm?\-m?vllm.entrypoints.openai.api_server?--host?0.0.0.0?--tensor-parallel-size?4?\--port?8000?--model?/root/.cache/modelscope/hub/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/?--trust_remote_code

DeepSeek-R1 運行成本還是太高了，44GB 的Hunyuan-A13B-Instruct-GPTQ-Int4在數學、推理、Agent 方面值得深入測試一下。

谷歌 Gemma 3n

谷歌 Gemma 又填新成員，往端側運行發展的小模型 -3n

多模態原生設計：Gemma 3n 天然支持圖像、音頻、視頻和文本輸入，并輸出文本結果。
為端側優化而生：Gemma 3n 以效率為核心設計理念，提供 E2B 和 E4B 兩種有效參數規模的版本。雖然原始參數分別為 50 億和 80 億，但架構創新使其運行時內存占用僅相當于傳統的 20 億和 40 億參數模型，最低僅需 2GB（E2B）和 3GB（E4B）內存即可運行。
突破性架構：Gemma 3n 的核心創新包括 MatFormer 架構（實現計算靈活性）、逐層嵌入技術 PLE（提升內存效率）、LAuReL 與 AltUp（優化架構效率），以及專為端側場景優化的新型音頻編碼器和基于 MobileNet-v5 的視覺編碼器。
卓越性能：Gemma 3n 在多語言支持（覆蓋 140 種文本語言和 35 種多模態語言理解）、數學運算、代碼生成及邏輯推理方面實現全面升級。其 E4B 版本 LMArena 得分突破 1300 分，成為首個參數量低于 100 億卻達到該基準的模型。

只值得期待的就是：如此之低的成本即可擁有端側運行的多模態大模型

我看外面網友的實測，Gemma 3n 的語音轉文字與翻譯功能是不錯的。

不過這個模最該關注的還是其在端側運行的情況

谷歌已經將這些模型上架安卓端的 Edge Gallery 應用，考慮到該應用支持 GPU 卸載功能，這應該是最佳使用方式。

但是有網友測試在高通驍龍 6 代 4 處理器（僅 CPU）上每秒生成 4-5 個 token，太慢了，幾乎不可用。

目前還是保持關注吧，更多資源大家自行探索：

Hugging Face?https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4
Unsloth?https://unsloth.ai/blog/gemma-3n
HF 博客 https://huggingface.co/blog/gemma3n
LMStudio?https://lmstudio.ai/models/google/gemma-3n-e4b
Ollama?https://ollama.com/library/gemma3n
AI Studio?http://ai.dev
Kaggle?https://www.kaggle.com/models/google/gemma-3n
MLX?https://huggingface.co/collections/mlx-community/gemma-3n-685d6c8d02d7486c7e77a7dc
ONNX/transformers.js?https://huggingface.co/onnx-community/gemma-3n-E2B-it-ONNX
Vertex?https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma3n
GGUF 模型發布地址 https://huggingface.co/collections/ggml-org/gemma-3n-685d6fc0843071be9e77b6f7

Jan-nano-128k

這個就比較小眾了，稍微有點名氣是 Jan

Jan 是一款可完全離線運行在桌面端且即將支持移動端的類 ChatGPT 工具，旨在讓任何人，無論是否具備編程技能，都能在充分掌控和保障隱私的前提下下載和使用 AI 模型。

這個ChatBot還是不錯的，支持本地、API 接入大模型 ![https://jan.ai/download

還支持 MCP 和自定義助手指令

Connect Remote APIs

Jan-Nano-128k 是 Menlo Research 推出的增強版緊湊型語言模型，專為研究應用設計。它的主要特點和優勢包括：

原生128k上下文窗口：可高效處理長達 128k tokens 的文本，如完整論文、長文檔和復雜多輪對話，且不會像傳統擴展方法那樣性能下降。
性能提升：在長上下文任務中表現優于前代模型，適合深度文檔分析、多文檔綜合和復雜推理。
兼容性：完全兼容 Model Context Protocol (MCP) 服務器，便于集成到現有研究工作流。
推薦采樣參數：Temperature 0.7，Top-p 0.8，Top-k 20，Min-p 0.0。
模型架構：基于 Qwen3 架構，參數量為 4.02B，支持多種量化格式（3-bit 到 8-bit），適配不同硬件需求。

Jan-Nano-128k 已通過基于 MCP 的方法在 SimpleQA 基準測試中完成嚴格評估，其表現顯著優于前代模型：

部署：

#?使用?VLLM?進行部署：
vllm?serve?Menlo/Jan-nano-128k?\--host?0.0.0.0?\--port?1234?\--enable-auto-tool-choice?\--tool-call-parser?hermes?\--rope-scaling?'{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}'?--max-model-len?131072

本地運行成本極低，完整版本模型文件也就 8GB 左右