大家好,我是 Ai 學習的老章
最近除了阿里?Qwen3?模型更新了圖片生成和處理能力,大家都可以玩轉吉卜力風格
還有幾個最近發布的大模型值得關注
-
1 是騰訊開源了 80B 混元 A13B 模型,亮點是精度無損的 int4 很能打
-
2 是谷歌開源的小參數
Gemma 3n
多模態大模型,亮點是可以在手機端運行 -
3 是我剛剛發現的一個小參數超長上下文大模型
Jan-nano-128k
,亮點是只有 2.5GB 的Q4_K_M
版即可擁有 128K 超長上下文
騰訊混元 A13B
官方技術博客介紹的足夠詳細了,感興趣大家可以細看[1]
試用地址:https://hunyuan.tencent.com/?model=hunyuan-a13b
核心特性與優勢
-
?小參數量,高性能?:僅激活 130 億參數(總參數量 800 億),即可在多樣化基準任務中媲美更大規模模型的競爭力表現
-
?混合推理支持?:同時支持快思考和慢思考兩種模式,支持用戶靈活選擇,模型的默認輸出是慢思考模式,若想讓模型進行快思考,可在 query 前附加上 "/no_think"
-
?超長上下文理解?:原生支持 256K 上下文窗口,在長文本任務中保持穩定性能
-
?增強 Agent 能力?:優化 Agent 能力,在 BFCL-v3、τ-Bench、C3-Bench 等智能體基準測試中領先
-
?高效推理?:采用分組查詢注意力(GQA)策略,支持多量化格式,實現高效推理
我是看的 modelscope 上的中文總結版技術博客[2],感覺有幾個方面值得關注
1 是騰訊開源了兩個新數據集:ArtifactsBench 旨在彌合代碼評估中的視覺與交互鴻溝[3],而 C3-Bench 則是專為智能體設計的評估數據集,用于揭示模型弱點并推動性能可解釋性研究[4]
2 是 A13B 在數學、科學、agent 等領域可以和OpenAI-o1-1217
、DeepSeek R1
、Qwen3-A22B
掰手腕。Agent
3是Hunyuan-A13B-Instruct-GPTQ-Int4 量化模型與 Instruct 差別極小,幾乎是精度無損!
Bench | Hunyuan-A13B-Instruct | Hunyuan-A13B-Instruct-GPTQ-Int4 |
---|---|---|
OlympiadBench | 82.7 | 84.0 |
AIME 2024 | 87.3 | 86.7 |
Gsm8k | 94.39 | 94.24 |
BBH | 89.1 | 87.91 |
DROP | 91.1 | 91.05 |
這樣的話,本地部署,完全可以直接使用 int4 版本了
完整版本模型文件 160GB,int 只有不到 44GB,我感覺 4 張 4090 就可以跑起來了
https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/
int4 版部署
#?下載模型:
#?ModelScope:?
modelscope?download?--model?Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4#?拉取
國內:
docker?pull?docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm?#?使用modelscope下載的模型起服務
docker?run??--privileged?--user?root??--net=host?--ipc=host?\-v?~/.cache/modelscope:/root/.cache/modelscope?\--gpus=all?-it?--entrypoint?python???docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm?\-m?vllm.entrypoints.openai.api_server?--host?0.0.0.0?--tensor-parallel-size?4?\--port?8000?--model?/root/.cache/modelscope/hub/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/?--trust_remote_code
DeepSeek-R1 運行成本還是太高了,44GB 的Hunyuan-A13B-Instruct-GPTQ-Int4
在數學、推理、Agent 方面值得深入測試一下。
谷歌 Gemma 3n
谷歌 Gemma 又填新成員,往端側運行發展的小模型 -3n
-
多模態原生設計:Gemma 3n 天然支持圖像、音頻、視頻和文本輸入,并輸出文本結果。
-
為端側優化而生:Gemma 3n 以效率為核心設計理念,提供 E2B 和 E4B 兩種有效參數規模的版本。雖然原始參數分別為 50 億和 80 億,但架構創新使其運行時內存占用僅相當于傳統的 20 億和 40 億參數模型,最低僅需 2GB(E2B)和 3GB(E4B)內存即可運行。
-
突破性架構:Gemma 3n 的核心創新包括 MatFormer 架構(實現計算靈活性)、逐層嵌入技術 PLE(提升內存效率)、LAuReL 與 AltUp(優化架構效率),以及專為端側場景優化的新型音頻編碼器和基于 MobileNet-v5 的視覺編碼器。
-
卓越性能:Gemma 3n 在多語言支持(覆蓋 140 種文本語言和 35 種多模態語言理解)、數學運算、代碼生成及邏輯推理方面實現全面升級。其 E4B 版本 LMArena 得分突破 1300 分,成為首個參數量低于 100 億卻達到該基準的模型。
只值得期待的就是:如此之低的成本即可擁有端側運行的多模態大模型
我看外面網友的實測,Gemma 3n 的語音轉文字與翻譯功能是不錯的。
不過這個模最該關注的還是其在端側運行的情況
谷歌已經將這些模型上架安卓端的 Edge Gallery 應用,考慮到該應用支持 GPU 卸載功能,這應該是最佳使用方式。
但是有網友測試在高通驍龍 6 代 4 處理器(僅 CPU)上每秒生成 4-5 個 token,太慢了,幾乎不可用。
目前還是保持關注吧,更多資源大家自行探索:
-
Hugging Face?
https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4
-
Unsloth?
https://unsloth.ai/blog/gemma-3n
-
HF 博客
https://huggingface.co/blog/gemma3n
-
LMStudio?
https://lmstudio.ai/models/google/gemma-3n-e4b
-
Ollama?
https://ollama.com/library/gemma3n
-
AI Studio?
http://ai.dev
-
Kaggle?
https://www.kaggle.com/models/google/gemma-3n
-
MLX?
https://huggingface.co/collections/mlx-community/gemma-3n-685d6c8d02d7486c7e77a7dc
-
ONNX/transformers.js?
https://huggingface.co/onnx-community/gemma-3n-E2B-it-ONNX
-
Vertex?
https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma3n
-
GGUF 模型發布地址
https://huggingface.co/collections/ggml-org/gemma-3n-685d6fc0843071be9e77b6f7
Jan-nano-128k
這個就比較小眾了,稍微有點名氣是 Jan
Jan 是一款可完全離線運行在桌面端且即將支持移動端的類 ChatGPT 工具,旨在讓任何人,無論是否具備編程技能,都能在充分掌控和保障隱私的前提下下載和使用 AI 模型。
這個ChatBot
還是不錯的,支持本地、API 接入大模型 ![https://jan.ai/download
還支持 MCP 和自定義助手指令
Connect Remote APIs
Jan-Nano-128k
是 Menlo Research 推出的增強版緊湊型語言模型,專為研究應用設計。它的主要特點和優勢包括:
-
原生128k上下文窗口:可高效處理長達 128k tokens 的文本,如完整論文、長文檔和復雜多輪對話,且不會像傳統擴展方法那樣性能下降。
-
性能提升:在長上下文任務中表現優于前代模型,適合深度文檔分析、多文檔綜合和復雜推理。
-
兼容性:完全兼容 Model Context Protocol (MCP) 服務器,便于集成到現有研究工作流。
-
推薦采樣參數:Temperature 0.7,Top-p 0.8,Top-k 20,Min-p 0.0。
-
模型架構:基于 Qwen3 架構,參數量為 4.02B,支持多種量化格式(3-bit 到 8-bit),適配不同硬件需求。
Jan-Nano-128k
已通過基于 MCP 的方法在 SimpleQA 基準測試中完成嚴格評估,其表現顯著優于前代模型:
部署:
#?使用?VLLM?進行部署:
vllm?serve?Menlo/Jan-nano-128k?\--host?0.0.0.0?\--port?1234?\--enable-auto-tool-choice?\--tool-call-parser?hermes?\--rope-scaling?'{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}'?--max-model-len?131072
本地運行成本極低,完整版本模型文件也就 8GB 左右
https://huggingface.co/Menlo/Jan-nano-128k/tree/main
unsloth
還放出了不同量化版本,Q4_K_M
版,只有 2.5GB
https://huggingface.co/unsloth/Jan-nano-128k-GGUF/tree/main
我還沒有測試,感覺資源有限情況下,在需要處理超長文本、深度分析和多文檔推理的研究任務中,這個模型還是值得期待一下其表現的。
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個🌟,謝謝你看我的文章,我們下篇再見!
搭建完美的寫作環境:工具篇(12 章)
圖解機器學習 - 中文版(72 張 PNG)
ChatGPT、大模型系列研究報告(50 個 PDF)
108 頁 PDF 小冊子:搭建機器學習開發環境及 Python 基礎
116 頁 PDF 小冊子:機器學習中的概率論、統計學、線性代數
史上最全!371 張速查表,涵蓋 AI、ChatGPT、Python、R、深度學習、機器學習等
參考資料
[1]
官方技術博客介紹的足夠詳細了,感興趣大家可以細看: https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/report/Hunyuan_A13B_Technical_Report.pdf
[2]
我是看的 modelscope 上的中文總結版技術博客: https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct/summary
[3]
ArtifactsBench 旨在彌合代碼評估中的視覺與交互鴻溝: https://github.com/Tencent-Hunyuan/ArtifactsBenchmark
[4]
C3-Bench 則是專為智能體設計的評估數據集,用于揭示模型弱點并推動性能可解釋性研究: https://github.com/Tencent-Hunyuan/C3-Benchmark