全新大模型開源,騰訊(int4能打DeepSeek) Vs 谷歌(2GB運行多模態)

大家好,我是 Ai 學習的老章

最近除了阿里?Qwen3?模型更新了圖片生成和處理能力,大家都可以玩轉吉卜力風格

還有幾個最近發布的大模型值得關注

  • 1 是騰訊開源了 80B 混元 A13B 模型,亮點是精度無損的 int4 很能打

  • 2 是谷歌開源的小參數 Gemma 3n 多模態大模型,亮點是可以在手機端運行

  • 3 是我剛剛發現的一個小參數超長上下文大模型 Jan-nano-128k,亮點是只有 2.5GB 的Q4_K_M版即可擁有 128K 超長上下文

騰訊混元 A13B

官方技術博客介紹的足夠詳細了,感興趣大家可以細看[1]

試用地址:https://hunyuan.tencent.com/?model=hunyuan-a13b

核心特性與優勢

  • ?小參數量,高性能?:僅激活 130 億參數(總參數量 800 億),即可在多樣化基準任務中媲美更大規模模型的競爭力表現

  • ?混合推理支持?:同時支持快思考和慢思考兩種模式,支持用戶靈活選擇,模型的默認輸出是慢思考模式,若想讓模型進行快思考,可在 query 前附加上 "/no_think"

  • ?超長上下文理解?:原生支持 256K 上下文窗口,在長文本任務中保持穩定性能

  • ?增強 Agent 能力?:優化 Agent 能力,在 BFCL-v3、τ-Bench、C3-Bench 等智能體基準測試中領先

  • ?高效推理?:采用分組查詢注意力(GQA)策略,支持多量化格式,實現高效推理

我是看的 modelscope 上的中文總結版技術博客[2],感覺有幾個方面值得關注

1 是騰訊開源了兩個新數據集:ArtifactsBench 旨在彌合代碼評估中的視覺與交互鴻溝[3],而 C3-Bench 則是專為智能體設計的評估數據集,用于揭示模型弱點并推動性能可解釋性研究[4]

2 是 A13B 在數學、科學、agent 等領域可以和OpenAI-o1-1217DeepSeek R1Qwen3-A22B掰手腕。Agent

3是Hunyuan-A13B-Instruct-GPTQ-Int4 量化模型與 Instruct 差別極小,幾乎是精度無損!

BenchHunyuan-A13B-InstructHunyuan-A13B-Instruct-GPTQ-Int4
OlympiadBench82.784.0
AIME 202487.386.7
Gsm8k94.3994.24
BBH89.187.91
DROP91.191.05

這樣的話,本地部署,完全可以直接使用 int4 版本了

完整版本模型文件 160GB,int 只有不到 44GB,我感覺 4 張 4090 就可以跑起來了

https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/

https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/

int4 版部署

#?下載模型:
#?ModelScope:?
modelscope?download?--model?Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4#?拉取
國內:
docker?pull?docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm?#?使用modelscope下載的模型起服務
docker?run??--privileged?--user?root??--net=host?--ipc=host?\-v?~/.cache/modelscope:/root/.cache/modelscope?\--gpus=all?-it?--entrypoint?python???docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm?\-m?vllm.entrypoints.openai.api_server?--host?0.0.0.0?--tensor-parallel-size?4?\--port?8000?--model?/root/.cache/modelscope/hub/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/?--trust_remote_code

DeepSeek-R1 運行成本還是太高了,44GB 的Hunyuan-A13B-Instruct-GPTQ-Int4在數學、推理、Agent 方面值得深入測試一下。

谷歌 Gemma 3n

谷歌 Gemma 又填新成員,往端側運行發展的小模型 -3n

  • 多模態原生設計:Gemma 3n 天然支持圖像、音頻、視頻和文本輸入,并輸出文本結果。

  • 為端側優化而生:Gemma 3n 以效率為核心設計理念,提供 E2B 和 E4B 兩種有效參數規模的版本。雖然原始參數分別為 50 億和 80 億,但架構創新使其運行時內存占用僅相當于傳統的 20 億和 40 億參數模型,最低僅需 2GB(E2B)和 3GB(E4B)內存即可運行。

  • 突破性架構:Gemma 3n 的核心創新包括 MatFormer 架構(實現計算靈活性)、逐層嵌入技術 PLE(提升內存效率)、LAuReL 與 AltUp(優化架構效率),以及專為端側場景優化的新型音頻編碼器和基于 MobileNet-v5 的視覺編碼器。

  • 卓越性能:Gemma 3n 在多語言支持(覆蓋 140 種文本語言和 35 種多模態語言理解)、數學運算、代碼生成及邏輯推理方面實現全面升級。其 E4B 版本 LMArena 得分突破 1300 分,成為首個參數量低于 100 億卻達到該基準的模型。

只值得期待的就是:如此之低的成本即可擁有端側運行的多模態大模型

我看外面網友的實測,Gemma 3n 的語音轉文字與翻譯功能是不錯的。

不過這個模最該關注的還是其在端側運行的情況

谷歌已經將這些模型上架安卓端的 Edge Gallery 應用,考慮到該應用支持 GPU 卸載功能,這應該是最佳使用方式。

但是有網友測試在高通驍龍 6 代 4 處理器(僅 CPU)上每秒生成 4-5 個 token,太慢了,幾乎不可用。

目前還是保持關注吧,更多資源大家自行探索:

  • Hugging Face?https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4

  • Unsloth?https://unsloth.ai/blog/gemma-3n

  • HF 博客 https://huggingface.co/blog/gemma3n

  • LMStudio?https://lmstudio.ai/models/google/gemma-3n-e4b

  • Ollama?https://ollama.com/library/gemma3n

  • AI Studio?http://ai.dev

  • Kaggle?https://www.kaggle.com/models/google/gemma-3n

  • MLX?https://huggingface.co/collections/mlx-community/gemma-3n-685d6c8d02d7486c7e77a7dc

  • ONNX/transformers.js?https://huggingface.co/onnx-community/gemma-3n-E2B-it-ONNX

  • Vertex?https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma3n

  • GGUF 模型發布地址 https://huggingface.co/collections/ggml-org/gemma-3n-685d6fc0843071be9e77b6f7

Jan-nano-128k

這個就比較小眾了,稍微有點名氣是 Jan

Jan 是一款可完全離線運行在桌面端且即將支持移動端的類 ChatGPT 工具,旨在讓任何人,無論是否具備編程技能,都能在充分掌控和保障隱私的前提下下載和使用 AI 模型。

這個ChatBot還是不錯的,支持本地、API 接入大模型 ![https://jan.ai/download

還支持 MCP 和自定義助手指令

Connect Remote APIs

Connect Remote APIs

Jan-Nano-128k 是 Menlo Research 推出的增強版緊湊型語言模型,專為研究應用設計。它的主要特點和優勢包括:

  • 原生128k上下文窗口:可高效處理長達 128k tokens 的文本,如完整論文、長文檔和復雜多輪對話,且不會像傳統擴展方法那樣性能下降。

  • 性能提升:在長上下文任務中表現優于前代模型,適合深度文檔分析、多文檔綜合和復雜推理。

  • 兼容性:完全兼容 Model Context Protocol (MCP) 服務器,便于集成到現有研究工作流。

  • 推薦采樣參數:Temperature 0.7,Top-p 0.8,Top-k 20,Min-p 0.0。

  • 模型架構:基于 Qwen3 架構,參數量為 4.02B,支持多種量化格式(3-bit 到 8-bit),適配不同硬件需求。

Jan-Nano-128k 已通過基于 MCP 的方法在 SimpleQA 基準測試中完成嚴格評估,其表現顯著優于前代模型:

部署:

#?使用?VLLM?進行部署:
vllm?serve?Menlo/Jan-nano-128k?\--host?0.0.0.0?\--port?1234?\--enable-auto-tool-choice?\--tool-call-parser?hermes?\--rope-scaling?'{"rope_type":"yarn","factor":3.2,"original_max_position_embeddings":40960}'?--max-model-len?131072

本地運行成本極低,完整版本模型文件也就 8GB 左右

https://huggingface.co/Menlo/Jan-nano-128k/tree/main

https://huggingface.co/Menlo/Jan-nano-128k/tree/main

unsloth 還放出了不同量化版本,Q4_K_M版,只有 2.5GB

https://huggingface.co/unsloth/Jan-nano-128k-GGUF/tree/main

https://huggingface.co/unsloth/Jan-nano-128k-GGUF/tree/main

我還沒有測試,感覺資源有限情況下,在需要處理超長文本、深度分析和多文檔推理的研究任務中,這個模型還是值得期待一下其表現的。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個🌟,謝謝你看我的文章,我們下篇再見!

搭建完美的寫作環境:工具篇(12 章)

圖解機器學習 - 中文版(72 張 PNG)

ChatGPT、大模型系列研究報告(50 個 PDF)

108 頁 PDF 小冊子:搭建機器學習開發環境及 Python 基礎

116 頁 PDF 小冊子:機器學習中的概率論、統計學、線性代數

史上最全!371 張速查表,涵蓋 AI、ChatGPT、Python、R、深度學習、機器學習等

參考資料

[1]

官方技術博客介紹的足夠詳細了,感興趣大家可以細看: https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/report/Hunyuan_A13B_Technical_Report.pdf

[2]

我是看的 modelscope 上的中文總結版技術博客: https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct/summary

[3]

ArtifactsBench 旨在彌合代碼評估中的視覺與交互鴻溝: https://github.com/Tencent-Hunyuan/ArtifactsBenchmark

[4]

C3-Bench 則是專為智能體設計的評估數據集,用于揭示模型弱點并推動性能可解釋性研究: https://github.com/Tencent-Hunyuan/C3-Benchmark

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/89471.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/89471.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/89471.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

向量數據庫milvus中文全文檢索取不到數據的處理辦法

?檢查中文分詞配置? Milvus 2.5 支持原生中文全文檢索,但需顯式配置中文分詞器: 創建集合時指定分詞器類型為 chinese python schema.add_field(field_name"text", datatypeDataType.VARCHAR, max_length65535, enable_analyzerTrue, an…

Stable Diffusion 項目實戰落地:從0到1 掌握ControlNet 第一篇 打造光影字形的創意秘技

大家好呀,歡迎來到 AI造字工坊! 在這篇文章中,我們將帶領你走進一個神奇的世界——ControlNet。你可能聽說過它,但可能還沒摸清它的深奧之處。 今天,我們就來揭開它神秘的面紗,輕松帶你玩轉字形設計! 話說回來,相信大家對圖片生成、提示詞、放大操作、抽卡這些基本操…

從零用java實現 小紅書 springboot vue uniapp (12)實現分類篩選與視頻筆記功能

移動端演示 http://8.146.211.120:8081/#/ 管理端演示 http://8.146.211.120:8088/#/ 項目整體介紹及演示 前言 在前面的系列文章中,我們已經基本完成了小紅書項目的核心框架搭建和圖文筆記的發布、展示流程。為了豐富App的功能和用戶體驗,今天我們將在…

Python與Web3.py庫交互實踐

目錄 Python與Web3.py庫交互實踐引言:連接Python與區塊鏈的橋梁1. 環境配置與基礎連接1.1 安裝Web3.py1.2 連接以太坊節點2. 基礎區塊鏈交互2.1 賬戶與余額查詢2.2 創建并發送交易3. 智能合約交互3.1 加載和部署合約3.2 與已部署合約交互4. 高級功能實踐4.1 事件監聽4.2 與ERC…

《匯編語言:基于X86處理器》第6章 條件處理(2)

本章向程序員的匯編語言工具箱中引入一個重要的內容,使得編寫出來的程序具備作決策的功能。幾乎所有的程序都需要這種能力。首先,介紹布爾操作,由于能影響CPU狀態標志,它們是所有條件指令的核心。然后,說明怎樣使用演繹…

深度剖析NumPy核心函數reshape()

深度剖析NumPy核心函數reshape reshape()函數基礎概念reshape()函數語法與參數詳解reshape()函數使用示例基本的形狀重塑使用-1自動計算維度多維數組的形狀重塑不同order參數的效果 reshape()函數的應用場景數據預處理機器學習模型輸入算法實現 當我們使用np.array()創建好數組…

Linux平臺MinGW32/MinGW64交叉編譯完全指南:原理、部署與組件詳解

一、MinGW是什么?為什么需要交叉編譯? MinGW(Minimalist GNU for Windows)是一套在Linux上構建Windows應用程序的完整工具鏈。它允許開發者: 在Linux環境下編譯Windows可執行文件(.exe/.dll)避…

為什么我畫的頻譜圖和audacity、audition不一樣?

文章目錄 系列文章目錄 目錄 文章目錄 前言 一、問題引入 二、使用步驟 三、分析和改進 總結 前言 我們知道audacity和audition都有頻譜分析這個窗口,一般過程肯定是分幀加窗,fft變換然后呈現, 大體這個過程是沒問題的,但為什…

責任鏈模式 Go 語言實戰

責任鏈模式(Chain of Responsibility) 責任鏈模式是一種行為設計模式,它允許將請求沿著處理者鏈進行傳遞,直到有一個處理者能夠處理它。這個模式的主要目的是解耦請求的發送者和接收者,使得多個對象都有機會處理這個請…

使用開源項目youlai_boot 導入到ecplise 中出現很多錯誤

我是使用ecplise 導入得youlai_boot 這個項目,但是導入到ecplise 中一直出現報錯,然后各種maven clean 和maven install 以及update Maven 都沒有效果不知道怎么辦才好,怎么樣解決這個問題,原來是我本地的環境中沒有安裝 lombok.…

06_Americanas精益管理項目_數據分析

文章目錄 Americanas精益管理項目_數據分析(一)思維方法1、數據分析思維2、零售行業-萬能「人貨場」分析框架(二)商品分析1、品類銷量分析2、銷量趨勢分析3、帕累托法則分析4、商品TopN分析(三)用戶分析(四)場景分析Americanas精益管理項目_數據分析 數據分析與數據開…

ES6從入門到精通:類與繼承

ES6 類的基本概念 ES6 引入了基于類的面向對象編程語法,通過 class 關鍵字定義類。類可以包含構造函數、方法和屬性。 class Person {constructor(name) {this.name name;}greet() {console.log(Hello, ${this.name}!);} }const person new Person(Alice); pers…

【經驗】新版Chrome中Proxy SwitchyOmega2已實效,改為ZeroOmega

1、問題描述 手欠更新了 Chrome 導致無法“上網”,原因是 Proxy SwitchyOmega2 已實效。 2、解決方法 2.1 下載 新版Chrome中Proxy SwitchyOmega2已實效,改為ZeroOmega; 想方設法去下載 ZeroOmega 的crx包,最新的為&#xff1…

在windows上設置python的環境

安裝好了python,再具體說下python語言的相關環境。 #01 關于Python Python 是一個高級別的、邊運行邊解釋的、動態類型的編程語言,以簡潔的語法、強大的功能和豐富的資源庫而聞名。廣泛應用于 Web 開發、數據分析、人工智能、自動化腳本等多個領域。 目前 Python 語言有兩…

3D 建模與點云建模:從虛擬構建到實景復刻的數字孿生雙引擎

在數字化浪潮席卷全球的當下,3D 建模與點云建模如同數字世界的左膀右臂,一個以抽象化的創意構建虛擬藍圖,一個以高精度的實景數據復刻現實世界。它們不僅深刻重塑了影視娛樂、工業制造、建筑設計等傳統領域,更成為數字孿生技術蓬勃…

智能檢測原理和架構

大家讀完覺得有幫助記得關注和點贊!!! 智能檢測系統基于AI和大數據分析技術,通過主動感知、行為建模與實時響應構建動態防御體系。其核心在于將傳統規則匹配升級為**多模態威脅認知**,實現對新型攻擊(如AI…

2025年6月個人工作生活總結

本文為 2025年6月工作生活總結。 研發編碼 某國產操作系統curl下載sftp服務器文件問題記錄 場景: 某國產系統curl版本信息: # curl --version curl 7.71.1 (x86_64-koji-linux-gnu) libcurl/7.71.1 OpenSSL/1.1.1f-fips zlib/1.2.11 brotli/1.0.7 li…

Java 導出PDF 1、內容可以插入自定義表格 2、內容插入圖片

Java PDF導出工具:自定義表格與圖片插入 下面我將實現一個Java PDF導出工具,支持插入自定義表格和圖片的功能。這個解決方案使用iText 7庫,提供了一個直觀的用戶界面,可以預覽生成的PDF內容。 import javax.swing.*; import jav…

sklearn機器學習概述及API詳細使用指南

一、機器學習與sklearn簡介 機器學習是人工智能的一個分支,它通過算法讓計算機從數據中學習規律,并基于這些規律做出預測或決策。scikit-learn(簡稱sklearn)是Python中最流行的機器學習庫之一,它提供了各種監督學習和…

「日拱一碼」015 機器學習常用庫——scikit-learn

目錄 數據預處理 數據標準化(StandardScaler) 數據歸一化(MinMaxScaler) 數據離散化(KBinsDiscretizer) 缺失值處理(SimpleImputer) 特征選擇 基于單變量特征選擇&#xff08…