開源界迎來重磅核彈!月之暗面開源了自家最新模型 K2

1. 模型簡介

Kimi K2 是一款尖端專家混合(MoE)語言模型,激活參數量達320億,總參數量突破1萬億。該模型采用Muon優化器訓練,在前沿知識、推理和編程任務中展現出卓越性能,同時針對智能體能力進行了精細化優化。

核心特性

  • 超大規模訓練:基于15.5萬億token預訓練1萬億參數MoE模型,全程保持訓練穩定性
  • MuonClip優化器:將Muon優化器應用于前所未有的規模,開發新型優化技術解決擴展過程中的穩定性問題
  • 智能體能力:專為工具調用、邏輯推理和自主問題解決設計

模型變體

  • Kimi-K2-Base:基礎模型,為希望完全掌控微調和定制解決方案的研究者與開發者提供堅實的起點。
  • Kimi-K2-Instruct:經過后訓練的模型,最適合即插即用的通用聊天及代理體驗。它屬于無需長思考的反射級模型。

2. 模型概述

架構專家混合模型 (MoE)
總參數量1萬億
激活參數量320億
層數 (含全連接層)61
全連接層數量1
注意力隱藏層維度7168
MoE隱藏層維度 (單專家)2048
注意力頭數量64
專家總數384
單token選用專家數8
共享專家數量1
詞表大小16萬
上下文長度12萬8千
注意力機制多層注意力
激活函數SwiGLU

3. 評估結果

指令模型評估結果
BenchmarkMetricKimi K2 InstructDeepSeek-V3-0324Qwen3-235B-A22B
(non-thinking)
Claude Sonnet 4
(w/o extended thinking)
Claude Opus 4
(w/o extended thinking)
GPT-4.1Gemini 2.5 Flash
Preview (05-20)
Coding Tasks
LiveCodeBench v6
(Aug 24 - May 25)
Pass@153.746.937.048.547.444.744.7
OJBenchPass@127.124.011.315.319.619.519.5
MultiPL-EPass@185.783.178.288.689.686.785.6
SWE-bench Verified
(Agentless Coding)
Single Patch51.836.639.450.253.040.832.6
SWE-bench Verified
(Agentic Coding)
Single Attempt (Acc)65.838.834.472.7*72.5*54.6
Multiple Attempts (Acc)71.680.279.4*
SWE-bench Multilingual
(Agentic Coding)
Single Attempt (Acc)47.3 25.820.951.031.5
TerminalBenchInhouse Framework (Acc)30.035.543.28.3
Acc25.0 16.36.630.316.8
Aider-PolyglotAcc60.055.161.856.470.752.444.0
Tool Use Tasks
Tau2 retailAvg@470.669.157.075.081.874.864.3
Tau2 airlineAvg@456.539.026.555.560.054.542.5
Tau2 telecomAvg@465.832.522.145.257.038.616.9
AceBenchAcc76.572.770.576.275.680.174.5
Math & STEM Tasks
AIME 2024Avg@6469.659.4*40.1*43.448.246.561.3
AIME 2025Avg@6449.546.724.7*33.1*33.9*37.046.6
MATH-500Acc97.494.0*91.2*94.094.492.495.4
HMMT 2025Avg@3238.827.511.915.915.919.434.7
CNMO 2024Avg@1674.374.748.660.457.656.675.0
PolyMath-enAvg@465.159.551.952.849.854.049.9
ZebraLogicAcc89.084.037.7*73.759.358.557.9
AutoLogiAcc89.588.983.389.886.188.284.1
GPQA-DiamondAvg@875.168.4*62.9*70.0*74.9*66.368.2
SuperGPQAAcc57.253.750.255.756.550.849.6
Humanity's Last Exam
(Text Only)
-4.75.25.75.87.13.75.6
General Tasks
MMLUEM89.589.487.091.592.990.490.1
MMLU-ReduxEM92.790.589.293.694.292.490.6
MMLU-ProEM81.181.2*77.383.786.681.879.4
IFEvalPrompt Strict89.881.183.2*87.687.488.084.3
Multi-ChallengeAcc54.131.434.046.849.036.439.5
SimpleQACorrect31.027.713.215.922.842.323.3
LivebenchPass@176.472.467.674.874.669.867.8
? 加粗表示全球最佳,下劃線表示開源最佳。
? 標記有 * 的數據點直接取自模型的技術報告或博客。
? 除SWE-bench Verified (Agentless)外,所有指標均在8k輸出標記長度下進行評估。SWE-bench Verified (Agentless)則限制在16k輸出標記長度。
? Kimi K2在SWE-bench Verified測試中的單次嘗試補丁(無需測試時計算)通過率達到了65.8%(使用bash/編輯器工具)。在相同條件下,其在SWE-bench Multilingual測試中的單次通過率為47.3%。此外,我們報告了利用并行測試時計算的SWE-bench Verified測試結果(71.6%),即通過采樣多個序列并通過內部評分模型選擇最佳方案。
?為確保評估的穩定性,我們在AIME、HMMT、CNMO、PolyMath-en、GPQA-Diamond、EvalPlus、Tau2上采用了avg@k方法。
? 由于評估成本過高,部分數據點已被省略。
基礎模型評估結果
BenchmarkMetricShotKimi K2 BaseDeepseek-V3-BaseQwen2.5-72BLlama 4 Maverick
General Tasks
MMLUEM5-shot87.887.186.184.9
MMLU-proEM5-shot69.260.662.863.5
MMLU-redux-2.0EM5-shot90.289.587.888.2
SimpleQACorrect5-shot35.326.510.323.7
TriviaQAEM5-shot85.184.176.079.3
GPQA-DiamondAvg@85-shot48.150.540.849.4
SuperGPQAEM5-shot44.739.234.238.8
Code Tasks
LiveCodeBench v6Pass@11-shot26.322.921.125.1
EvalPlusPass@1-80.365.666.065.5
Mathematics Tasks
MATHEM4-shot70.260.161.063.0
GSM8kEM8-shot92.191.790.486.3
Chinese Tasks
C-EvalEM5-shot92.590.090.980.9
CSimpleQACorrect5-shot77.672.150.553.5
? 在本研究中,我們僅評估開源預訓練模型。由于Qwen3-235B-A22B的基準檢查點在我們研究時尚未開源,因此我們報告了Qwen2.5-72B的結果。
? 所有模型均采用相同的評估協議進行測試。

4. 部署說明

[!注意]
您可以通過 https://platform.moonshot.ai 訪問Kimi K2的API服務,我們提供了兼容OpenAI/Anthropic規范的API接口。

其中Anthropic兼容API的溫度參數映射關系為real_temperature = request_temperature * 0.6,以更好地適配現有應用程序。

我們的模型檢查點采用block-fp8格式存儲,您可以在Huggingface平臺獲取。

當前推薦在以下推理引擎上運行Kimi-K2模型:

  • vLLM
  • SGLang
  • KTransformers
  • TensorRT-LLM

關于vLLM和SGLang的部署示例,請參閱模型部署指南。


5. 模型使用

聊天補全

本地推理服務啟動后,您可以通過聊天端點與之交互:

def simple_chat(client: OpenAI, model_name: str):messages = [{"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},{"role": "user", "content": [{"type": "text", "text": "Please give a brief self-introduction."}]},]response = client.chat.completions.create(model=model_name,messages=messages,stream=False,temperature=0.6,max_tokens=256)print(response.choices[0].message.content)

[!注意]
Kimi-K2-Instruct 的推薦溫度為 temperature = 0.6
如無特殊要求,上述系統提示是良好的默認設置。


工具調用

Kimi-K2-Instruct 具備強大的工具調用能力。
啟用功能需在每次請求中傳入可用工具列表,模型將自主決定調用時機與方式。

以下示例展示了端到端的天氣工具調用流程:

# Your tool implementation
def get_weather(city: str) -> dict:return {"weather": "Sunny"}# Tool schema definition
tools = [{"type": "function","function": {"name": "get_weather","description": "Retrieve current weather information. Call this when the user asks about the weather.","parameters": {"type": "object","required": ["city"],"properties": {"city": {"type": "string","description": "Name of the city"}}}}
}]# Map tool names to their implementations
tool_map = {"get_weather": get_weather
}def tool_call_with_client(client: OpenAI, model_name: str):messages = [{"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},{"role": "user", "content": "What's the weather like in Beijing today? Use the tool to check."}]finish_reason = Nonewhile finish_reason is None or finish_reason == "tool_calls":completion = client.chat.completions.create(model=model_name,messages=messages,temperature=0.6,tools=tools,          # tool list defined abovetool_choice="auto")choice = completion.choices[0]finish_reason = choice.finish_reasonif finish_reason == "tool_calls":messages.append(choice.message)for tool_call in choice.message.tool_calls:tool_call_name = tool_call.function.nametool_call_arguments = json.loads(tool_call.function.arguments)tool_function = tool_map[tool_call_name]tool_result = tool_function(**tool_call_arguments)print("tool_result:", tool_result)messages.append({"role": "tool","tool_call_id": tool_call.id,"name": tool_call_name,"content": json.dumps(tool_result)})print("-" * 100)print(choice.message.content)

tool_call_with_client函數實現了從用戶查詢到工具執行的完整流程。
該流程要求推理引擎支持Kimi-K2的原生工具解析邏輯。
如需了解流式輸出和手動工具解析方法,請參閱工具調用指南。


6. 許可協議

代碼倉庫和模型權重均采用修訂版MIT許可證發布。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88513.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88513.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88513.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Grok-4 發布會圖文總結

文章目錄00:00 - Grok-4:以“全球最智能 AI”之名突破性登場06:41 - 推理能力的大幅飛躍:100 倍訓練量鑄就的“博士級”大腦13:25 - 工具使用能力的革新:從“原始”到深度整合20:06 - 直面強化學習的挑戰與 AI 的終極測試26:45 - 應用演示&am…

AI產品經理面試寶典第1天:機器學習核心算法全景解析

面試官:請解釋什么是監督學習?能否用生活案例說明其運作邏輯? 監督學習如同教孩子識字的過程。父母指著"蘋果"圖片反復說"這是蘋果"(帶標簽的訓練數據),孩子逐漸建立"紅色圓形水果=蘋果"的認知模型(算法生成)。當孩子看到新圖片時,模型…

前端開發技術棧概覽

前端開發技術棧概覽 前端開發是創建Web頁面或app等前端界面給用戶的過程,從簡單的靜態頁面到復雜的單頁應用(SPA),前端技術棧經歷了快速的演進。以下是前端開發所需掌握的核心技術分類及相關知識點: 1. 基礎層:HTML、CSS、JavaScr…

詳解Kafka通過冪等性實現分區消息不重復的機制

一、核心機制:PID與序列號1. Producer ID (PID)唯一標識:每個生產者實例啟動時,由Kafka Broker分配一個全局唯一的PID,用于標識消息來源。持久化存儲:PID由Broker持久化保存,確保生產者重啟后仍能追蹤歷史狀…

壓縮包方式在centos7版本上安裝mysql8.0

使用tar命令解壓 tar -zxvf mysql-8.0.32-el7-x86_64.tar.gz -C /usr/local/到/usr/local/修改解壓后的文件名為mysql 創建mysql用戶組和用戶,自己在mysql下面創建data目錄存儲信息,把權限交給mysql這個用戶 groupadd mysql useradd -r -g mysql mysql c…

使用ansible給被管理節點安裝docker

在跳板機上安裝ansible,再通過ansible的playbook,給被管理節點安裝docker。 跳板機配置 實驗環境 華為云上按需開兩臺2核2G的Ubuntu的ECS;2臺公網IP為5Mbit/s,按需按流量;2臺服務器在一個子網內;跳板機和被管理節點主機分別掛不通的安全組 在…

《Java EE與中間件》實驗三 基于Spring Boot框架的購物車

目 錄 一、實驗目的和要求 二、實驗實現思路及步驟 1、實驗思路 2、實驗步驟 3、實驗方案 三、主要開發工具 四、實驗效果及實現代碼 1、購物車數據庫構建實現 (1)建立javaee-project數據庫 (2)建立t_cart數據表 &…

DAS3D: Dual-modality Anomaly Synthesis for 3D Anomaly Detection 論文精讀

題目:DAS3D: Dual-modality Anomaly Synthesis for 3D Anomaly Detection 題目:DAS3D:用于三維異常檢測的雙模態異常合成 論文地址:ECCVW 2024 2410 Dual-modality 雙模態 Anomaly Synthesis 異常合成 for 3D Anomaly Detection…

EasyCVR視頻匯聚平臺國標接入設備TCP主動播放失敗排查指南

部分客戶現場的下級平臺通過國標級聯接入安防監控系統EasyCVR后,只能通過TCP主動的播放方式進行播放(并不是所有下級平臺都支持tcp主動播放,模式需下級平臺支持),但是有些平臺剛接入的時候發現不能播放。核心原因分析&…

linux打包指令和移動指令

在Linux中,常用的文件夾打包命令是 tar,它可以將文件夾壓縮打包成 .tar、.tar.gz、.tar.bz2 等格式的文件。以下是具體用法: 1. 基礎打包(不壓縮,生成 .tar 文件) 將文件夾 folder 打包為 folder.tar&#…

神經符號AI:結合深度學習和符號邏輯的下一代AI

神經符號AI:結合深度學習和符號邏輯的下一代AI當AI醫生解釋診斷時,它不僅能指出醫學影像中的異常像素模式,還能引用臨床指南中的第三條第二款,推演病理發展的邏輯鏈條——這正是神經符號AI賦予機器的“理性之光”。2025年初&#…

SpringBoot JWT

jsonwebtoken 引依賴 <dependency><groupId>io.jsonwebtoken</groupId><artifactId>jjwt</artifactId><version>0.12.3</version></dependency> 測試一下&#xff0c;jwt是2個帶逗號的3段字符串 官網參考&#xff1a;JSON …

讀取QPS 10萬,寫入QPS 1000,如何設計系統架構?

你是否也曾深陷在臃腫的領域模型&#xff08;Domain Model&#xff09;的泥潭&#xff0c;一個 User 或 Order 實體類&#xff0c;既要處理復雜的業務邏輯和數據校驗&#xff0c;又要承載各種為前端展示而生的DTO轉換&#xff0c;導致模型越來越胖&#xff0c;讀寫性能相互掣肘…

UE5 Rotate 3 Axis In One Material

首先沒有用旋轉矩陣&#xff0c;我用過旋轉矩陣&#xff0c;傳進去的角度旋轉的角度和歐拉角傳進去角度旋轉出來的不一樣&#xff0c;就沒有用最后用的RotateAboutAxis&#xff0c;這個玩意兒研究老半天&#xff0c;只能轉一個軸&#xff0c;角度和歐拉角的一樣的最后研究出Rot…

計算機網絡實驗——訪問H3C網絡設備

一、實驗目的1. 熟悉H3C路由器的開機界面&#xff1b;2. 通過Console端口實現對上電的H3C路由器的第一次本地訪問&#xff1b;3. 掌握H3C設備命名等幾個常用指令&#xff1b;4. 掌握如何將H3C設備配置為Telnet服務器&#xff1b;5. 掌握如何將H3C設備配置為Telnet客戶端并實現訪…

【C語言】學習過程教訓與經驗雜談:思想準備、知識回顧(四)

&#x1f525;個人主頁&#xff1a;艾莉絲努力練劍 ?專欄傳送門&#xff1a;《C語言》、《數據結構與算法》、C語言刷題12天IO強訓、LeetCode代碼強化刷題 &#x1f349;學習方向&#xff1a;C/C方向 ??人生格言&#xff1a;為天地立心&#xff0c;為生民立命&#xff0c;為…

Vim 指令

Vim 是一款功能強大但學習曲線陡峭的文本編輯器&#xff0c;核心在于其模式化操作。掌握常用指令能極大提升效率。以下是指令分類整理&#xff1a;一、核心模式切換 (必須掌握&#xff01;)i&#xff1a;在光標前進入 插入模式 (Insert Mode)a&#xff1a;在光標后進入 插入模式…

vue2中使用xgplayer播放流視頻

1、官網 2、安裝后無法播放時&#xff0c;經測試&#xff0c;需要降低版本 "xgplayer-hls": "2.2.2","xgplayer": "2.31.6"改為以上版本可以正常播放 3、完整使用 &#xff08;1&#xff09;引入 import xgplayer import hlsjsPlayer…

Jmeter進階篇(35)完美解決Jmeter轉換HTML報告報錯“Begin size 0 is not equal to fixed size 5”

今天博主在使用Jmeter運行完壓測,使用生成的csv文件,運行以下命令: C:\apache-jmeter-5.2.1\bin>jmeter -g C:\res.csv -o C:\report生成HTML報告時,發現報錯“Begin size 0 is not equal to fixed size 5”。 問題原因 原因是我:本地用的是JDK17,但Jmeter5.2.1僅支…

linux中tcpdump抓包中有組播數據,應用程序收不到數據問題

問題描述服務器運行正常&#xff0c;維保需要&#xff0c;重啟服務器后應用程序無法收到組播的媒體數據。百思不得其解。原因分析最終的定位原因是 linux系統的自我保護機制導致的。rp_filter&#xff08;反向路徑過濾&#xff09;是Linux內核的一個安全特性&#xff0c;用于防…