【LLM】Kimi-K2模型架構(MuonClip 優化器等)

note

  • Kimi K2 的預訓練階段使用 MuonClip 優化器實現萬億參數模型的穩定高效訓練,在人類高質量數據成為瓶頸的背景下,有效提高 Token 利用效率。MuonClip Optimizer優化器,解決隨著scaling up時的不穩定性。
  • Kimi-K2 與 DeepSeek-R1 架構對比,相比較下 Kimi-k2 增加了專家數量,減少了注意力頭的數量。這么設計的好處是,專家數量多無疑知識多,能記住更多東西,在知識廣度上表現很好。而減少注意力頭則能顯著減少顯存開銷,另外過多的注意力頭有時會學習到冗余或過于相似的注意力模式。通過減少頭的數量,模型可能被迫讓每個頭學習到更獨特、更關鍵的特征,這可能有助于防止過擬合,提升模型的泛化能力。
  • Kimi K2 是一款具備更強代碼能力、更擅長通用 Agent 任務的 MoE 架構基礎模型,總參數 1T,激活參數 32B。
  • Kimi K2 增強的智能體能力主要來源于兩個重要方面——大規模智能體數據合成 和 通用強化學習。

文章目錄

  • note
  • 一、Kimi-K2模型
    • 1、Kimi-K2模型效果
    • 2、Kimi-K2模型架構
    • 3、MuonClip 優化器:
    • 4、智能體能力(Agentic Capabilities)
    • 5、 通用強化學習
  • 二、其他模型架構比較
  • Reference

一、Kimi-K2模型

大模型開源進展,kimi-k2量化版本發布,Unsloth 量化的 Kimi-K2 放出了,包括從 1.8bit 的 UD_IQ1UD-Q5_K_XL等版本:https://github.com/unslothai/llama.cpp,
量化模型地址:https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main

1、Kimi-K2模型效果

在這里插入圖片描述

2、Kimi-K2模型架構

  • Kimi-K2 與 DeepSeek-R1 架構對比,相比較下 Kimi-k2 增加了專家數量,減少了注意力頭的數量。這么設計的好處是,專家數量多無疑知識多,能記住更多東西,在知識廣度上表現很好。而減少注意力頭則能顯著減少顯存開銷,另外過多的注意力頭有時會學習到冗余或過于相似的注意力模式。通過減少頭的數量,模型可能被迫讓每個頭學習到更獨特、更關鍵的特征,這可能有助于防止過擬合,提升模型的泛化能力。
  • Kimi K2 是一款具備更強代碼能力、更擅長通用 Agent 任務的 MoE 架構基礎模型,總參數 1T,激活參數 32B。Kimi K2 的預訓練階段使用 MuonClip 優化器實現萬億參數模型的穩定高效訓練,在人類高質量數據成為瓶頸的背景下,有效提高 Token 利用效率
    在這里插入圖片描述

3、MuonClip 優化器:

(1)之前的工作 Moonlight 已經證明,Muon 優化器在 LLM 訓練中顯著優于廣泛使用的 AdamW 優化器。Kimi K2 的設計目標是在 Moonlight 的基礎上進一步擴展模型規模,其架構類似于 DeepSeek-V3。基于擴展定律(scaling law)的分析,我們減少了注意力頭(head)數量以提升長上下文效率,并提高了混合專家(MoE)的稀疏性以增強 token 效率。在模型擴展過程中,我們遇到了一個持續性的挑戰:由于注意力 logits 爆炸導致的訓練不穩定問題。在我們的實驗中,這一問題在使用 Muon 優化器時比使用 AdamW 更為頻繁。現有的解決方案,如 logits 軟限制(logit soft-capping)和查詢-鍵歸一化(query-key normalization),被證明效果有限。為了解決這一問題,我們提出了 MuonClip 優化器,在 Muon 的基礎上引入了我們設計的 qk-clip 技術。具體來說,qk-clip 通過在 Muon 更新之后直接對查詢(query)和鍵(key)投影的權重矩陣進行重新縮放,從而從源頭上控制注意力 logits 的規模,達到穩定訓練的目的。

(2)MuonClip 能有效防止 logit 爆炸,同時保持下游任務的性能。在實際應用中,Kimi K2 使用 MuonClip 在 15.5T token 的數據上完成了預訓練,整個訓練過程未出現任何訓練尖峰(training spike),證明了 MuonClip 是一種適用于穩定、大規模 LLM 訓練的魯棒性解決方案。

在這里插入圖片描述

具體細節可以看蘇神博客:QK-Clip:讓Muon在Scaleup之路上更進一步

4、智能體能力(Agentic Capabilities)

面向工具使用學習的大規模智能體數據合成: 為了教會模型復雜的工具使用能力,我們開發了一套受 ACEBench 啟發的綜合性數據生成流程,能夠大規模模擬現實世界中的工具使用場景。我們的方法系統性地演化出包含數百個領域、數千種工具(包括真實 MCP(Model Context Protocol)工具和合成工具)的環境,并生成擁有不同工具集的數百個智能體。
在這里插入圖片描述

所有任務都基于評分標準(rubric-based)設計,從而實現一致的評估。智能體與模擬環境及用戶代理進行交互,構建出真實的多輪工具使用場景。隨后,一個大語言模型作為“評審員”根據任務評分標準評估模擬結果,并篩選出高質量的訓練數據。這一可擴展的數據生成流程能夠生成多樣化且高質量的數據,為大規模拒絕采樣(rejection sampling)和強化學習奠定了基礎。

5、 通用強化學習

關鍵挑戰在于如何將強化學習(RL)應用于具有可驗證獎勵(verifiable rewards)和不可驗證獎勵(non-verifiable rewards)的任務。典型的可驗證任務包括數學問題求解和競賽編程,而撰寫研究報告通常被視為不可驗證任務。

我們的通用強化學習系統不僅限于可驗證獎勵,還引入了一種自我評判機制(self-judging mechanism),其中模型自身充當評判者(critic),為不可驗證任務提供可擴展的、基于評分標準(rubric-based)的反饋。

同時,我們使用在策略(on-policy) rollout 技術處理具有可驗證獎勵的任務,并利用這些結果持續更新評判者,使其不斷提升對最新策略的評估準確性。這種方法可以被看作是利用可驗證獎勵來改進對不可驗證獎勵的估計。

二、其他模型架構比較

翻譯:從 DeepSeek-V3 到 Kimi K2:八種現代大語言模型架構設計
原文:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

Reference

[1] https://moonshotai.github.io/Kimi-K2/
[2] https://github.com/MoonshotAI/Kimi-K2
[3] 關于kimi-k2的一個回顧帖子,里面提到的一些細節信息可看看:1)模型 Agent 能力的開發還在早期,有不少數據在預訓練階段是缺失的(比如那些難以言語描述的經驗/體驗),下一代預訓練模型仍然大有可為,也就是數據合成。2)關于“寫前端”的初衷,關乎產品邏輯。可看看:https://bigeagle.me/2025/07/kimi-k2/,此外,對于一些技術點,可看其中關于技術部分,技術架構等的選擇,差異性問題,可看看,https://www.zhihu.com/question/1927140506573435010/answer/1927892108636849910
[4] Kimi K2 發布并開源,擅長代碼與 Agentic 任務
[5] 從 DeepSeek-V3 到 Kimi K2:八種現代大語言模型架構設計
英文原版博客:https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/91402.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/91402.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/91402.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Vue基礎(25)_組件與Vue的內置關系(原型鏈)

了解組件與Vue的內置關系前,我們需要回顧js原型鏈基礎知識:1、構造函數構造函數是一種特殊的方法,用于創建和初始化一個新的對象。它們是使用 new 關鍵字和函數調用來創建對象的。構造函數實際上只是一個普通的函數,通常以大寫字母…

kafka中生產者的數據分發策略

在 Kafka 中,生產者的數據分發策略決定了消息如何分配到主題的不同分區。在 Python 中,我們通常使用 kafka-python 庫來操作 Kafka,下面詳細講解其數據分發策略及實現代碼。一、Kafka 生產者數據分發核心概念分區(Partition&#…

【動態規劃算法】斐波那契數列模型

一. (1137.)第N個泰波那契數(力扣)1.1動態規劃的算法流程 對于初學者來講學術上的概念晦澀難懂,將用通俗易懂的方式帶來感性的理解. 1.狀態表示dp表(一維或二維數組)里面的值所表示的含義 從哪獲取? 1.題目要求,如本題 2.題目沒有明確說明的情況下做題經驗的累積 3.分析問題的…

Odoo 18 PWA 全面掌握:從架構、實現到高級定制

本文旨在對 Odoo 18 中的漸進式網絡應用(Progressive Web App, PWA)技術進行一次全面而深入的剖析。本文的目標讀者為 Odoo 技術顧問、高級開發人員及解決方案架構師,旨在提供一份權威的技術參考,以指導 PWA 相關的實施項目與戰略…

Binary Classifier Optimization for Large Language Model Alignment

2025.acl-long.93.pdfhttps://aclanthology.org/2025.acl-long.93.pdf 1. 概述 在生產環境中部署大型語言模型(LLMs)時,對齊LLMs一直是一個關鍵因素,因為預訓練的LLMs容易產生不良輸出。Ouyang等人(2022)引入了基于人類反饋的強化學習(RLHF),該方法涉及基于單個提示的…

在CentOS上以源碼編譯的方式安裝PostgreSQL

下載目錄:PostgreSQL: File Browser,我使用的PostgreSQLv17.5。Linux系統:CentOS Linux release 7.9.2009 (Core) 安裝依賴包和工具鏈(必須且重要!) yum groupinstall "Development Tools" -y yu…

Baumer工業相機堡盟工業相機如何通過YoloV8深度學習模型實現沙灘小人檢測識別(C#代碼UI界面版)

Baumer工業相機堡盟工業相機如何通過YoloV8深度學習模型實現沙灘小人檢測識別(C#代碼UI界面版)工業相機使用YoloV8模型實現沙灘小人檢測識別工業相機通過YoloV8模型實現沙灘小人檢測識別的技術背景在相機SDK中獲取圖像轉換圖像的代碼分析工業相機圖像轉換…

Ubuntu服務器安裝與運維手冊——操作純享版

本手冊匯總了從硬件預配置、Ubuntu 安裝、網絡與服務配置,到 Windows/macOS 訪問共享、MySQL 初始化的完整流程,便于今后運維參考。 目錄 環境與硬件概覽BIOS/UEFI 設置制作與啟動安裝介質Ubuntu 24.04 LTS 安裝流程靜態 IP 配置(netplan&am…

【Nginx】Nginx進階指南:解鎖代理與負載均衡的多樣玩法

在Web服務的世界里,Nginx就像是一位多面手,它不僅能作為高性能的Web服務器,還能輕松勝任代理服務器、負載均衡器等多種角色。今天,我們就來深入探索Nginx的幾個常見應用場景,通過實際案例和關鍵配置解析,帶…

原創-銳能微82xx系列電能計量芯片軟件驅動開發與精度校準流程完全指南

引言 電能計量芯片的軟件驅動開發是整個計量系統的核心,它直接決定了計量精度、系統穩定性和功能完整性。銳能微82xx系列電能計量芯片憑借其強大的數字信號處理能力和豐富的功能特性,為開發者提供了靈活的軟件開發平臺。本文將詳細介紹82xx系列芯片的軟…

如何使用 Apache Ignite 作為 Spring 框架的緩存(Spring Cache)后端

這份文檔是關于 如何使用 Apache Ignite 作為 Spring 框架的緩存(Spring Cache)后端,實現方法級別的緩存功能。 這和前面我們講的 Spring Data Ignite 是兩個不同的概念。我們先明確區別,再深入理解。🔁 一、核心區別…

Android 超大圖片、長圖分割加載

在Android開發中,處理大圖片的加載是一個常見且重要的問題,尤其是在需要顯示高分辨率圖片時。大圖片如果不正確處理,可能會導致內存溢出或應用性能下降。下面是一些常用的策略和技術來優化大圖片的加載:1. 使用圖片壓縮庫a. Glide…

Linux:理解操作系統

文章目錄數據流動操作系統數據流動 軟件運行,必須先加載到內存,本質要把磁盤上的文件 加載到內存。 我們寫的算法是處理存儲器里面的數據,數據就是文件,我們自己寫的可執行文件。 圖中QQ就是軟件,加載內存后進行下一步…

【每日一錯】PostgreSQL的WAL默認段大小

文章目錄題目擴展學習WAL工作原理流程圖題目 擴展學習 WAL(Write Ahead Log)預寫日志: WAL是PostgreSQL先寫日志、后寫數據的機制,用來防止數據丟失、提升數據恢復能力。 流程: 事務先寫日志文件(WAL&…

Visual Studio Code 使用指南 (2025年版)

Visual Studio Code (VS Code) 是一款由微軟開發的免費、開源、跨平臺的現代化輕量級代碼編輯器,憑借其強大的核心功能、豐富的擴展生態系統以及高度可定制性,已成為全球數百萬開發者的首選工具。本指南旨在幫助您快速上手 VS Code,掌握其核心…

【Java】JVM虛擬機(java內存模型、GC垃圾回收)

一、Java內存模型(JMM)JMM(Java Memory Model,Java 內存模型)是 Java 虛擬機規范中定義的一種抽象概念,用于規范 Java 程序中多線程對共享內存的訪問規則,解決可見性、原子性和有序性問題&#…

二叉樹算法之【二叉樹的層序遍歷】

目錄 LeetCode-102題 LeetCode-102題 給定二叉樹的根節點root&#xff0c;返回其節點值的層序遍歷&#xff08;即逐層地&#xff0c;從左到右訪問所有節點&#xff09;。 class Solution {public List<List<Integer>> levelOrder(TreeNode root) {// checkif (r…

uniapp+vue3——通知欄標題縱向滾動切換

介紹 取巧&#xff0c;使用縱向輪播實現 <!-- 通知欄 --> <view class"noticeBox" v-if"notice.length>0"><image src"/static/images/index/noticeIcon.png" mode"aspectFill"></image><swiper class&…

BilldDesk 開源、免費、吊打收費軟件!白嫖黨最愛!遠程控制神器,沒有任何連接次數和畫質限制,同時顯示多屏、屏幕墻等高級功能

遠程控制軟件哪個好用&#xff1f;TeamViewer收費太貴&#xff0c;向日葵限制太多&#xff0c;QQ遠程又不穩定……別擔心&#xff01;今天給大家推薦一款完全免費、開源的遠程控制神器——BilldDesk&#xff01;它不僅功能強大&#xff0c;而且支持Windows、macOS、Linux、Andr…

ios UIAppearance 協議

一、前言 iOS 上提供了一個比較強大的工具UIAppearance&#xff0c;我們通過UIAppearance設置一些UI的全局效果&#xff0c;這樣就可以很方便的實現UI的自定義效果又能最簡單的實現統一界面風格。 (id)appearance ; 這個是這個協議里最重要的方法了 . 這個方法是統一全部改&am…