模型學習系列之參數

模型學習系列之參數

diannao/2025/8/4 15:48:51/文章來源:https://blog.csdn.net/qq_25078673/article/details/149886296

背景

“GLM-4.5擁有 3550 億總參數量，其中 320 億活躍參數；GLM-4.5-Air 采用更緊湊的設計，擁有 1060 億總參數量，其中 120 億活躍參數。”

定義與關系

總參數量：模型中所有可訓練參數的總和（包括嵌入層、注意力層、前饋網絡等），反映模型的理論容量。
活躍參數：在單次前向傳播中實際參與計算的參數子集。例如：
- 稀疏激活模型（如MoE）：每次只激活部分專家網絡（如Switch Transformer每次激活1/8的專家）。
- 動態參數共享（如LoRA、AdaLoRA）：通過低秩分解或掩碼動態選擇參數。
- 條件計算（如專家選擇、路由機制）：根據輸入動態決定激活哪些路徑。

關系：
活躍參數 ≤ 總參數量（通常遠小于）。例如，Switch Transformer總參數量1.6T，但單次計算僅激活約50B參數（活躍參數占比~3%）。

作用與意義

（1）效率提升

計算成本：活躍參數直接決定FLOPs和內存占用。稀疏激活（如MoE）允許在總參數量極大時，仍保持低計算量（如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近）。
存儲優化：通過參數共享（如LoRA）或量化，減少實際存儲需求（例如Meta的LLaMA-65B通過4-bit量化壓縮至33GB）。

（2）性能與容量的權衡

總參數量：提供潛在容量（如知識存儲），但需通過稀疏激活或動態路由有效利用。例如：
- MoE模型：總參數量大（如GLaM 1.2T），但活躍參數少（96B），在多項任務上超越GPT-3（175B全激活）。
- 過擬合風險：總參數量過大但活躍參數不足時，可能因參數利用率低導致欠擬合。

（3）訓練與推理的差異化設計

訓練階段：總參數量影響梯度更新范圍，但可通過梯度稀疏化（如ZeRO-3、DeepSpeed）減少實際通信量。
推理階段：通過動態剪枝（如Block-Sparse Attention）或專家卸載（如MoE的路由緩存），進一步降低活躍參數。

總參數量是模型的“潛在智慧”，而活躍參數是其“實際執行力”。二者的分離設計（如稀疏化、動態路由）是大模型突破規模限制的核心技術，使得“用更少的計算，實現更強的性能”成為可能。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/94216.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/94216.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/94216.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

[創業之路-535]：軟件需要原型驗證、產品需要原型驗證、商業模式也需要原型驗證

[創業之路-535]：軟件需要原型驗證、產品需要原型驗證、商業模式也需要原型驗證

原型驗證在軟件、產品開發以及商業模式探索中均扮演著至關重要的角色，它通過低成本、快速迭代的方式，幫助團隊驗證核心假設、降低風險并優化方案。以下是針對這三個領域的具體分析：一、軟件原型驗證：從概念到可交互的模型核心目的…

閱讀更多...

sublime text2配置

sublime text2配置

sublime text2配置背景配置其他背景之前下載了就把它當記事本在使用。但是，在使用過程中，有些場景很痛苦。如果說找一個字符串中的某一部分，雖然它通過了這個功能，但是不夠明顯，看瞎了。。。配置下面是我改的一些選…

閱讀更多...

本地通信的選擇：為什么組播比廣播更適合多進程協作？

本地通信的選擇：為什么組播比廣播更適合多進程協作？

零、深入解析Linux本地通信機制，對比廣播與組播的核心差異本地組播能讓多進程收到消息，而本地廣播不行，核心原因在于兩者的設計目標、網絡協議處理邏輯以及內核轉發機制存在本質差異。具體可以從以下幾個角度理解： 1. 通信模式與目標地址的本質區別組播（Multicast）：…

閱讀更多...

7-Django項目實戰[user]-發送郵件激活賬號

7-Django項目實戰[user]-發送郵件激活賬號

1.前期準備（以QQ郵箱為例） 登錄QQ郵箱獲取授權碼 2.settings.py文件配置 1）緩存配置 # 配置緩存 CACHES {# 郵件激活隨機數"default": {"BACKEND": "django_redis.cache.RedisCache","LOCATION&q…

閱讀更多...

社群團購市場選擇與開源技術賦能下的下沉市場開拓策略研究——以開源AI智能名片、鏈動2+1模式與S2B2C商城小程序為例

社群團購市場選擇與開源技術賦能下的下沉市場開拓策略研究——以開源AI智能名片、鏈動2+1模式與S2B2C商城小程序為例

摘要：在社群團購行業面臨流量成本攀升與同質化競爭的背景下，下沉市場因其龐大用戶基數與未被充分滿足的消費需求，成為創業者突破增長瓶頸的關鍵賽道。本文以拼多多成功開拓小城鎮與農村市場的案例為切入點，結合開源AI智能名片、鏈…

閱讀更多...

Ollama前端：open-webui

Ollama前端：open-webui

github：https://github.com/open-webui/open-webui 官網：🏡 Home | Open WebUI 1、docker安裝（GPU）： docker run -d -p 3000:8080 --gpusall -v ollama:/root/.ollama -v open-webui:/app/backend/data …

閱讀更多...

LeetCode513：找樹最左下角的值（bfs+dfs）

LeetCode513：找樹最左下角的值（bfs+dfs）

文章目錄一、題目描述解法一：層序遍歷 (BFS) - 最直觀的解法核心思路代碼實現優缺點分析解法二：遞歸 (DFS) - 更深度的思考核心思路代碼實現優缺點分析四、總結與對比LeetCode 513 - 尋找樹的最后一行的最左側的值，【難度：中等&…

閱讀更多...

把“評論”菜單從WordPress后臺移除的3種方法

把“評論”菜單從WordPress后臺移除的3種方法

在WordPress后臺移除“評論”菜單，可以通過以下幾種方法實現。以下是詳細步驟： 方法1：通過代碼移除(推薦) 將以下代碼添加到主題的functions.php文件中(或使用CodeSnippets插件)： // 移除后臺左側菜單的“評論” add_action(ad…

閱讀更多...

大語言模型 LLM 通過 Excel 知識庫增強日志分析，根因分析能力的技術方案（4）：只要過一遍LLM的簡約版本

大語言模型 LLM 通過 Excel 知識庫增強日志分析，根因分析能力的技術方案（4）：只要過一遍LLM的簡約版本

文章大綱只要過一遍LLM的簡約版本 1 設計原理（一句話） 2 極簡數據流 3 最小依賴實現（本地 SQLite + OpenAI 兼容端點） 3.1 一次性準備：Excel → SQLite 3.2 關鍵詞提取 + 查表（正則 / SQL） 3.3 單次 LLM 調用 4 運行結果示例 5 性能 & Token 對比 6 可擴展點 7 參考…

閱讀更多...

(轉)mybatis和hibernate的緩存區別?

(轉)mybatis和hibernate的緩存區別?

MyBatis 和 Hibernate 都是流行的 Java 持久化框架，它們都提供了自己的緩存機制來優化數據庫操作，減少數據庫的訪問次數，提高應用程序的性能。盡管兩者都支持緩存，但是它們的緩存實現方式和配置有所不同。1. 緩存機制的基本區別My…

閱讀更多...

【linux內核系列】：萬字詳解進程間通信：消息隊列

【linux內核系列】：萬字詳解進程間通信：消息隊列

🔥 本文專欄：Linux 🌸作者主頁：努力努力再努力wz 💪 今日博客勵志語錄： 你討厭的現在，是未來的你拼命想回去修正的戰場。 ★★★ 本文前置知識： 匿名管道命名管道共享內存前…

閱讀更多...

React 19 革命性升級：編譯器自動優化，告別手動性能調優時代

React 19 革命性升級：編譯器自動優化，告別手動性能調優時代

概述 React 19 是 React 框架的一個重要里程碑版本，帶來了眾多突破性的改進和新特性。本文檔將詳細介紹 React 19 的主要變化，幫助開發者了解并遷移到新版本。 🚀 主要新特性 React Compiler (編譯器) React 19 引入了全新的 React Compi…

閱讀更多...

UE5的渲染Debug技巧

UE5的渲染Debug技巧

ShaderPrint UE5相對UE4使用的ComputeShader(GPU Driven)的地方多很多。因為UE5為了方便查看ComputeShader的某些值，開發了“ShaderPrint”，方便直接在Shader 打印信息到屏幕，而不用采用CPUReadback在print的方式。比如r.nanite.ShowStats…

閱讀更多...

【2025/08/03】GitHub 今日熱門項目

【2025/08/03】GitHub 今日熱門項目

GitHub 今日熱門項目 🚀 每日精選優質開源項目 | 發現優質開源項目，跟上技術發展趨勢 📋 報告概覽 📊 統計項📈 數值📝 說明📅 報告日期2025-08-03 (周日)GitHub Trending 每日快照&#x1f55…

閱讀更多...

Android系統模塊編譯調試與Ninja使用指南

Android系統模塊編譯調試與Ninja使用指南

模塊編譯調試方法 (此處舉例framework、installd、SystemUI等模塊的編譯調試，其他類似) 1. Framework模塊編譯 Android系統代碼的framework目錄內，一共有3個模塊單獨編譯：framework、services、framework-res.apk。注意：偶爾會有…

閱讀更多...

【硬件-筆試面試題】硬件/電子工程師，筆試面試題-51，（知識點：stm32，GPIO基礎知識）

【硬件-筆試面試題】硬件/電子工程師，筆試面試題-51，（知識點：stm32，GPIO基礎知識）

目錄 1、題目 2、解答 3、相關知識點一、GPIO 基本結構與特性 1. GPIO 硬件結構 2. 主要特性二、GPIO 工作模式 1. 輸入模式 2. 輸出模式 3. 復用功能模式 4. 特殊模式三、GPIO 配置步驟（以 STM32Cube HAL 庫為例） 1. 初始化 GPIO 時鐘 …

閱讀更多...

小智服務器Java安裝編譯(xinnan-tech)版

小智服務器Java安裝編譯(xinnan-tech)版

github：https://github.com/xinnan-tech/xiaozhi-esp32-server 一、JDK 1、JDK21下載： https://www.oracle.com/cn/java/technologies/downloads/#jdk21-windows RPM安裝： rpm -ivh jdk-21_linux-x64_bin.rpm 2、IDEA設置JDK File → P…

閱讀更多...

智能平臺的感知進化：AI × 視頻通感在群體終端協同中的應用探索

智能平臺的感知進化：AI × 視頻通感在群體終端協同中的應用探索

?? 引言：從單兵到集群，未來智能平臺的協同演進從傳統的單兵執行任務到如今的“群體智能平臺編組”，現代感知系統正經歷一場由 AI、機器人與智能計算平臺驅動的深度變革。過去，履帶式無人平臺在平坦地形中承擔支援任務&#xf…

閱讀更多...

基于定制開發開源AI智能名片S2B2C商城小程序的B站私域流量引流策略研究

基于定制開發開源AI智能名片S2B2C商城小程序的B站私域流量引流策略研究

摘要：隨著移動互聯網進入存量競爭階段，私域流量運營成為企業數字化轉型的核心戰略。B站作為中國最大的Z世代文化社區，其3.41億月活躍用戶中Z世代占比達58%，且25歲以上用戶增速顯著，用戶日均使用時長超108分鐘&#xff…

閱讀更多...

Spring+K8s+AI實戰：3全棧開發指南

Spring+K8s+AI實戰：3全棧開發指南

Spring、K8s、人工智能、Docker及Windows實例以下是與Spring、K8s、人工智能、Docker及Windows實例相關的實用示例，涵蓋開發、部署和集成場景： Spring Boot微服務開發示例1：REST API構建使用Spring Boot創建帶Swagger文檔的RESTful服務，集成JPA和Hibernate進行數據庫…

閱讀更多...

最新文章