模型學習系列之參數

背景

“GLM-4.5擁有 3550 億總參數量,其中 320 億活躍參數;GLM-4.5-Air 采用更緊湊的設計,擁有 1060 億總參數量,其中 120 億活躍參數。”

定義與關系

  • 總參數量:模型中所有可訓練參數的總和(包括嵌入層、注意力層、前饋網絡等),反映模型的理論容量
  • 活躍參數:在單次前向傳播中實際參與計算的參數子集。例如:
    • 稀疏激活模型(如MoE):每次只激活部分專家網絡(如Switch Transformer每次激活1/8的專家)。
    • 動態參數共享(如LoRA、AdaLoRA):通過低秩分解或掩碼動態選擇參數。
    • 條件計算(如專家選擇、路由機制):根據輸入動態決定激活哪些路徑。

關系
活躍參數 ≤ 總參數量(通常遠小于)。例如,Switch Transformer總參數量1.6T,但單次計算僅激活約50B參數(活躍參數占比~3%)。

作用與意義

(1)效率提升
  • 計算成本:活躍參數直接決定FLOPs和內存占用。稀疏激活(如MoE)允許在總參數量極大時,仍保持低計算量(如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近)。
  • 存儲優化:通過參數共享(如LoRA)或量化,減少實際存儲需求(例如Meta的LLaMA-65B通過4-bit量化壓縮至33GB)。
(2)性能與容量的權衡
  • 總參數量:提供潛在容量(如知識存儲),但需通過稀疏激活或動態路由有效利用。例如:
    • MoE模型:總參數量大(如GLaM 1.2T),但活躍參數少(96B),在多項任務上超越GPT-3(175B全激活)。
    • 過擬合風險:總參數量過大但活躍參數不足時,可能因參數利用率低導致欠擬合。
(3)訓練與推理的差異化設計
  • 訓練階段:總參數量影響梯度更新范圍,但可通過梯度稀疏化(如ZeRO-3、DeepSpeed)減少實際通信量。
  • 推理階段:通過動態剪枝(如Block-Sparse Attention)或專家卸載(如MoE的路由緩存),進一步降低活躍參數。

總參數量是模型的“潛在智慧”,而活躍參數是其“實際執行力”。二者的分離設計(如稀疏化、動態路由)是大模型突破規模限制的核心技術,使得“用更少的計算,實現更強的性能”成為可能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/94216.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/94216.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/94216.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[創業之路-535]:軟件需要原型驗證、產品需要原型驗證、商業模式也需要原型驗證

原型驗證在軟件、產品開發以及商業模式探索中均扮演著至關重要的角色,它通過低成本、快速迭代的方式,幫助團隊驗證核心假設、降低風險并優化方案。以下是針對這三個領域的具體分析:一、軟件原型驗證:從概念到可交互的模型核心目的…

sublime text2配置

sublime text2配置背景配置其他背景 之前下載了就把它當記事本在使用。但是,在使用過程中,有些場景很痛苦。如果說找一個字符串中的某一部分,雖然它通過了這個功能,但是不夠明顯,看瞎了。。。 配置 下面是我改的一些選…

本地通信的選擇:為什么組播比廣播更適合多進程協作?

零、深入解析Linux本地通信機制,對比廣播與組播的核心差異 本地組播能讓多進程收到消息,而本地廣播不行,核心原因在于兩者的設計目標、網絡協議處理邏輯以及內核轉發機制存在本質差異。具體可以從以下幾個角度理解: 1. 通信模式與目標地址的本質區別 組播(Multicast):…

7-Django項目實戰[user]-發送郵件激活賬號

1.前期準備(以QQ郵箱為例) 登錄QQ郵箱 獲取授權碼 2.settings.py文件配置 1)緩存配置 # 配置緩存 CACHES {# 郵件激活隨機數"default": {"BACKEND": "django_redis.cache.RedisCache","LOCATION&q…

社群團購市場選擇與開源技術賦能下的下沉市場開拓策略研究——以開源AI智能名片、鏈動2+1模式與S2B2C商城小程序為例

摘要:在社群團購行業面臨流量成本攀升與同質化競爭的背景下,下沉市場因其龐大用戶基數與未被充分滿足的消費需求,成為創業者突破增長瓶頸的關鍵賽道。本文以拼多多成功開拓小城鎮與農村市場的案例為切入點,結合開源AI智能名片、鏈…

Ollama前端:open-webui

github:https://github.com/open-webui/open-webui 官網:🏡 Home | Open WebUI 1、docker安裝(GPU): docker run -d -p 3000:8080 --gpusall -v ollama:/root/.ollama -v open-webui:/app/backend/data …

LeetCode513:找樹最左下角的值(bfs+dfs)

文章目錄一、 題目描述解法一:層序遍歷 (BFS) - 最直觀的解法核心思路代碼實現優缺點分析解法二:遞歸 (DFS) - 更深度的思考核心思路代碼實現優缺點分析四、 總結與對比LeetCode 513 - 尋找樹的最后一行的最左側的值,【難度:中等&…

把“評論”菜單從WordPress后臺移除的3種方法

在WordPress后臺移除“評論”菜單,可以通過以下幾種方法實現。以下是詳細步驟: 方法1:通過代碼移除(推薦) 將以下代碼添加到主題的functions.php文件中(或使用CodeSnippets插件): // 移除后臺左側菜單的“評論” add_action(ad…

大語言模型 LLM 通過 Excel 知識庫 增強日志分析,根因分析能力的技術方案(4):只要過一遍LLM的簡約版本

文章大綱 只要過一遍LLM的簡約版本 1 設計原理(一句話) 2 極簡數據流 3 最小依賴實現(本地 SQLite + OpenAI 兼容端點) 3.1 一次性準備:Excel → SQLite 3.2 關鍵詞提取 + 查表(正則 / SQL) 3.3 單次 LLM 調用 4 運行結果示例 5 性能 & Token 對比 6 可擴展點 7 參考…

(轉)mybatis和hibernate的 緩存區別?

MyBatis 和 Hibernate 都是流行的 Java 持久化框架,它們都提供了自己的緩存機制來優化數據庫操作,減少數據庫的訪問次數,提高應用程序的性能。盡管兩者都支持緩存,但是它們的緩存實現方式和配置有所不同。1. 緩存機制的基本區別My…

【linux內核系列】:萬字詳解進程間通信:消息隊列

🔥 本文專欄:Linux 🌸作者主頁:努力努力再努力wz 💪 今日博客勵志語錄: 你討厭的現在,是未來的你拼命想回去修正的戰場。 ★★★ 本文前置知識: 匿名管道 命名管道 共享內存 前…

React 19 革命性升級:編譯器自動優化,告別手動性能調優時代

概述 React 19 是 React 框架的一個重要里程碑版本,帶來了眾多突破性的改進和新特性。本文檔將詳細介紹 React 19 的主要變化,幫助開發者了解并遷移到新版本。 🚀 主要新特性 React Compiler (編譯器) React 19 引入了全新的 React Compi…

UE5的渲染Debug技巧

ShaderPrint UE5相對UE4使用的ComputeShader(GPU Driven)的地方多很多。因為UE5為了方便查看ComputeShader的某些值,開發了“ShaderPrint”,方便直接在Shader 打印信息到屏幕,而不用采用CPUReadback在print的方式。 比如r.nanite.ShowStats…

【2025/08/03】GitHub 今日熱門項目

GitHub 今日熱門項目 🚀 每日精選優質開源項目 | 發現優質開源項目,跟上技術發展趨勢 📋 報告概覽 📊 統計項📈 數值📝 說明📅 報告日期2025-08-03 (周日)GitHub Trending 每日快照&#x1f55…

Android系統模塊編譯調試與Ninja使用指南

模塊編譯調試方法 (此處舉例framework、installd、SystemUI等模塊的編譯調試,其他類似) 1. Framework模塊編譯 Android系統代碼的framework目錄內,一共有3個模塊單獨編譯:framework、services、framework-res.apk。 注意:偶爾會有…

【硬件-筆試面試題】硬件/電子工程師,筆試面試題-51,(知識點:stm32,GPIO基礎知識)

目錄 1、題目 2、解答 3、相關知識點 一、GPIO 基本結構與特性 1. GPIO 硬件結構 2. 主要特性 二、GPIO 工作模式 1. 輸入模式 2. 輸出模式 3. 復用功能模式 4. 特殊模式 三、GPIO 配置步驟(以 STM32Cube HAL 庫為例) 1. 初始化 GPIO 時鐘 …

小智服務器Java安裝編譯(xinnan-tech)版

github:https://github.com/xinnan-tech/xiaozhi-esp32-server 一、JDK 1、JDK21下載: https://www.oracle.com/cn/java/technologies/downloads/#jdk21-windows RPM安裝: rpm -ivh jdk-21_linux-x64_bin.rpm 2、IDEA設置JDK File → P…

智能平臺的感知進化:AI × 視頻通感在群體終端協同中的應用探索

?? 引言:從單兵到集群,未來智能平臺的協同演進 從傳統的單兵執行任務到如今的“群體智能平臺編組”,現代感知系統正經歷一場由 AI、機器人與智能計算平臺驅動的深度變革。過去,履帶式無人平臺在平坦地形中承擔支援任務&#xf…

基于定制開發開源AI智能名片S2B2C商城小程序的B站私域流量引流策略研究

摘要:隨著移動互聯網進入存量競爭階段,私域流量運營成為企業數字化轉型的核心戰略。B站作為中國最大的Z世代文化社區,其3.41億月活躍用戶中Z世代占比達58%,且25歲以上用戶增速顯著,用戶日均使用時長超108分鐘&#xff…

Spring+K8s+AI實戰:3全棧開發指南

Spring、K8s、人工智能、Docker及Windows實例 以下是與Spring、K8s、人工智能、Docker及Windows實例相關的實用示例,涵蓋開發、部署和集成場景: Spring Boot微服務開發 示例1:REST API構建 使用Spring Boot創建帶Swagger文檔的RESTful服務,集成JPA和Hibernate進行數據庫…