【極簡】如何估算大模型inference所需的內存量

【極簡】如何估算大模型inference所需的內存量

diannao/2025/9/18 5:35:28/文章來源:https://blog.csdn.net/Yonggie/article/details/138860753

1字節=8bit
16float=2字節
模型后面的xxb的單位是字節。
1b 字節≈ 0.93G，這個是以8bit運行，4bit減半，16bit（float）加倍，32bit（double）炒雞加倍。

剩下的是小頭，需要參數計算：

s:最大序列長度(輸入中的令牌數量)
b:批大小
h:模型的隱藏維度
a:注意頭的數量

對于整個層
總內存需求總計為11sbh + 5as2b(來自注意力塊)+ 19sbh(來自MLP塊)+ 4sbh(來自LN)。
每層激活內存消耗= 34 sbh + 5as2b

小頭一般遠小于10G。

所以比如llama7b，只需要7*0.93≈9G，再加10，內存19G就可以（實際會更少，因為小頭遠低于10G），注意這個是以8bit運行，4bit減半，16bit（float）加倍，32bit（double）炒雞加倍。

感謝博客：https://developer.aliyun.com/article/1496103
感謝github：

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/12352.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/12352.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/12352.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

蘋果macOS無法給App麥克風授權解決辦法

蘋果macOS無法給App麥克風授權解決辦法

好久沒有在電腦上錄制課程了，有些東西還是錄下來記憶深刻，卻意外發現MAC系統升級后無法授權給第三方的App使用攝像頭和麥克風，而錄屏軟件是需要開啟麥克風和攝像頭才能錄制屏幕上的操作和聲音，官方提示在第三方APP若有使用攝像頭和…

閱讀更多...

css的4種導入方式

css的4種導入方式

熟悉CSS樣式4種的引用方式，分別為行內式、內嵌式、鏈入式和導入式。行內式 <標簽名 style"屬性1:屬性值1;屬性2:屬性值2;屬性3:屬性值3;">內容</ 標簽名>style是標簽的屬性，實際上任何HTML標簽都擁有style屬性，用來…

閱讀更多...

pyqt QComboBox下拉列表框控件

pyqt QComboBox下拉列表框控件

pyqt QComboBox下拉列表框控件 QComboBox效果代碼 QComboBox QComboBox 是 PyQt（中的一個控件，它允許用戶從下拉列表中選擇一個選項。這個控件在需要用戶從預定義選項中進行選擇時非常有用。效果代碼 import sys from PyQt5.QtWidgets import QAppl…

閱讀更多...

vite創建的項目使用rem適配

vite創建的項目使用rem適配

下面以創建vue3.0 項目為例： npm init vitelatest “名稱” 選擇vue （選擇你所對應的語言） 更具提示步驟執行 cd xxx npm i npm run dev 然后再項目中使用 rem 需要安裝插件第一步安裝插件 npm i amfe-flexible npm i postcss-pxtorem 第二…

閱讀更多...

CS144 Checkpoint 4: interoperating in the world（2024）

CS144 Checkpoint 4: interoperating in the world（2024）

分析網絡路徑和性能： mtr命令 mtr 輸出的詳細分析： mtr 162.105.253.58 命令用于結合 traceroute 和 ping 的功能，實時監測并分析從你的計算機到目標主機（IP 地址 162.105.253.58，北京大學計算中心）之間…

閱讀更多...

Nginx配置Referer防盜鏈

Nginx配置Referer防盜鏈

系列文章目錄文章目錄系列文章目錄前言前言前些天發現了一個巨牛的人工智能學習網站，通俗易懂，風趣幽默，忍不住分享一下給大家。點擊跳轉到網站，這篇文章男女通用，看懂了就去分享給你的碼吧。 HTTP Referer是Hea…

閱讀更多...

PBOOTCMS|URL靜態制作教程（已解答）

PBOOTCMS|URL靜態制作教程（已解答）

0、先解壓源碼文件，在覆蓋靜態文件，全部點是。打開程序后臺登錄地址www.xxx.com(你的域名)/admin.php/Menu/index 打開程序后臺--系統菜單--菜單新增（清理緩存后重新登錄賬號） （選擇父菜單，菜單名稱&#…

閱讀更多...

ROS2+TurtleBot3+Cartographer+Nav2實現slam建圖和導航

ROS2+TurtleBot3+Cartographer+Nav2實現slam建圖和導航

0 引言入門機器人最常見的應用就是slam建圖和導航，本文將詳細介紹這一流程， 便于初學這快速上手。首先對需要用到的軟件包就行簡單介紹。 turtlebot3: 是一個小型的，基于ros的移動機器人。學習機器人的很多示例程序都是基于turtlebot3。 …

閱讀更多...

【Java基礎】枚舉類的方法及應用

【Java基礎】枚舉類的方法及應用

如何實現讓一個類有固定個數的對象手動封裝構造方法（private） → 創建靜態對象 → final修飾靜態對象，使其成為常量 class Season { //枚舉類public final static Season SPRING new Season();public final static Season SUMMER new Se…

閱讀更多...

MySQL數據庫備份全攻略：從基礎到高級，一文掌握所有備份技巧

MySQL數據庫備份全攻略：從基礎到高級，一文掌握所有備份技巧

在數據為王的時代，數據庫的備份無疑是每一位數據庫管理員（DBA）和開發者必須掌握的核心技能。MySQL作為世界上最流行的開源關系型數據庫管理系統，其備份策略的多樣性和靈活性更是值得我們深入探討。今天，我們將從基礎的…

閱讀更多...

廢品回收微信小程序基于FastAdmin+ThinkPHP+UniApp（源碼搭建/上線/運營/售后/更新）

廢品回收微信小程序基于FastAdmin+ThinkPHP+UniApp（源碼搭建/上線/運營/售后/更新）

一款基于FastAdminThinkPHPUniApp開發的廢品回收系統，適用廢品回收站、再生資源回收公司上門回收使用的小程序。一、FastAdmin框架特色功能及優勢模塊化開發：控制器、模型、視圖、JS一一對應，使用RequireJS進行插件機制，支持插…

閱讀更多...

Java面試題:線程池的核心參數和工作原理

Java面試題:線程池的核心參數和工作原理

線程池的核心參數 ThreadPoolExecutor(int corePoolSize,//核心線程數目int MaximumPoolSize,//最大線程數核心線程臨時線程long keepAliveTime,//臨時線程的存活時間,在存活時間內如果沒有新任務,線程資源會被釋放TimeUnit unit,//存活時間的時間單位,一個枚舉類型BlockingQu…

閱讀更多...

sql操作、發送http請求和郵件發送全棧開發之路——后端篇（2）

sql操作、發送http請求和郵件發送全棧開發之路——后端篇（2）

全棧開發一條龍——前端篇第一篇：框架確定、ide設置與項目創建第二篇：介紹項目文件意義、組件結構與導入以及setup的引入。第三篇：setup語法，設置響應式數據。第四篇：數據綁定、計算屬性和watch監視第五篇 : 組件…

閱讀更多...

STL介紹及使用場景分析

STL介紹及使用場景分析

一.總體介紹 STL（Standard Template Library）是C標準模板庫，提供了一系列的通用模板類和函數，用于實現常見的數據結構和算法，方便開發者快速地實現各種功能。STL包括了容器（Containers）、算法&a…

閱讀更多...

[BJDCTF 2020]easy_md5、[HNCTF 2022 Week1]Interesting_include、[GDOUCTF 2023]泄露的偽裝

[BJDCTF 2020]easy_md5、[HNCTF 2022 Week1]Interesting_include、[GDOUCTF 2023]泄露的偽裝

目錄 [BJDCTF 2020]easy_md5 ffifdyop [SWPUCTF 2021 新生賽]crypto8 [HNCTF 2022 Week1]Interesting_include php://filter協議 [GDOUCTF 2023]泄露的偽裝 [BJDCTF 2020]easy_md5 嘗試輸入一個1，發現輸入的內容會通過get傳遞但是沒有其他回顯觀察一下響應…

閱讀更多...

文本協議中嵌入二進制數據

文本協議中嵌入二進制數據

在文本協議中嵌入二進制數據時，通常不推薦使用new String(byte[], Charset)，除非你確定這些字節實際上是以指定的字符集編碼的文本。這是因為如果字節不是有效的文本編碼，那么使用new String(byte[], Charset)可能會產生不可預測的結果&#…

閱讀更多...

VictoriaMetrics

VictoriaMetrics

概念介紹 VictoriaMetrics，是一個快速高效、經濟并且可擴展的監控解決方案和時序數據庫本文均用VM簡稱VictoriaMetric 作用用于作為prometheus的長期儲存方案，代替prometheus存儲監控采集的數據優點遠程存儲：可作為單一或多個Pro…

閱讀更多...

【算法】二分查找——二分查找

【算法】二分查找——二分查找

本節博客詳述“二分查找”并且以例子來進行討論，有需要借鑒即可。目錄 1.二分查找1.1使用前提1.2模板 2.題目3.題解代碼示例4.二分查找的一般模板5.總結 1.二分查找 1.1使用前提使用的條件：數組具有“二段性”，二段性指的是數組可以根據某…

閱讀更多...

110份財務常用excel模板（個稅、采購、報銷、預算），超實用！

110份財務常用excel模板（個稅、采購、報銷、預算），超實用！

如果你還在為報表頭疼，那你一定不能錯過這篇干貨滿滿的分享！ 個稅報表個人所得稅，聽起來就頭大？別擔心，掌握這些技巧，輕松搞定！ - 記錄員工收入，確保數據準確無誤 - 計算應納稅…

閱讀更多...

【Unity Shader入門精要第7章】基礎紋理（一）

【Unity Shader入門精要第7章】基礎紋理（一）

1. 紋理映射每一張紋理可以看作擁有一個屬于自己的2D坐標空間，其橫軸用U表示，縱軸用V表示，因此也稱為UV坐標空間。 UV空間的坐標范圍為[0，0]到[1，1]，在Unity中，UV空間也是從左下到右上&#…

閱讀更多...

最新文章