大模型量化004

Bert+ P-tuning

Bert+PET、Bert+P-Tuning

Chain of Thought
Few shot Cot
Auto-COT 解決手動編寫高質量CoT示例麻煩耗時的問題

Auto COT 自動思維鏈生成器

1.業務場景: 每天收到很多反饋,之前需要人工整理,找到重點,做判斷那些需要立即處理,
那些可以 慢慢處理,那些不是問題,希望生成報告
2反饋聚類:
根據這個反饋,看一看提出了哪些方面的問題
3代表性采樣:
從歷史的業務數據中找到每個類別,代表性問題
4.Zero shot Cot 生成分析范例:
把代表性問題丟給大模型,讓他生成思考過程
添加大模型作為裁判
5. 構建最終提示:
將前面的內容拼接 成一個few shot
把拼接好的結果丟給大模型。

比較適合的業務場景:
問題多樣性 要處理的問題是不是高度多樣化,需要考慮不同的維度
是否需要多步復雜推理
示例構建難度 (自己手動寫高質量的COT是不是很耗時間)
是不是總有擴展需求
質量需求(當前任務對結果需求是否很高)
上面幾個問題,有一半以上都跟場景能對得上,就是適合的場景,如果不是,自己寫COT的提示詞模板
速度慢,比較浪費TOKEN

大模型的量化:

H20 8卡 96G 141G
DeepSeek R1 671B FP8訓練的 1B字節對應1G 輸入KV-cache

4090 24G 5090 32G 量化+offload 卸載一部分參數加載到內存中
KTransformer 存內存的方式 GPU+內存

FP64
FP32
FP16、BF16
FP8 FP6 FP4
int8 int4
GGUF
在這里插入圖片描述

qwen3 8B模型 參數裝進顯卡 FP8 需要多少顯存
在這里插入圖片描述在這里插入圖片描述

FP16, BF16 int8 在各種卡上都能跑的量化方式。
v100 相對便宜一點 32G 5000元
H20 150W
消費級顯卡: 3090 4090 5090 游戲卡

對稱量化

在這里插入圖片描述
在這里插入圖片描述

非對稱量化

范圍映射與裁剪 Clipping

訓練后量化 Post-Training Quantization

在這里插入圖片描述
然后,這個激活值的分布被用來計算量化輸出所需要的零點(z)和 縮放因子(s)

Dynamic Quantization 動態

Static Quantization 靜態

在這里插入圖片描述

量化計算方式:
對稱量化
非對稱量化
量化的時機:
訓練后量化:
靜態量化, 激活值通過一組校準數據集,走一遍模型,計算出數據經過每一層的 s 和 z,
把每層的s 和 z都存起來
動態量化:一邊 推理一邊計算
訓練時量化:


在這里插入圖片描述

在這里插入圖片描述

量化感知訓練:

在這里插入圖片描述

顯卡:
本地化部署:
2016年 Pascal Tesla P100 Tesla P40 24G顯存 幾百塊錢
FP32 int8
FP16/BF16 不支持
Volta 2017 V100 32G/ 16G
FP16 Tensor Core BF16不支持
int8
Turing 架構 2018 年
Tesla T4 2080Ti 22G顯存(2500-3000) 11G顯存
FP16 int8 int4 硬件加速
BF16不支持
Ampere 2020年
A100 80G、40G顯存
L20 L40 48G顯存
原生支持BF16 上限與下限比較大 對比FP16容易出現值溢出
Hopper H100 H200(國內有限制了)
FP8 好多大模型都是在FP8精度上進行訓練的
H20 對中國大陸的閹割版 算力,帶寬都有限制

2024 blackwell B100 B200
FP4 原生支持

云 阿里云 V100

消費機顯卡 , 工業級顯卡
消費級顯卡: 算力帶寬比同時期的工業級顯卡 要小
工業級顯卡: 支持nylink 帶寬比較高,傳輸效率比較高
多卡

單機單卡:

671B FP8

多機多卡:每臺機器之間網絡連接

量化重點:
FP16,BF16
int8 int4
FP8 現在大多數的新的模型都是在FP8精度下訓練的。
int8 int4 低于8的低比特量化主要用于推理階段

量化的計算方式:
對稱: 量化前是 0 和 量化后 還是0
非對稱:
量化的時機:
訓練后量化:
動態量化
靜態量化
訓練量化感知(訓練時就考慮量化)
低比特量化:
GGUF

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/91042.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/91042.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/91042.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C#(基本語法)

數據類型C#是一種強類型語言,變量必須聲明類型。基本數據類型包括整型(int、long)、浮點型(float、double)、布爾型(bool)、字符型(char)和字符串型(string&a…

ARM-I2C軟實現

開發流程引腳初始化引腳功能定義實現讀操作實現寫操作GD32F4軟件I2C初始化void SoftI2C_init() {// 時鐘配置rcu_periph_clock_enable(SCL_RCU);// 設置輸出模式gpio_mode_set(SCL_PORT, GPIO_MODE_OUTPUT, GPIO_PUPD_NONE, SCL_PIN);gpio_output_options_set(SCL_PORT, GPIO_O…

防水醫用無人機市場報告:現狀、趨勢與洞察

市場規模與增長趨勢在全球醫療科技快速發展的當下,防水醫用無人機市場正嶄露頭角,展現出強勁的發展勢頭。據 QYR統計,2023 年全球醫用無人機市場銷售額達到 1.9 億美元,預計到 2030 年將飆升至 8.5 億美元,年復合增長率…

haproxy代理

一.負載均衡 1.1.什么是負載均衡 負載均衡:Load Balance,簡稱LB,是一種服務或基于硬件設備等實現的高可用反向代理技術,負載均 衡將特定的業務(web服務、網絡流量等)分擔給指定的一個或多個后端特定的服務器或設備,…

【面試】軟件測試面試題

1. 測試用例如何編寫 2. bug的生命周期 項目有多少人?多少條測試用例?多少bug?自己發現的第一條?(是不是bug) 3. 缺陷管理工具 包括Jira, PingCode, 禪道,BugZilla,Redmine, TAPD&am…

HbuilderX開發小程序

1.打卡HbuilderX,選擇文件—新建—項目2.創建項目3.在HbuilderX中運行前要確定微信開發這工具的服務端口號是打開的4.HbuilderX中點擊預覽可以實時預覽5.在微信開發者中進行本地測試點擊后自動跳轉到微信開發者工具中運行項目

Netty中FastThreadLocal解讀

io.netty.util.concurrent.FastThreadLocal 是 Netty 中提供的高性能線程局部存儲(Thread-Local Storage)實現,位于 io.netty.util.concurrent 包。它是 Java 標準庫 ThreadLocal 的替代品,旨在優化性能,減少內存分配和…

上海迪士尼游玩攻略 小鐵寄存柜讓你輕松暢玩

去上海迪士尼玩最煩帶一堆行李,其實有小鐵寄存柜幫忙就能輕裝上陣,各個關鍵位置都有分布,玩起來特別省心。?剛到迪士尼的時候,要是坐地鐵到上海國際旅游度假區站,1/2 號口安檢區就有小鐵柜,行李箱、大背包…

飛算科技重磅出品:飛算 JavaAI 重構 Java 開發效率新標桿

在 Java 開發領域,一款由國家級高新技術企業自主研發的智能工具正引發行業關注 —— 飛算 JavaAI 不僅承載著中國原創技術的創新基因,更以貼合實際開發場景的功能設計,成為眾多企業提升 Java 開發效率的核心助力。?作為飛算數智科技&#xf…

python案例:基于python 神經網絡cnn和LDA主題分析的旅游景點滿意度分析

1.緒論1.1研究背景與意義1.1.1研究背景隨著旅游業的快速發展,滿意度分析成為評估旅游景點質量和提升游客體驗的重要手段。作為中國的旅游城市之一,其旅游景點吸引了大量游客。然而,如何科學評估和提升旅游景點的滿意度&#xff0c…

Git快速入門,完整的git項目管理工具教程,git入門到精通!

Git的下載與安裝: 直接去官網下載即可; 或者查看這個博客學會下載:Git 詳細安裝教程(詳解 Git 安裝過程的每一個步驟)_git安裝-CSDN博客 注意:一個文件夾下只能有一個本地倉庫(就是一個.git) 細節操作

C++day07(三種取整方法)

學習目標 認識流程圖 多種方式解決問題 取整方式和取整函數 1.解決編程問題的過程 1.理解題意,找出關鍵信息。 2.整理思路,用圖或者文字寫出算法。 3.將算法步驟翻譯為C++代碼。 4.編譯運行,修改語法或邏輯錯誤。 不符合則需要回到上一步進行修改。 5 .輸入測試用例與…

Go語言實戰案例-LRU緩存機制模擬

在高性能服務開發中,緩存是提升訪問速度和減少后端負載的重要手段。常見的緩存淘汰策略中,**LRU(Least Recently Used,最近最少使用)**是應用最廣的一種。本篇我們用Go語言手寫一個LRU緩存機制的模擬實現。一、LRU緩存…

vue2中實現leader-line-vue連線文章對應字符

效果展示 通過點擊右邊的tag,觸發連接操作 第一步:獲取右邊tag展示 1.右邊的tag列表展示,我這邊是分為兩個list嵌套的數據結構; {"人員": [{

SPEA2(Strength Pareto Evolutionary Algorithm 2)優化算法簡介

前言 提醒: 文章內容為方便作者自己后日復習與查閱而進行的書寫與發布,其中引用內容都會使用鏈接表明出處(如有侵權問題,請及時聯系)。 其中內容多為一次書寫,缺少檢查與訂正,如有問題或其他拓展…

IDEA 手動下載安裝數據庫驅動,IDEA無法下載數據庫驅動問題解決方案,IDEA無法連接數據庫解決方案(通用,Oracle為例)

一、查詢要下載的數據庫驅動 在IDEA側邊欄找到數據庫(databases),新增一個數據連接 右鍵,屬性 點擊下載,查看要下載的驅動版本 二、下載數據庫驅動(Oracle為例) 下載對應MySQL/Oracle數據庫的…

專業Python爬蟲實戰教程:逆向加密接口與驗證碼突破完整案例

案例背景假設我們需要爬取一家內部測試系統的動態數據API接口。該系統前端頁面使用了復雜的JavaScript混淆技術來防止接口被直接調用,同時對請求參數進行了加密簽名。另外,登錄環節帶有圖形驗證碼用于防護。我們的目標是:分析JavaScript代碼&…

【SQL】Windows MySQL 服務查詢啟動停止自啟動(保姆級)

MySQL是一種開放源代碼的輕量級關系型數據庫管理系統,使用最常用的結構化查詢語言(SQL)對數據庫進行管理。由于MySQL具有體積小、速度快、成本低、開放源碼等優點,現已被廣泛應用于互聯網上的中小型網站中,并且大型網站…

算法提升之數論(矩陣+快速冪)

通過矩陣和快速冪的方法來解決算法題目可以很好地降低時間復雜度,幫助大家更好地解決題目。下面這道題目有一定難度,希望大家可以好好地理解,相信對大家會有很大的幫助。問題描述有 n(2≤n≤10) 個玩家玩游戲,他們按 1 到 n 編號。…

數學建模算法-day[14]

6.2 傳染病預測問題 問題提出 世界上存在很多傳染病,如何根據其傳播機理預測疾病得傳染范圍及染病人數等,對傳染病的控制意義十分重大。 1.指數傳播模型 基本假設 (1) 所研究的區域是一封閉區域,在一個時期內人口總量相對穩定,不考…