大模型量化004

Bert+ P-tuning

Bert+PET、Bert+P-Tuning

Chain of Thought
Few shot Cot
Auto-COT 解決手動編寫高質量CoT示例麻煩耗時的問題

Auto COT 自動思維鏈生成器

1.業務場景：每天收到很多反饋，之前需要人工整理，找到重點，做判斷那些需要立即處理，
那些可以慢慢處理，那些不是問題，希望生成報告
2反饋聚類：
根據這個反饋，看一看提出了哪些方面的問題
3代表性采樣：
從歷史的業務數據中找到每個類別，代表性問題
4.Zero shot Cot 生成分析范例：
把代表性問題丟給大模型，讓他生成思考過程
添加大模型作為裁判
5. 構建最終提示：
將前面的內容拼接成一個few shot
把拼接好的結果丟給大模型。

比較適合的業務場景：
問題多樣性要處理的問題是不是高度多樣化，需要考慮不同的維度
是否需要多步復雜推理
示例構建難度（自己手動寫高質量的COT是不是很耗時間）
是不是總有擴展需求
質量需求（當前任務對結果需求是否很高）
上面幾個問題，有一半以上都跟場景能對得上，就是適合的場景，如果不是，自己寫COT的提示詞模板
速度慢，比較浪費TOKEN

大模型的量化：

H20 8卡 96G 141G
DeepSeek R1 671B FP8訓練的 1B字節對應1G 輸入KV-cache

4090 24G 5090 32G 量化+offload 卸載一部分參數加載到內存中
KTransformer 存內存的方式 GPU+內存

FP64
FP32
FP16、BF16
FP8 FP6 FP4
int8 int4
GGUF
在這里插入圖片描述

qwen3 8B模型參數裝進顯卡 FP8 需要多少顯存
在這里插入圖片描述

FP16, BF16 int8 在各種卡上都能跑的量化方式。
v100 相對便宜一點 32G 5000元
H20 150W
消費級顯卡： 3090 4090 5090 游戲卡

對稱量化

在這里插入圖片描述

非對稱量化

范圍映射與裁剪 Clipping

訓練后量化 Post-Training Quantization

在這里插入圖片描述
然后，這個激活值的分布被用來計算量化輸出所需要的零點（z）和縮放因子（s）

Dynamic Quantization 動態

Static Quantization 靜態

在這里插入圖片描述

量化計算方式：
對稱量化
非對稱量化
量化的時機：
訓練后量化：
靜態量化，激活值通過一組校準數據集，走一遍模型，計算出數據經過每一層的 s 和 z，
把每層的s 和 z都存起來
動態量化：一邊推理一邊計算
訓練時量化：

在這里插入圖片描述

量化感知訓練：

在這里插入圖片描述

顯卡：
本地化部署：
2016年 Pascal Tesla P100 Tesla P40 24G顯存幾百塊錢
FP32 int8
FP16/BF16 不支持
Volta 2017 V100 32G/ 16G
FP16 Tensor Core BF16不支持
int8
Turing 架構 2018 年
Tesla T4 2080Ti 22G顯存(2500-3000) 11G顯存
FP16 int8 int4 硬件加速
BF16不支持
Ampere 2020年
A100 80G、40G顯存
L20 L40 48G顯存
原生支持BF16 上限與下限比較大對比FP16容易出現值溢出
Hopper H100 H200（國內有限制了）
FP8 好多大模型都是在FP8精度上進行訓練的
H20 對中國大陸的閹割版算力，帶寬都有限制

2024 blackwell B100 B200
FP4 原生支持

云阿里云 V100

消費機顯卡，工業級顯卡
消費級顯卡：算力帶寬比同時期的工業級顯卡要小
工業級顯卡：支持nylink 帶寬比較高，傳輸效率比較高
多卡

單機單卡：

671B FP8

多機多卡：每臺機器之間網絡連接

量化重點：
FP16，BF16
int8 int4
FP8 現在大多數的新的模型都是在FP8精度下訓練的。
int8 int4 低于8的低比特量化主要用于推理階段

量化的計算方式：
對稱：量化前是 0 和量化后還是0
非對稱：
量化的時機：
訓練后量化：
動態量化
靜態量化
訓練量化感知（訓練時就考慮量化）
低比特量化：
GGUF

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/91042.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/91042.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/91042.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！