GGML 或GGUF的14種不同量化模式說明

GGML 或GGUF的14種不同量化模式說明

news/2025/6/24 3:34:53/文章來源:https://blog.csdn.net/znsoft/article/details/134939795

查看?TheBloke/Llama-2–13B-chat-GGML?存儲庫中的文件，我們可以看到?14 種不同的 GGML 模型，對應于不同類型的量化。它們遵循特定的命名約定：“q”+ 用于存儲權重的位數（精度）+ 特定變體。以下是所有可能的量化方法及其相應用例的列表，基于 TheBloke 制作的模型卡中的描述，針對llama2模型架構：

q2_k：將 Q4_K 用于 attention.vw 和 feed_forward.w2 張量，Q2_K用于其他張量。
q3_k_l：將 Q5_K 用于 attention.wv、attention.wo 和 feed_forward.w2 張量，否則Q3_K
q3_k_m：將 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 張量，否則Q3_K
q3_k_s：將Q3_K用于所有張量
q4_0：原始量化方法，4 位。
q4_1：精度高于q4_0但不如q5_0。但是，與 q5 模型相比，推理速度更快。
q4_k_m：將 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 張量，否則Q4_K
q4_k_s：將Q4_K用于所有張量
q5_0：? 原始量化方法，5位。精度更高，資源使用率更高，推理速度更慢。
q5_1：精度高于q5_0但不如q6_k。但是，與 q6?模型相比，推理速度更快。
q5_k_m：將 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 張量，否則Q5_K
q5_k_s：將Q5_K用于所有張量
q6_k：將Q8_K用于所有張量
q8_0：與浮點數16幾乎無法區分。資源使用率高，速度慢。不建議大多數用戶使用。

根據經驗，我建議使用 Q5_K_M，因為它保留了模型的大部分性能。或者，如果要節省一些內存，可以使用 Q4_K_M。一般來說，K_M版本比K_S版本更好。我不推薦 Q2 或 Q3 版本，因為它們會大大降低模型性能。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/215383.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/215383.shtml
英文地址，請注明出處：http://en.pswp.cn/news/215383.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Pytorch-Transformer軸承故障一維信號分類(三)

Pytorch-Transformer軸承故障一維信號分類(三)

目錄前言 1 數據集制作與加載 1.1 導入數據第一步，導入十分類數據第二步，讀取MAT文件驅動端數據第三步，制作數據集第四步，制作訓練集和標簽 1.2 數據加載，訓練數據、測試數據分組，數據分batch…

閱讀更多...

據房間Id是否存在，判斷當前房間是否到期且實時更改顏色

據房間Id是否存在，判斷當前房間是否到期且實時更改顏色

重點代碼展示： <template><el-col style"width: 100%;height: 100%;"><el-col :span"20"><el-card class"room_info"><avue-data-icons :option"option"></avue-data-icons></el-…

閱讀更多...

RT-DETR算法優化改進：輕量化自研設計雙卷積重新設計backbone和neck，完成漲點且計算量和參數量顯著下降

RT-DETR算法優化改進：輕量化自研設計雙卷積重新設計backbone和neck，完成漲點且計算量和參數量顯著下降

??????本文自研創新改進：雙卷積由組卷積和異構卷積組成，執行 33 和 11 卷積運算代替其他卷積核僅執行 11 卷積，YOLOv8 Conv，從而輕量化RT-DETR，性能如下表，GFLOPs 8.1降低至7.6，參數量6.3MB降低至5.8MB RT-DETR魔術師專欄介紹： https://blog.csdn.net/m0_637742…

閱讀更多...

ubuntu-c++-可執行模塊-動態鏈接庫-鏈接庫搜索-基礎知識

ubuntu-c++-可執行模塊-動態鏈接庫-鏈接庫搜索-基礎知識

文章目錄 1.動態鏈接庫簡介2.動態庫搜索路徑3.運行時鏈接及搜索順序4.查看可運行模塊的鏈接庫5.總結 1.動態鏈接庫簡介動態庫又叫動態鏈接庫，是程序運行的時候加載的庫，當動態鏈接庫正確安裝后，所有的程序都可以使用動態庫來運行程序。動態…

閱讀更多...

Android帝國之日志系統--logd、logcat

Android帝國之日志系統--logd、logcat

本文概要這是Android系統進程系列的第四篇文章，本文以自述的方式來介紹logd進程，通過本文您將了解到logd進程存在的意義，以及日志系統的實現原理。（文中的代碼是基于android13） Android系統進程系列的前三篇文章如下…

閱讀更多...

C#基礎與進階擴展合集-基礎篇（持續更新）

C#基礎與進階擴展合集-基礎篇（持續更新）

目錄本文分兩篇，進階篇點擊：C#基礎與進階擴展合集-進階篇一、基礎入門 Ⅰ 關鍵字 Ⅱ 特性 Ⅲ 常見異常 Ⅳ 基礎擴展 1、哈希表 2、擴展方法 3、自定義集合與索引器 4、迭代器與分部類 5、yield return 6、注冊表 7、不安全代碼 8、方法…

閱讀更多...

MATLAB中cell函數的用法

MATLAB中cell函數的用法

cell用法在MATLAB中，cell 是一種特殊的數據類型，用于存儲不同大小和類型的數據。cell 數組是一種容器，每個元素可以包含任意類型的數據，包括數值、字符串、矩陣、甚至其他的 cell 數組。以下是 cell 數組的基本語法和示例&…

閱讀更多...

gitblit自建git倉庫

gitblit自建git倉庫

安裝 java sudo apt-get update sudo apt-get install openjdk-8-jdk # 或者其它你喜歡的版本驗證： java -version 下載 gitblit https://github.com/gitblit-org/gitblit/releases 解壓/usr/local tar -zxvf gitblit-1.9.3.tar.gz 修改配置文件 nano /usr/local/…

閱讀更多...

【React】useCallback 使用的說明

【React】useCallback 使用的說明

文章目錄 useCallback的優缺點優點缺點JavaScript 的內聯優化使用場景用了兩年多的react，今天抽空寫點小內容 useCallback的優缺點緩存了每次渲染時候 inline callback的實例優點關鍵點：利用memoize減少無效的re-render，通常配合shouldC…

閱讀更多...

ElasticSearch之cat trained model API

ElasticSearch之cat trained model API

命令樣例如下： curl -X GET "https://localhost:9200/_cat/ml/trained_models?vtrue&pretty" --cacert $ES_HOME/config/certs/http_ca.crt -u "elastic:ohCxPHQBEs5*lo7F9"執行結果輸出如下： id heap_size …

閱讀更多...

如何在OpenWRT軟路由系統部署uhttpd搭建web服務器實現遠程訪問——“cpolar內網穿透”

如何在OpenWRT軟路由系統部署uhttpd搭建web服務器實現遠程訪問——“cpolar內網穿透”

文章目錄前言1. 檢查uhttpd安裝2. 部署web站點3. 安裝cpolar內網穿透4. 配置遠程訪問地址5. 配置固定遠程地址前言 uhttpd 是 OpenWrt/LuCI 開發者從零開始編寫的 Web 服務器，目的是成為優秀穩定的、適合嵌入式設備的輕量級任務的 HTTP 服務器，并且和…

閱讀更多...

docker-compose的介紹與使用

docker-compose的介紹與使用

一、docker-compose 常用命令和指令 1. 概要默認的模板文件是 docker-compose.yml，其中定義的每個服務可以通過 image 指令指定鏡像或 build 指令（需要 Dockerfile）來自動構建。注意如果使用 build 指令，在 Dockerfile 中設置…

閱讀更多...

RHEL網絡服務器

RHEL網絡服務器

目錄 1.時間同步的重要性 2.配置時間服務器 （1）指定所使用的上層時間服務器。 (2）指定允許訪問的客戶端 (3）把local stratum 前的注釋符#去掉。 3.配置chrony客戶端 （1）修改pool那行,指定要從哪臺時間…

閱讀更多...

Python常見面試知識總結(一)：迭代器、拷貝、線程及底層結構

Python常見面試知識總結(一)：迭代器、拷貝、線程及底層結構

前言： Hello大家好，我是Dream。今天來總結一下Python和C語言中常見的面試知識，歡迎大家一起前來探討學習~ 【一】Python中迭代器的概念？ 可迭代對象是迭代器、生成器和裝飾器的基礎。簡單來說，可以使用for來循環遍歷…

閱讀更多...

[古劍山2023] pwn

[古劍山2023] pwn

最近這個打stdout的題真多。這個比賽沒打。拿到附件作了一天。 choice 32位，libc-2.23-i386，nbytes初始值為0x14,讀入0x804A04C 0x14字節后會覆蓋到nbytes 1個字節。當再次向v1讀入nbytes字節時會造成溢出。先寫0x14p8(0xff)覆蓋到nbytes然后溢出寫傳…

閱讀更多...

初次參加軟考就想報高級，哪個相對容易考？

初次參加軟考就想報高級，哪個相對容易考？

如果你想第一次參加軟考時就報考高級科目，但是卻不知道該報考高級中的哪個科目好、 ? ?那么今天的這篇文章你一定不要錯過！首先，我們一起來了解一下，軟考高級中的5個科目。 ? ?軟考高級科目 ? 信息系統項目管理師 ? …

閱讀更多...

記錄一次postgresql臨時表丟失問題

記錄一次postgresql臨時表丟失問題

項目相關技術棧 springboot hikari連接池pgbouncerpostgresql數據庫背景為了優化一個任務執行的速度，我將任務的sql中部分語句抽出生成臨時表（create temp table tempqw as xxxxxxxxx），再和其他表關聯，提高查詢速…

閱讀更多...

三翼鳥2023輝煌收官, 定盤2024高質量棋局

三翼鳥2023輝煌收官, 定盤2024高質量棋局

最近在不同平臺上接連看到這樣的熱搜話題：用時間膠囊記錄2023的自己、2023年度問答、2023十大網絡流行語公布… 顯然， 2023年進入最后一個月，時間匆匆，這也意味著又到了總結過去和規劃未來的時候。拿到結果、取得成績當然是對202…

閱讀更多...

算法通關村第十五關 | 白銀 | 海量數據場景下的熱門算法題

算法通關村第十五關 | 白銀 | 海量數據場景下的熱門算法題

1.從 40 個億中產生一個不存在的整數可以采用位圖存儲數據，申請一個 bit 類型的數組 bitArr ，每個位置只表示 0 或者 1 狀態，可以將占用內存縮小為使用哈希表的 1/32 。遍歷給定的 40 億個數，遇到數時就將 bitArr 相應位置設置…

閱讀更多...

短視頻引流獲客系統：引領未來營銷的新潮流

短視頻引流獲客系統：引領未來營銷的新潮流

在這個信息爆炸的時代，短視頻已經成為了人們獲取信息的主要渠道之一。而隨著短視頻的火爆，引流獲客系統也逐漸成為了營銷領域的新寵。本文將詳細介紹短視頻引流獲客系統的開發流程以及涉及到的技術，讓我們一起來看看這個引領未來營銷的新潮流…

閱讀更多...

最新文章