查看?TheBloke/Llama-2–13B-chat-GGML?存儲庫中的文件,我們可以看到?14 種不同的 GGML 模型,對應于不同類型的量化。它們遵循特定的命名約定:“q”+ 用于存儲權重的位數(精度)+ 特定變體。以下是所有可能的量化方法及其相應用例的列表,基于 TheBloke 制作的模型卡中的描述,針對llama2模型架構:
q2_k
:將 Q4_K 用于 attention.vw 和 feed_forward.w2 張量,Q2_K用于其他張量。q3_k_l
:將 Q5_K 用于 attention.wv、attention.wo 和 feed_forward.w2 張量,否則Q3_Kq3_k_m
:將 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 張量,否則Q3_Kq3_k_s
:將Q3_K用于所有張量q4_0
:原始量化方法,4 位。q4_1
:精度高于q4_0但不如q5_0。但是,與 q5 模型相比,推理速度更快。q4_k_m
:將 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 張量,否則Q4_Kq4_k_s
:將Q4_K用于所有張量q5_0
:? 原始量化方法,5位。精度更高,資源使用率更高,推理速度更慢。q5_1
:精度高于q5_0但不如q6_k。但是,與 q6?模型相比,推理速度更快。q5_k_m
:將 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 張量,否則Q5_Kq5_k_s
:將Q5_K用于所有張量q6_k
:將Q8_K用于所有張量q8_0
:與浮點數16幾乎無法區分。資源使用率高,速度慢。不建議大多數用戶使用。
根據經驗,我建議使用 Q5_K_M,因為它保留了模型的大部分性能。或者,如果要節省一些內存,可以使用 Q4_K_M。一般來說,K_M版本比K_S版本更好。我不推薦 Q2 或 Q3 版本,因為它們會大大降低模型性能。