Llama CPP的主要構造,GGUF和GGML為兩個主要部分,包括模型描述文件和模型參數存儲文件
文章目錄
- GGUF
- 構建圖
- 讀取權重
GGUF
- llama.cpp 的作者 Georgi Gerganov 提出的新一代大模型描述文件 GPT-Generated Unified Format,繼承自GGML,但是克服了GGML的一些缺點
- 例如,缺少版本信息難以向后兼容;信息增加或者修改不變,手動修改模型信息不方便等;
構建圖
- 通過llma_bulid_graph在不同的基礎模型之上進行參數設計(例如 llama、baichuan、MINICPM 、GEMMA、STARCODER、BERT、QW、QW2等,甚至還有MEMBA)
- 在每個類GPT之中,通過基函數描述了計算流,同時通過暴露層數、token維度等參數作為可調模型
讀取權重
- 設計了基于分塊的tensor組裝,同時使用描述文件將對每個tensor及其size進行區分