【LLM】llama.cpp:合并 GGUF 模型分片

GGUF(GPT-Generated Unified Format)是一種專為大規模語言模型設計的二進制文件格式,支持將模型分割成多個分片(*-of-*.gguf)。當從開源社區(如 HuggingFace 或 ModelScope)下載量化模型時,常會遇到分片存儲的情況。本教程將引導你使用 llama.cpp 工具包中的 llama-gguf-split,將這些分片合并為一個完整的 GGUF 模型文件。


前言與適用場景

  • 適用對象:已下載多分片的 GGUF 量化模型用戶;
  • 使用工具llama-gguf-split(合并)及 llama-gguf-hash(校驗);
  • 關鍵收益:快速、無損地將切分后的模型恢復為單一文件,便于后續推理調用或二次分發。

提示:以下所有 文件路徑版本號模型名稱 等均可根據實際情況替換,請務必自行確認再執行。


環境準備

  1. 操作系統:Ubuntu 20.04 / 22.04 LTS
  2. Python 版本:3.8 及以上
sudo apt update
sudo apt install -y unzip  # 確保已安裝解壓工具

工具獲取

1. 安裝 ModelScope(可選)

如果你尚未下載分片模型,可先安裝并使用 ModelScope 客戶端:

pip install modelscope

2. 從官方倉庫下載 llama.cpp 預編譯工具

  1. 訪問 llama.cpp Releases,找到最新版本(示例:b5162)。
  2. 執行以下命令:
# 示例版本 b5162,請替換為最新版本號
wget https://github.com/ggerganov/llama.cpp/releases/download/b5162/llama-b5162-bin-ubuntu-vulkan-x64.zipmkdir -p ~/llama_tools   # 自定義工具存放目錄
unzip -j llama-b5162-bin-ubuntu-vulkan-x64.zip 'build/bin/*' -d ~/llama_tools
chmod +x ~/llama_tools/*

說明

  • -j 選項可將所有二進制文件直接解壓到目標文件夾;
  • 確保對解壓后的文件賦予可執行權限(chmod +x)。

合并模型分片

  1. 切換到工具目錄:

    cd ~/llama_tools
    
  2. 執行合并命令:

    ./llama-gguf-split --merge \~/models/DeepSeek-V3-Q3/DeepSeek-V3-0324-Q3_K_M-00001-of-00007.gguf \~/models/DeepSeek-V3-Q3/DeepSeek-V3-Q3_Merged.gguf
    

參數說明

  • --merge:合并模式;
  • 第一個參數:任意一個分片文件路徑;
  • 第二個參數:合并后完整 GGUF 文件的輸出路徑。

合并驗證

1. 完整性校驗

# 使用內置的哈希校驗,確保文件無損
./llama-gguf-hash ~/models/DeepSeek-V3-Q3/DeepSeek-V3-Q3_Merged.gguf
  • 校驗成功后,會輸出對應哈希值;
  • 若不匹配,請重新下載或檢查分片完整性。

2. 簡單加載測試

# 使用 llama.cpp 提供的命令行工具進行推理測試
./llama-cli -m ~/models/DeepSeek-V3-Q3/DeepSeek-V3-Q3_Merged.gguf -p "Hello"

如果出現合理的響應,即代表合并及校驗成功,可以正常用于下游任務。


存儲空間清理

1. 刪除壓縮包,僅保留可執行文件

rm ~/llama-b5162-bin-ubuntu-vulkan-x64.zip
ls -lh ~/llama_tools  # 確認工具目錄中仍有可執行文件

2. 移除原始分片(確認無誤后執行)

# 確保合并模型已通過校驗與測試
rm ~/models/DeepSeek-V3-Q3/DeepSeek-V3-0324-Q3_K_M-*.gguf
ls -lh ~/models/DeepSeek-V3-Q3/*Merged.gguf

注意:刪除分片前,請務必確認單文件模型運行正常。否則會導致不可逆的數據丟失。


小結

至此,你已成功合并并驗證 GGUF 模型分片,接下來即可在任何支持 llama.cpp 的環境中使用該完整模型進行高效推理。若有其他疑問或需批量處理不同模型,請參考 llama-gguf-split --help 查看更多參數選項。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/80064.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/80064.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/80064.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Ubuntu 系統下安裝和使用性能分析工具 perf

在 Ubuntu 系統下安裝和使用性能分析工具 perf 的步驟如下: 1. 安裝 perf perf 是 Linux 內核的一部分,通常通過安裝 linux-tools 包獲取: # 更新軟件包列表 sudo apt update# 安裝 perf(根據當前內核版本自動匹配) …

Buffer of Thoughts: Thought-Augmented Reasoningwith Large Language Models

CODE: NeurIPS 2024 https://github.com/YangLing0818/buffer-of-thought-llm Abstract 我們介紹了思想緩沖(BoT),一種新穎而通用的思想增強推理方法,用于提高大型語言模型(大型語言模型)的準確性、效率和魯棒性。具體來說,我們提出了元緩沖…

Java面試中問單例模式如何回答

1. 什么是單例模式? 單例模式(Singleton Pattern)是一種設計模式,確保某個類在整個應用中只有一個實例,并且提供全局訪問點。它有以下特點: 確保只有一個實例。提供全局訪問點。防止多次實例化,節約資源。2. 如何實現單例模式? 單例模式有多種實現方式,以下是最常見…

實戰華為1:1方式1 to 1 VLAN映射

本文摘自筆者于2024年出版,并得到廣泛讀者認可,已多次重印的《華為HCIP-Datacom路由交換學習指南》。 華為設備的1 to 1 VLAN映射有1:1和N :1兩種方式。1:1方式是將指定的一個用戶私網VLAN標簽映射為一個公網VLAN標簽,是一種一對一的映射關系…

認識Vue

認識Vue 文章目錄 認識Vue一、vue是什么二、Vue核心特性數據驅動(MVVM)組件化指令系統 三、Vue跟傳統開發的區別1. **開發模式:MVVM vs 模板驅動**2. **組件化開發**3. **狀態管理**4. **路由管理**5. **構建與工程化**6. **性能優化**7. **學習曲線**8.…

iOS中使用AWS上傳zip文件到Minio上的oss平臺上

1. 集成AWS相關庫(千萬不要用最新的版本,否則會出現風格化虛擬路徑,找不到主機名) pod AWSS3, ~> 2.10.0 pod AWSCore, ~> 2.10.0 2. 編寫集成的相關代碼 - (void)uploadFileToMinIO {NSString *endPoint "http://…

usb2.0的硬件知識(一)

一、USB2.0的硬件知識 1.1 USB2.0速率 USB 2.0協議支持3種速率:低速(Low Speed,1.5Mbps)、全速(Full Speed, 12Mbps)、高速(High Speed, 480Mbps);USB Hub、USB設備,也分為低速、全速、高速三種類型。 1.2 USB2.0硬件線序組成 U…

植物大戰僵尸雜交版v3.6最新版本(附下載鏈接)

B站游戲作者潛艇偉偉迷于4月19日更新了植物大戰僵尸雜交版3.6版本!!!,有b站賬戶的記得要給作者三連關注一下呀! 不多廢話下載鏈接放上: 夸克網盤鏈接::https://pan.quark.cn/s/1af9b…

LeadeRobot具身智能應用標桿:無人機X柔韌具身智能,空中精準作業游刃有余

當前,具身智能已成為全球科技領域的前沿焦點,更受到國家戰略級重視,吸引科技產業巨頭搶灘布局。但同時,具身智能的商業化路徑、規模化應用場景、技術成本等難題也開始在資本界與產業圈引起廣泛討論。 目前,萬勛科技基于Pliabot 柔韌技術已推出多款具身智能柔韌機器人產品,在柔…

服務器上安裝maven

1.安裝 下載安裝包 https://maven.apache.org/download.cgi 解壓安裝包 cd /opt/software tar -xzvf apache-maven-3.9.9-bin.tar.gz 安裝目錄(/opt/maven/) mv /opt/software/apache-maven-3.9.9 /opt/ 3.權限設置 把/opt/software/apache-maven-3.9.9 文件夾重命名為ma…

AI 模型在前端應用中的典型使用場景和限制

典型使用場景 1. 智能表單處理 // 使用TensorFlow.js實現表單自動填充 import * as tf from tensorflow/tfjs; import { loadGraphModel } from tensorflow/tfjs-converter;async function initFormPredictor() {// 加載預訓練的表單理解模型const model await loadGraphMod…

10_C++入門案例習題: 結構體案例

案例描述 學校正在做畢設項目,每名老師帶領5個學生,總共有3名老師,需求如下 設計學生和老師的結構體,其中在老師的結構體中,有老師姓名和一個存放5名學生的數組作為成員 學生的成員有姓名、考試分數, 創建…

優化提示詞方面可以使用的數學方法理論:信息熵,概率論 ,最優化理論

優化提示詞方面可以使用的數學方法理論:信息熵,概率論 ,最優化理論 目錄 優化提示詞方面可以使用的數學方法理論:信息熵,概率論 ,最優化理論信息論信息熵明確問題主題提供具體細節限定回答方向規范語言表達概率論最優化理論信息論 原理:信息論中的熵可以衡量信息的不確定性。…

DB-GPT支持mcp協議配置說明

簡介 在 DB-GPT 中使用 MCP(Model Context Protocol)協議,主要通過配置 MCP 服務器和智能體協作實現外部工具集成與數據交互。 開啟mcp服務,這里以網頁抓取為例 npx -y supergateway --stdio "uvx mcp-server-fetch" …

2025.4.22學習日記 JavaScript的常用事件

在 JavaScript 里,事件是在文檔或者瀏覽器窗口中發生的特定交互瞬間,例如點擊按鈕、頁面加載完成等等。下面是一些常用的事件以及案例: 1. click 事件 當用戶點擊元素時觸發 const button document.createElement(button); button.textCo…

基于 SpringAI 整合 DeepSeek 模型實現 AI 聊天對話

目錄 1、Ollama 的下載配置 與 DeepSeek 的本地部署流程 1.1 下載安裝 Ollama 1.2 搜索模型并進行本地部署 2、基于 SpringAI 調用 Ollama 模型 2.1 基于OpenAI 的接口規范(其他模型基本遵循) 2.2 在 IDEA 中進行創建 SpringAI 項目并調用 DS 模型 3、基…

在線查看【免費】 dcm、drawio,dcm wps文件格式網站

可以免費在線查看 .docx/wps/Office/wmf/ psd/ psd/eml/epub/dwg, dxf/ txt/zip, rar/ jpg/mp3 m.gszh.xyz m.gszh.xyz 免費支持以下格式文件在線查看類型 支持 doc, docx, xls, xlsx, xlsm, ppt, pptx, csv, tsv, dotm, xlt, xltm, dot, dotx, xlam, xla, pages 等 Office 辦…

低光環境下雙目云臺攝像頭監控性能解析

雙目云臺攝像頭在低光環境下的監控效果主要取決于其硬件配置和軟件優化能力。以下是對雙目云臺攝像頭在低光環境下監控效果的詳細分析: 一、硬件配置對低光監控效果的影響 鏡頭與焦距 : 雙目云臺攝像頭通常配備超大廣角固定鏡頭和360視角的移動鏡頭&a…

繼承相關知識

概念 定義類時,代碼中有共性的成員,還有自己的屬性,使用繼承可以減少重復的代碼, 繼承的語法 class 子類:繼承方式 父類 繼承方式有:public,private,protected 公共繼承&#x…

【Python進階】數據可視化:Matplotlib從入門到實戰

Python數據可視化:Matplotlib完全指南 前言技術背景與價值當前技術痛點解決方案概述目標讀者說明 一、技術原理剖析核心概念圖解核心作用講解關鍵技術模塊說明技術選型對比 二、實戰演示環境配置要求核心代碼實現案例1:折線圖(股票趨勢&#…