Xinference大模型配置介紹并通過git-lfs、hf-mirror安裝

在這里插入圖片描述

文章目錄

一、Xinference開機服務systemd
二、語言（LLM）模型
- 2.1 配置介紹
- 2.2 DeepSeek-R1-Distill-Qwen-32B（大杯）
- - 工具下載git-lfs（可以繞過Hugging Face）
- 2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF（小杯）
三、嵌入（Embedding）模型
- 3.1 安裝BAAI/bge-large-zh-v1.5
四、重排序（Rerank）模型
- 4.1 git
- 4.2 wget
五、接入dify
六、多模態模型支持

通過HF-Mirror鏡像wget下載，常用的模型。

一、Xinference開機服務systemd

使用 systemd（適用于服務器長期運行）

創建 systemd 服務：

sudo vi /etc/systemd/system/xinference.service

填入：

[Unit]
Description=Xinference Service
After=network.target[Service]
ExecStart=/root/anaconda3/envs/xinference_env/bin/xinference --host 0.0.0.0 --port 9997
WorkingDirectory=/root
Restart=always
User=root[Install]
WantedBy=multi-user.target

重新加載 systemd 并啟動服務：

sudo systemctl daemon-reload
sudo systemctl start xinference
sudo systemctl enable xinference  # 開機自啟

查看日志：

sudo journalctl -u xinference -f

停止服務：

sudo systemctl stop xinference

二、語言（LLM）模型

2.1 配置介紹

模型引擎

在這里插入圖片描述

分別是：

Transformers
- 依賴 Hugging Face Transformers 庫，適用于標準 PyTorch 或 TensorFlow 部署，通常兼容性較好，支持多種硬件加速（如 GPU）。
vLLM
- 適用于高吞吐量推理，利用 PagedAttention 進行優化，推薦用于大規模推理場景，減少顯存占用。
SGLang
- 可能是專門優化的推理引擎，具體表現需要查看官方文檔或測試。
llama.cpp
- 適用于 CPU 運行，優化了低資源設備上的 LLM 推理，適合本地運行或嵌入式環境。

選擇建議：

高性能 GPU 推理：vLLM
通用部署（PyTorch / TensorFlow 支持）：Transformers
低資源或本地運行（CPU 推理）：llama.cpp
特定優化需求：SGLang（需要進一步了解其特點）

模型格式

在這里插入圖片描述

現在的 模型格式 選項增加了 gptq，它與 awq 一樣是 量化推理優化 方案，但兩者在優化策略上有所不同：

pytorch
- 原生 PyTorch 格式，未量化，最高精度但占用更多顯存。
- 適用于 高精度推理，但對硬件要求較高。
awq (Activation-aware Weight Quantization)
- 量化方案，主要優化 激活值感知權重量化，可以減少推理時的計算開銷，同時保持較高的精度。
- 適用于 低顯存 GPU 或高吞吐場景，如 vLLM 和 llama.cpp。
- 更適合多種硬件，特別是 NVIDIA GPU 運行。
gptq (Generalized Post-Training Quantization)
- 另一種 后訓練量化 方法，目標是 最小化量化誤差，尤其對 Transformer 模型進行優化。
- GPTQ 量化后的模型通常比 AWQ 更輕量，適用于 極限壓縮場景（如 4-bit GPTQ）。
- 適用于 低功耗設備 或 超大模型的輕量化部署。

選擇建議：

如果顯存足夠，追求最佳模型精度 → pytorch
如果需要在低顯存 GPU（如 24GB 以內）高效推理 → awq
如果顯存極其受限（如 16GB 或更低），或需要極端優化 → gptq

如果你打算在 Deepseek 上 高效部署一個大模型，建議選擇 awq 或 gptq。

2.2 DeepSeek-R1-Distill-Qwen-32B（大杯）

工具下載git-lfs（可以繞過Hugging Face）

解決方案：安裝 git-lfs

你需要先安裝 git-lfs，然后才能正確克隆和下載模型。

步驟 1：安裝 git-lfs

根據你的系統類型選擇對應的安裝方法：

Ubuntu / Debian

apt update && apt install -y git-lfs

CentOS / RHEL

yum install -y epel-release
yum install -y git-lfs

Mac (如果你在本地 Mac 運行)

brew install git-lfs

Windows（如果你在 Windows 本地）
直接去官網下載安裝：https://git-lfs.github.com/

步驟 2：啟用 git-lfs

安裝完成后，執行：

git lfs install

如果成功，你會看到：

Git LFS initialized.

步驟 3：克隆模型

git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git

然后進入目錄：

cd DeepSeek-R1-Distill-Qwen-32B
ls -lh

如果 .safetensors 還沒有下載完整，執行：

git lfs pull

這將確保所有 LFS 文件正確下載。

當然可能git: ‘lfs’ is not a git command. See ‘git --help’.

問題分析
系統 無法安裝 git-lfs，因為 apt update 過程中出現了 GPG 錯誤 和 無法解析某些倉庫地址 的問題：

NO_PUBKEY A4B469963BF863CC
- 說明你的系統缺少 NVIDIA CUDA 倉庫的 GPG 公鑰。
Could not resolve 'mirror.rightscale.com'
- 這個倉庫地址已經不可用或 DNS 解析失敗。

解決方案

1. 先修復 apt update 失敗的問題

① 刪除無效的 RightScale 倉庫

sudo rm -f /etc/apt/sources.list.d/rightscale*

② 添加缺失的 NVIDIA 公鑰

sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub

③ 再次更新 apt

sudo apt update

2. 安裝 git-lfs
如果 apt update 修復成功，你可以嘗試：

sudo apt install -y git-lfs

安裝完成后，運行：

git lfs install

如果成功，你會看到：

Git LFS initialized.

3. 如果 apt 仍然無法安裝 git-lfs，嘗試手動安裝

① 下載 Git LFS 安裝包

wget https://github.com/git-lfs/git-lfs/releases/latest/download/git-lfs-linux-amd64.tar.gz

② 解壓并安裝

tar -xvzf git-lfs-linux-amd64.tar.gz
sudo ./install.sh

③ 驗證安裝

git lfs --version

④ 啟用 Git LFS

git lfs install

最終測試

如果 git-lfs 安裝成功，你可以嘗試重新克隆模型：

git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git
cd DeepSeek-R1-Distill-Qwen-32B
git lfs pull

如果下載仍然不完整，可以嘗試 wget 或 aria2c 下載 .safetensors 文件。

在這里插入圖片描述

下載很慢，下完還要等一會，因此建議用寶塔（兩個網頁），方便看情況

在這里插入圖片描述

下載完后，.git會很大
在這里插入圖片描述
如果只是使用模型，直接刪除 .git 目錄 ?
如果還想更新模型，建議保留 .git 目錄 🔄
如果要節省空間但保留 git-lfs 更新能力，可精簡 .git 目錄 🛠
Xinference配置：GPU索引根據機器情況設置。

！！！大模型啟動較慢，且Xinference用網頁打開有緩存問題，因此不要著急。
在這里插入圖片描述

2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF（小杯）

通過hf-mirror

wget https://hf-mirror.com/roleplaiapp/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF/resolve/main/deepseek-r1-distill-qwen-32b-q4_k_m.gguf

三、嵌入（Embedding）模型

嵌入（Embedding）模型，選擇合適的模型取決于你的具體需求，例如 語言支持、維度大小、最大 token 數 和 應用場景。以下是對比分析：
在這里插入圖片描述

模型對比分析

模型名稱	語言支持	維度	最大 Token 數	適用場景
bge-large-zh-v1.5	中文	1024	512	適用于中文語義搜索、文本匹配
bge-large-en-v1.5	英文	1024	512	適用于英文文本匹配
bge-m3	中文+英文	1024	8192	適用于多語言檢索，支持更長文本
gte-Qwen2	中文+英文	3584	32000	適用于大規模檢索、高質量向量表示
jina-embeddings-v3	中文+英文	1024	8192	適用于跨語言檢索、語義匹配

推薦選擇

如果你的任務是中文語義檢索
- 選擇 bge-large-zh-v1.5，它是專門針對中文優化的。
如果是英文語義檢索
- 選擇 bge-large-en-v1.5，它是英文版本的最佳選擇。
如果需要中英混合檢索，且輸入文本較短
- 選擇 bge-m3，支持多語言，最大 token 數較大。
如果是超長文本、高精度應用（如搜索引擎）
- 選擇 gte-Qwen2，它的 維度 更高（3584），最大 token 也更長（32000）。
如果是跨語言檢索
- 選擇 jina-embeddings-v3，在多語言場景下表現不錯。

總結

輕量級中文嵌入：bge-large-zh-v1.5
輕量級英文嵌入：bge-large-en-v1.5
通用多語言支持：bge-m3
高性能長文本支持：gte-Qwen2
跨語言匹配：jina-embeddings-v3

如果你的應用場景是 大規模檢索、向量數據庫存儲（如 FAISS），那么 gte-Qwen2 或 bge-m3 是更好的選擇。

如果僅是 普通文本匹配或短文本搜索，bge-large-zh-v1.5（中文）或 bge-large-en-v1.5（英文）就足夠了。

3.1 安裝BAAI/bge-large-zh-v1.5

git clone https://hf-mirror.com/BAAI/bge-large-zh-v1.5.git

四、重排序（Rerank）模型

4.1 git

git clone https://hf-mirror.com/BAAI/bge-reranker-v2-m3.git

4.2 wget

你可以按照以下步驟在 /usr/local 目錄下新建文件夾，并下載模型：

創建目錄并賦權

sudo mkdir -p /usr/local/models/bge-reranker-v2-m3
sudo chmod -R 777 /usr/local/models/bge-reranker-v2-m3
cd /usr/local/models/bge-reranker-v2-m3

使用 wget 從 HF Mirror 下載模型

wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/model.safetensors
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/sentencepiece.bpe.model
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer_config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/special_tokens_map.json

-c 選項用于支持斷點續傳，防止下載中斷后需要重新開始。

檢查下載文件的大小

ls -lh /usr/local/models/bge-reranker-v2-m3

確認 model.safetensors 大小是否接近 2.27 GB，其余文件大小也要和 HF Mirror 網站上保持一致。

修改 Xinference 配置

在 Xinference 的模型路徑參數中，填寫：

/usr/local/models/bge-reranker-v2-m3

然后重新加載模型。

這樣，你的 bge-reranker-v2-m3 模型應該就能正確運行了！ 🚀

五、接入dify

以上就是常用的大模型了，我們可以介入dify使用了。

在這里插入圖片描述

六、多模態模型支持

FLUX.1-dev

git clone https://hf-mirror.com/black-forest-labs/FLUX.1-dev.git
cd FLUX.1-dev
git lfs pull

以下是支持的，可去自行探索；hf-mirror
在這里插入圖片描述