文章目錄
- 一、Xinference開機服務systemd
- 二、語言(LLM)模型
- 2.1 配置介紹
- 2.2 DeepSeek-R1-Distill-Qwen-32B(大杯)
- 工具下載git-lfs(可以繞過Hugging Face)
- 2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF(小杯)
- 三、嵌入(Embedding)模型
- 3.1 安裝BAAI/bge-large-zh-v1.5
- 四、重排序(Rerank)模型
- 4.1 git
- 4.2 wget
- 五、接入dify
- 六、多模態模型支持
通過HF-Mirror鏡像wget下載,常用的模型。
一、Xinference開機服務systemd
使用 systemd
(適用于服務器長期運行)
- 創建 systemd 服務:
sudo vi /etc/systemd/system/xinference.service
填入:
[Unit]
Description=Xinference Service
After=network.target[Service]
ExecStart=/root/anaconda3/envs/xinference_env/bin/xinference --host 0.0.0.0 --port 9997
WorkingDirectory=/root
Restart=always
User=root[Install]
WantedBy=multi-user.target
- 重新加載
systemd
并啟動服務:
sudo systemctl daemon-reload
sudo systemctl start xinference
sudo systemctl enable xinference # 開機自啟
- 查看日志:
sudo journalctl -u xinference -f
- 停止服務:
sudo systemctl stop xinference
二、語言(LLM)模型
2.1 配置介紹
模型引擎
分別是:
-
Transformers
- 依賴
Hugging Face Transformers
庫,適用于標準 PyTorch 或 TensorFlow 部署,通常兼容性較好,支持多種硬件加速(如 GPU)。
- 依賴
-
vLLM
- 適用于高吞吐量推理,利用 PagedAttention 進行優化,推薦用于大規模推理場景,減少顯存占用。
-
SGLang
- 可能是專門優化的推理引擎,具體表現需要查看官方文檔或測試。
-
llama.cpp
- 適用于 CPU 運行,優化了低資源設備上的 LLM 推理,適合本地運行或嵌入式環境。
選擇建議:
- 高性能 GPU 推理:
vLLM
- 通用部署(PyTorch / TensorFlow 支持):
Transformers
- 低資源或本地運行(CPU 推理):
llama.cpp
- 特定優化需求:
SGLang
(需要進一步了解其特點)
模型格式
現在的 模型格式 選項增加了 gptq
,它與 awq
一樣是 量化推理優化 方案,但兩者在優化策略上有所不同:
-
pytorch
- 原生
PyTorch
格式,未量化,最高精度但占用更多顯存。 - 適用于 高精度推理,但對硬件要求較高。
- 原生
-
awq (Activation-aware Weight Quantization)
- 量化方案,主要優化 激活值感知權重量化,可以減少推理時的計算開銷,同時保持較高的精度。
- 適用于 低顯存 GPU 或高吞吐場景,如
vLLM
和llama.cpp
。 - 更適合多種硬件,特別是
NVIDIA
GPU 運行。
-
gptq (Generalized Post-Training Quantization)
- 另一種 后訓練量化 方法,目標是 最小化量化誤差,尤其對 Transformer 模型進行優化。
GPTQ
量化后的模型通常比AWQ
更輕量,適用于 極限壓縮場景(如4-bit GPTQ
)。- 適用于 低功耗設備 或 超大模型的輕量化部署。
選擇建議:
- 如果顯存足夠,追求最佳模型精度 →
pytorch
- 如果需要在低顯存 GPU(如 24GB 以內)高效推理 →
awq
- 如果顯存極其受限(如 16GB 或更低),或需要極端優化 →
gptq
如果你打算在 Deepseek
上 高效部署一個大模型,建議選擇 awq
或 gptq
。
2.2 DeepSeek-R1-Distill-Qwen-32B(大杯)
工具下載git-lfs(可以繞過Hugging Face)
解決方案:安裝
git-lfs
你需要先安裝 git-lfs
,然后才能正確克隆和下載模型。
步驟 1:安裝
git-lfs
根據你的系統類型選擇對應的安裝方法:
Ubuntu / Debian
apt update && apt install -y git-lfs
CentOS / RHEL
yum install -y epel-release
yum install -y git-lfs
Mac (如果你在本地 Mac 運行)
brew install git-lfs
Windows(如果你在 Windows 本地)
直接去官網下載安裝:https://git-lfs.github.com/
步驟 2:啟用
git-lfs
安裝完成后,執行:
git lfs install
如果成功,你會看到:
Git LFS initialized.
步驟 3:克隆模型
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git
然后進入目錄:
cd DeepSeek-R1-Distill-Qwen-32B
ls -lh
如果 .safetensors
還沒有下載完整,執行:
git lfs pull
這將確保所有 LFS 文件正確下載。
當然可能git: ‘lfs’ is not a git command. See ‘git --help’.
問題分析
系統 無法安裝 git-lfs
,因為 apt update
過程中出現了 GPG 錯誤 和 無法解析某些倉庫地址 的問題:
NO_PUBKEY A4B469963BF863CC
- 說明你的系統缺少 NVIDIA CUDA 倉庫的 GPG 公鑰。
Could not resolve 'mirror.rightscale.com'
- 這個倉庫地址已經不可用或 DNS 解析失敗。
解決方案
1. 先修復
apt update
失敗的問題
① 刪除無效的 RightScale 倉庫
sudo rm -f /etc/apt/sources.list.d/rightscale*
② 添加缺失的 NVIDIA 公鑰
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
③ 再次更新 apt
sudo apt update
2. 安裝 git-lfs
如果 apt update
修復成功,你可以嘗試:
sudo apt install -y git-lfs
安裝完成后,運行:
git lfs install
如果成功,你會看到:
Git LFS initialized.
3. 如果
apt
仍然無法安裝git-lfs
,嘗試手動安裝
① 下載 Git LFS 安裝包
wget https://github.com/git-lfs/git-lfs/releases/latest/download/git-lfs-linux-amd64.tar.gz
② 解壓并安裝
tar -xvzf git-lfs-linux-amd64.tar.gz
sudo ./install.sh
③ 驗證安裝
git lfs --version
④ 啟用 Git LFS
git lfs install
最終測試
如果 git-lfs
安裝成功,你可以嘗試重新克隆模型:
git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git
cd DeepSeek-R1-Distill-Qwen-32B
git lfs pull
如果下載仍然不完整,可以嘗試 wget
或 aria2c
下載 .safetensors
文件。
下載很慢,下完還要等一會,因此建議用寶塔(兩個網頁),方便看情況
下載完后,.git會很大
如果只是使用模型,直接刪除 .git 目錄 ?
如果還想更新模型,建議保留 .git 目錄 🔄
如果要節省空間但保留 git-lfs 更新能力,可精簡 .git 目錄 🛠
Xinference配置:GPU索引根據機器情況設置。
!!! 大模型啟動較慢,且Xinference用網頁打開有緩存問題,因此不要著急。
2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF(小杯)
通過hf-mirror
wget https://hf-mirror.com/roleplaiapp/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF/resolve/main/deepseek-r1-distill-qwen-32b-q4_k_m.gguf
三、嵌入(Embedding)模型
嵌入(Embedding)模型,選擇合適的模型取決于你的具體需求,例如 語言支持、維度大小、最大 token 數 和 應用場景。以下是對比分析:
模型對比分析
模型名稱 | 語言支持 | 維度 | 最大 Token 數 | 適用場景 |
---|---|---|---|---|
bge-large-zh-v1.5 | 中文 | 1024 | 512 | 適用于中文語義搜索、文本匹配 |
bge-large-en-v1.5 | 英文 | 1024 | 512 | 適用于英文文本匹配 |
bge-m3 | 中文+英文 | 1024 | 8192 | 適用于多語言檢索,支持更長文本 |
gte-Qwen2 | 中文+英文 | 3584 | 32000 | 適用于大規模檢索、高質量向量表示 |
jina-embeddings-v3 | 中文+英文 | 1024 | 8192 | 適用于跨語言檢索、語義匹配 |
推薦選擇
-
如果你的任務是中文語義檢索
- 選擇
bge-large-zh-v1.5
,它是專門針對中文優化的。
- 選擇
-
如果是英文語義檢索
- 選擇
bge-large-en-v1.5
,它是英文版本的最佳選擇。
- 選擇
-
如果需要中英混合檢索,且輸入文本較短
- 選擇
bge-m3
,支持多語言,最大 token 數較大。
- 選擇
-
如果是超長文本、高精度應用(如搜索引擎)
- 選擇
gte-Qwen2
,它的維度
更高(3584),最大 token
也更長(32000)。
- 選擇
-
如果是跨語言檢索
- 選擇
jina-embeddings-v3
,在多語言場景下表現不錯。
- 選擇
總結
- 輕量級中文嵌入:
bge-large-zh-v1.5
- 輕量級英文嵌入:
bge-large-en-v1.5
- 通用多語言支持:
bge-m3
- 高性能長文本支持:
gte-Qwen2
- 跨語言匹配:
jina-embeddings-v3
如果你的應用場景是 大規模檢索、向量數據庫存儲(如 FAISS),那么 gte-Qwen2
或 bge-m3
是更好的選擇。
如果僅是 普通文本匹配或短文本搜索,bge-large-zh-v1.5
(中文)或 bge-large-en-v1.5
(英文)就足夠了。
3.1 安裝BAAI/bge-large-zh-v1.5
git clone https://hf-mirror.com/BAAI/bge-large-zh-v1.5.git
四、重排序(Rerank)模型
4.1 git
git clone https://hf-mirror.com/BAAI/bge-reranker-v2-m3.git
4.2 wget
你可以按照以下步驟在 /usr/local
目錄下新建文件夾,并下載模型:
- 創建目錄并賦權
sudo mkdir -p /usr/local/models/bge-reranker-v2-m3
sudo chmod -R 777 /usr/local/models/bge-reranker-v2-m3
cd /usr/local/models/bge-reranker-v2-m3
- 使用
wget
從 HF Mirror 下載模型
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/model.safetensors
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/sentencepiece.bpe.model
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer_config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/special_tokens_map.json
-c
選項用于支持斷點續傳,防止下載中斷后需要重新開始。
- 檢查下載文件的大小
ls -lh /usr/local/models/bge-reranker-v2-m3
確認 model.safetensors
大小是否接近 2.27 GB,其余文件大小也要和 HF Mirror 網站上保持一致。
- 修改
Xinference
配置
在 Xinference
的模型路徑參數中,填寫:
/usr/local/models/bge-reranker-v2-m3
然后重新加載模型。
這樣,你的 bge-reranker-v2-m3
模型應該就能正確運行了! 🚀
五、接入dify
以上就是常用的大模型了,我們可以介入dify使用了。
六、多模態模型支持
FLUX.1-dev
git clone https://hf-mirror.com/black-forest-labs/FLUX.1-dev.git
cd FLUX.1-dev
git lfs pull
以下是支持的,可去自行探索;hf-mirror