Xinference大模型配置介紹并通過git-lfs、hf-mirror安裝

在這里插入圖片描述

文章目錄

  • 一、Xinference開機服務systemd
  • 二、語言(LLM)模型
    • 2.1 配置介紹
    • 2.2 DeepSeek-R1-Distill-Qwen-32B(大杯)
      • 工具下載git-lfs(可以繞過Hugging Face)
    • 2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF(小杯)
  • 三、嵌入(Embedding)模型
    • 3.1 安裝BAAI/bge-large-zh-v1.5
  • 四、重排序(Rerank)模型
    • 4.1 git
    • 4.2 wget
  • 五、接入dify
  • 六、多模態模型支持


通過HF-Mirror鏡像wget下載,常用的模型。


一、Xinference開機服務systemd

使用 systemd(適用于服務器長期運行)

  1. 創建 systemd 服務:
sudo vi /etc/systemd/system/xinference.service

填入:

[Unit]
Description=Xinference Service
After=network.target[Service]
ExecStart=/root/anaconda3/envs/xinference_env/bin/xinference --host 0.0.0.0 --port 9997
WorkingDirectory=/root
Restart=always
User=root[Install]
WantedBy=multi-user.target
  1. 重新加載 systemd 并啟動服務:
sudo systemctl daemon-reload
sudo systemctl start xinference
sudo systemctl enable xinference  # 開機自啟
  1. 查看日志:
sudo journalctl -u xinference -f
  1. 停止服務:
sudo systemctl stop xinference

二、語言(LLM)模型

2.1 配置介紹

模型引擎

在這里插入圖片描述

分別是:

  1. Transformers

    • 依賴 Hugging Face Transformers 庫,適用于標準 PyTorch 或 TensorFlow 部署,通常兼容性較好,支持多種硬件加速(如 GPU)。
  2. vLLM

    • 適用于高吞吐量推理,利用 PagedAttention 進行優化,推薦用于大規模推理場景,減少顯存占用。
  3. SGLang

    • 可能是專門優化的推理引擎,具體表現需要查看官方文檔或測試。
  4. llama.cpp

    • 適用于 CPU 運行,優化了低資源設備上的 LLM 推理,適合本地運行或嵌入式環境。

選擇建議:

  • 高性能 GPU 推理vLLM
  • 通用部署(PyTorch / TensorFlow 支持):Transformers
  • 低資源或本地運行(CPU 推理)llama.cpp
  • 特定優化需求SGLang(需要進一步了解其特點)

模型格式

在這里插入圖片描述

現在的 模型格式 選項增加了 gptq,它與 awq 一樣是 量化推理優化 方案,但兩者在優化策略上有所不同:

  1. pytorch

    • 原生 PyTorch 格式,未量化,最高精度但占用更多顯存。
    • 適用于 高精度推理,但對硬件要求較高。
  2. awq (Activation-aware Weight Quantization)

    • 量化方案,主要優化 激活值感知權重量化,可以減少推理時的計算開銷,同時保持較高的精度。
    • 適用于 低顯存 GPU 或高吞吐場景,如 vLLMllama.cpp
    • 更適合多種硬件,特別是 NVIDIA GPU 運行。
  3. gptq (Generalized Post-Training Quantization)

    • 另一種 后訓練量化 方法,目標是 最小化量化誤差,尤其對 Transformer 模型進行優化。
    • GPTQ 量化后的模型通常比 AWQ 更輕量,適用于 極限壓縮場景(如 4-bit GPTQ)。
    • 適用于 低功耗設備超大模型的輕量化部署

選擇建議:

  • 如果顯存足夠,追求最佳模型精度pytorch
  • 如果需要在低顯存 GPU(如 24GB 以內)高效推理awq
  • 如果顯存極其受限(如 16GB 或更低),或需要極端優化gptq

如果你打算在 Deepseek高效部署一個大模型,建議選擇 awqgptq


2.2 DeepSeek-R1-Distill-Qwen-32B(大杯)

工具下載git-lfs(可以繞過Hugging Face)

解決方案:安裝 git-lfs

你需要先安裝 git-lfs,然后才能正確克隆和下載模型。

步驟 1:安裝 git-lfs

根據你的系統類型選擇對應的安裝方法:

Ubuntu / Debian

apt update && apt install -y git-lfs

CentOS / RHEL

yum install -y epel-release
yum install -y git-lfs

Mac (如果你在本地 Mac 運行)

brew install git-lfs

Windows(如果你在 Windows 本地)
直接去官網下載安裝:https://git-lfs.github.com/


步驟 2:啟用 git-lfs

安裝完成后,執行:

git lfs install

如果成功,你會看到:

Git LFS initialized.

步驟 3:克隆模型

git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git

然后進入目錄:

cd DeepSeek-R1-Distill-Qwen-32B
ls -lh

如果 .safetensors 還沒有下載完整,執行:

git lfs pull

這將確保所有 LFS 文件正確下載。

當然可能git: ‘lfs’ is not a git command. See ‘git --help’.

問題分析
系統 無法安裝 git-lfs,因為 apt update 過程中出現了 GPG 錯誤無法解析某些倉庫地址 的問題:

  1. NO_PUBKEY A4B469963BF863CC
    • 說明你的系統缺少 NVIDIA CUDA 倉庫的 GPG 公鑰
  2. Could not resolve 'mirror.rightscale.com'
    • 這個倉庫地址已經不可用或 DNS 解析失敗。

解決方案

1. 先修復 apt update 失敗的問題

① 刪除無效的 RightScale 倉庫

sudo rm -f /etc/apt/sources.list.d/rightscale*

② 添加缺失的 NVIDIA 公鑰

sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub

③ 再次更新 apt

sudo apt update

2. 安裝 git-lfs
如果 apt update 修復成功,你可以嘗試:

sudo apt install -y git-lfs

安裝完成后,運行:

git lfs install

如果成功,你會看到:

Git LFS initialized.

3. 如果 apt 仍然無法安裝 git-lfs,嘗試手動安裝

① 下載 Git LFS 安裝包

wget https://github.com/git-lfs/git-lfs/releases/latest/download/git-lfs-linux-amd64.tar.gz

② 解壓并安裝

tar -xvzf git-lfs-linux-amd64.tar.gz
sudo ./install.sh

③ 驗證安裝

git lfs --version

④ 啟用 Git LFS

git lfs install

最終測試

如果 git-lfs 安裝成功,你可以嘗試重新克隆模型:

git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git
cd DeepSeek-R1-Distill-Qwen-32B
git lfs pull

如果下載仍然不完整,可以嘗試 wgetaria2c 下載 .safetensors 文件。


在這里插入圖片描述

下載很慢,下完還要等一會,因此建議用寶塔(兩個網頁),方便看情況

在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述

下載完后,.git會很大
在這里插入圖片描述
如果只是使用模型,直接刪除 .git 目錄 ?
如果還想更新模型,建議保留 .git 目錄 🔄
如果要節省空間但保留 git-lfs 更新能力,可精簡 .git 目錄 🛠
Xinference配置:GPU索引根據機器情況設置。

!!! 大模型啟動較慢,且Xinference用網頁打開有緩存問題,因此不要著急。
在這里插入圖片描述

2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF(小杯)

通過hf-mirror

wget https://hf-mirror.com/roleplaiapp/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF/resolve/main/deepseek-r1-distill-qwen-32b-q4_k_m.gguf

三、嵌入(Embedding)模型

嵌入(Embedding)模型,選擇合適的模型取決于你的具體需求,例如 語言支持維度大小最大 token 數應用場景。以下是對比分析:
在這里插入圖片描述

模型對比分析

模型名稱語言支持維度最大 Token 數適用場景
bge-large-zh-v1.5中文1024512適用于中文語義搜索、文本匹配
bge-large-en-v1.5英文1024512適用于英文文本匹配
bge-m3中文+英文10248192適用于多語言檢索,支持更長文本
gte-Qwen2中文+英文358432000適用于大規模檢索、高質量向量表示
jina-embeddings-v3中文+英文10248192適用于跨語言檢索、語義匹配

推薦選擇

  1. 如果你的任務是中文語義檢索

    • 選擇 bge-large-zh-v1.5,它是專門針對中文優化的。
  2. 如果是英文語義檢索

    • 選擇 bge-large-en-v1.5,它是英文版本的最佳選擇。
  3. 如果需要中英混合檢索,且輸入文本較短

    • 選擇 bge-m3,支持多語言,最大 token 數較大。
  4. 如果是超長文本、高精度應用(如搜索引擎)

    • 選擇 gte-Qwen2,它的 維度 更高(3584),最大 token 也更長(32000)。
  5. 如果是跨語言檢索

    • 選擇 jina-embeddings-v3,在多語言場景下表現不錯。

總結

  • 輕量級中文嵌入bge-large-zh-v1.5
  • 輕量級英文嵌入bge-large-en-v1.5
  • 通用多語言支持bge-m3
  • 高性能長文本支持gte-Qwen2
  • 跨語言匹配jina-embeddings-v3

如果你的應用場景是 大規模檢索、向量數據庫存儲(如 FAISS),那么 gte-Qwen2bge-m3 是更好的選擇。

如果僅是 普通文本匹配或短文本搜索bge-large-zh-v1.5(中文)或 bge-large-en-v1.5(英文)就足夠了。

3.1 安裝BAAI/bge-large-zh-v1.5

git clone https://hf-mirror.com/BAAI/bge-large-zh-v1.5.git

四、重排序(Rerank)模型

4.1 git

git clone https://hf-mirror.com/BAAI/bge-reranker-v2-m3.git

4.2 wget

你可以按照以下步驟在 /usr/local 目錄下新建文件夾,并下載模型:

  1. 創建目錄并賦權
sudo mkdir -p /usr/local/models/bge-reranker-v2-m3
sudo chmod -R 777 /usr/local/models/bge-reranker-v2-m3
cd /usr/local/models/bge-reranker-v2-m3
  1. 使用 wget 從 HF Mirror 下載模型
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/model.safetensors
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/sentencepiece.bpe.model
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer_config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/special_tokens_map.json

-c 選項用于支持斷點續傳,防止下載中斷后需要重新開始。

  1. 檢查下載文件的大小
ls -lh /usr/local/models/bge-reranker-v2-m3

確認 model.safetensors 大小是否接近 2.27 GB,其余文件大小也要和 HF Mirror 網站上保持一致。

  1. 修改 Xinference 配置

Xinference 的模型路徑參數中,填寫:

/usr/local/models/bge-reranker-v2-m3

然后重新加載模型。

這樣,你的 bge-reranker-v2-m3 模型應該就能正確運行了! 🚀

五、接入dify

以上就是常用的大模型了,我們可以介入dify使用了。

在這里插入圖片描述

六、多模態模型支持

FLUX.1-dev

git clone https://hf-mirror.com/black-forest-labs/FLUX.1-dev.git
cd FLUX.1-dev
git lfs pull

以下是支持的,可去自行探索;hf-mirror
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/72518.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/72518.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/72518.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MyBatis操縱數據庫-XML實現(補充)

目錄 一.多表查詢二.MyBatis參數賦值(#{ }和${ })2.1 #{ }和${ }的使用2.2 #{ }和${ }的區別2.3 SQL注入2.3 ${ }的應用場景2.3.1 排序功能2.3.2 like查詢 一.多表查詢 多表查詢的操作和單表查詢基本相同,只需改變一下SQL語句,同時也要在實體類中創建出…

快速導出接口設計表——基于DOMParser的Swagger接口詳情半自動化提取方法

作者聲明:不想看作者聲明的(需要生成接口設計表的)直接前往https://capujin.github.io/A2T/。 注:Github Pages生成的頁面可能會出現訪問不穩定,暫時沒將源碼上傳至Github,如有需要,可聯系我私…

TS常見內置映射類型的實現及應用場景

以下是 TypeScript 在前端項目中 常用的映射類型&#xff08;Mapped Types&#xff09;&#xff0c;結合具體場景和代碼示例&#xff0c;幫助開發者高效處理復雜類型&#xff1a; 一、基礎映射類型 1. Partial<T> 作用&#xff1a;將對象類型 T 的所有屬性變為可選。 實…

介紹如何使用YOLOv8模型進行基于深度學習的吸煙行為檢測

下面為你詳細介紹如何使用YOLOv8模型進行基于深度學習的吸煙行為檢測&#xff0c;包含環境配置、數據準備、模型訓練以及推理等步驟。 1. 環境配置 首先&#xff0c;你需要安裝必要的庫&#xff0c;主要是ultralytics庫&#xff0c;它包含了YOLOv8模型。你可以使用以下命令進…

AI-醫學影像分割方法與流程

AI醫學影像分割方法與流程–基于低場磁共振影像的病灶識別 – 作者:coder_fang AI框架&#xff1a;PaddleSeg 數據準備&#xff0c;使用MedicalLabelMe進行dcm文件標注&#xff0c;產生同名.json文件。 編寫程序生成訓練集圖片&#xff0c;包括掩碼圖。 代碼如下: def doC…

【Python】09、字典

文章目錄 1. 字典簡介2. 字典的使用2.1 字典創建2.2 字典值獲取2.3 字典值修改2.4 字典的刪除 3. 字典的遍歷 1. 字典簡介 字典(dict)屬于一種新的數據結構&#xff0c;稱為映射(mapping)。 字典的作用和列表類似&#xff0c;但是查詢性能比列表好&#xff1b;在字典中每個元…

【貪心算法4】

力扣452.用最少數量的剪引爆氣球 鏈接: link 思路 這道題的第一想法就是如果氣球重疊得越多那么用箭越少&#xff0c;所以先將氣球按照開始坐標從小到大排序&#xff0c;遇到有重疊的氣球&#xff0c;在重疊區域右邊界最小值之前的區域一定需要一支箭&#xff0c;這道題有兩…

SGMEA: Structure-Guided Multimodal Entity Alignment

3 Method 3.1 Problem Definition 3.2 Framework Description 總體框架如圖2所示&#xff0c;由三個主要部分組成&#xff1a;初始嵌入采集模塊、結構引導模塊和模態融合模塊。 3.3 Initial Embedding Acquisition 3.3.1 Structural Embedding 3.3.2 Relation, Attribute, …

KY-038 聲音傳感器如何工作以及如何將其與 ESP32 連接

想為您的項目賦予聲音感!然后跟著做,因為在這個項目中,我們將連接一個聲音傳感器,用它構建一些有趣的項目。我們使用的 KY-038 聲音傳感器使用電容式麥克風來檢測聲波,這為我們提供了穩定性和可靠性的完美平衡。因此,在本文中,我們決定將 KY-038 傳感器與 ESP32 連接,并…

《基于超高頻RFID的圖書館管理系統的設計與實現》開題報告

一、研究背景與意義 1.研究背景 隨著信息化時代的到來&#xff0c;運用計算機科學技術實現圖書館的管理工作已成為優勢。更加科學地管理圖書館會大大提高工作效率。我國的圖書管理體系發展經歷了三個階段&#xff1a;傳統圖書管理模式、現代圖書管理模式以及基于無線射頻識別&…

[local-file-system]基于服務器磁盤的本地文件存儲方案

[local-file-system]基于服務器磁盤的本地文件存儲方案 僅提供后端方案 github 環境 JDK11linux/windows/mac 應用場景 適用于ToB業務&#xff0c;中小企業的單體服務&#xff0c;僅使用磁盤存儲文件的解決方案 僅使用服務器磁盤存儲 與業務實體相結合的文件存儲方案&…

P5708 【深基2.習2】三角形面積(洛谷—python)

題目描述 一個三角形的三邊長分別是 a、b、c&#xff0c;那么它的面積為 p(p?a)(p?b)(p?c)?&#xff0c;其中 p21?(abc)。輸入這三個數字&#xff0c;計算三角形的面積&#xff0c;四舍五入精確到 1 位小數。 輸入格式 第一行輸入三個實數 a,b,c&#xff0c;以空格隔開…

智慧加油站小程序數據庫設計文檔

智慧加油站系統 - 數據庫與API設計文檔 1. 數據庫設計 1.1 ER模型 系統的核心實體關系如下&#xff1a; 用戶(User) ---< 訂單(Order) ---< 加油記錄(RefuelRecord)| | || | vv v …

C++博客分享

本周的一些 C視頻分享, 或許后續會做一些內容總結. 博客 Polymorphic, Defaulted EqualityConstexpr factors_ofC26: Removing language featuresBypassing the branch predictor Meeting C 2024 Clean CMake for C (library) developers - Kerstin KellerAn Introduction …

【藍橋杯每日一題】3.16

&#x1f3dd;?專欄&#xff1a; 【藍橋杯備篇】 &#x1f305;主頁&#xff1a; f狐o貍x 目錄 3.9 高精度算法 一、高精度加法 題目鏈接&#xff1a; 題目描述&#xff1a; 解題思路&#xff1a; 解題代碼&#xff1a; 二、高精度減法 題目鏈接&#xff1a; 題目描述&…

vue 仿deepseek前端開發一個對話界面

后端&#xff1a;調用deepseek的api&#xff0c;所以返回數據格式和deepseek相同 {"model": "DeepSeek-R1-Distill-Qwen-1.5B", "choices": [{"index": 0, "delta": {"role": "assistant", "cont…

SpringMVC(五)攔截器

目錄 攔截器基本概念 一 單個攔截器的執行 1 創建攔截器 2 SpringMVC配置&#xff0c;并指定攔截路徑。 3 運行結果展示&#xff1a; 二 多個攔截器的執行順序 三 攔截器與過濾器的區別 攔截器基本概念 SpringMVC內置攔截器機制&#xff0c;允許在請求被目標方法處理的…

Hive SQL 精進系列:PERCENTILE_APPROX 搞定分位數

目錄 一、引言二、percentile_approx 函數基礎2.1 基本語法參數解釋返回值簡單示例 三、應用場景3.1 數據分析與報告3.2 數據清洗與異常值檢測3.3 性能監控與優化 四、使用注意事項4.1 數據類型要求4.2 精度與性能平衡4.3 空值處理 五、總結 一、引言 百分位數作為一種常用的統…

pytorch快速入門——手寫數字分類GPU加速

&#x1f451;主頁&#xff1a;吾名招財 &#x1f453;簡介&#xff1a;工科學碩&#xff0c;研究方向機器視覺&#xff0c;愛好較廣泛… ?&#x1f4ab;簽名&#xff1a;面朝大海&#xff0c;春暖花開&#xff01; pytorch快速入門——手寫數字分類GPU加速 一、tensor1&#…

【開源免費】基于SpringBoot+Vue.JS電商應用系統(JAVA畢業設計)

本文項目編號 T 242 &#xff0c;文末自助獲取源碼 \color{red}{T242&#xff0c;文末自助獲取源碼} T242&#xff0c;文末自助獲取源碼 目錄 一、系統介紹二、數據庫設計三、配套教程3.1 啟動教程3.2 講解視頻3.3 二次開發教程 四、功能截圖五、文案資料5.1 選題背景5.2 國內…