一、安裝步驟
1.基礎環境安裝
安裝顯卡驅動、cuda,根據自己硬件情況查找相應編號,本篇不介紹這部分內容,只給出參考指令,詳情請讀者自行查閱互聯網其它參考資料。
sudo apt install nvidia-utils-565-server
sudo apt install nvidia-cuda-toolkit
因機器上有其它使用python環境的應用,故使用conda來管理python環境。
?
(1)安裝conda管理器
更新軟件包
sudo apt update
sudo apt upgrade
安裝基本依賴
sudo apt install wget curl bzip2 ca-certificates
下載Anaconda安裝腳本
wget https://repo.anaconda.com/archive/Anaconda3-2023.03-1-Linux-x86_64.sh
運行安裝腳本,按提示一路執行下去,中間需要輸入yes并確認
bash Anaconda3-2023.03-1-Linux-x86_64.sh
初始化Anaconda,執行下面指令,或者關閉命令窗口后重新開啟一個窗口。
source ~/.bashrc
驗證安裝結果
conda env list
(2)創建xinference所需的虛擬環境并激活它
conda create -n Xinference python=3.10.15
conda activate Xinference
(3)安裝chatglm-cpp
https://github.com/li-plus/chatglm.cpp/releases
切換到剛下載的文件所在目錄,運行指令:
pip install chatglm_cpp-0.4.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
2.安裝Xinfernece
pip install xinference[all]
xinference有好幾種支持的種類,如gpu/cpu/transformers/vllm/metal
,用all參數代表全部安裝,這樣以后不管接入哪種類型的大模型都不需要再次安裝了。
3.檢驗環境是否安裝成功
檢驗pytorch是否支持gpu,運行python指令
??? import torch
??? print(torch.__version__)
??? print(torch.cuda.is_available())
如果報錯,運行下面指令安裝支持gpu的依賴包。(根據自己顯卡配置確定cuda版本號,ubuntu系統正常在安裝xinference過程中已經安裝了以下依賴包)
pip install torch==2.6.0+cu128 torchvision==0.21.0+cu128 torchaudio==2.6.0+cu128 --index-url https://download.pytorch.org/whl/cu128
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu128
安裝后驗證是否成功:
二、啟動Xinference
xinference-local --host 0.0.0.0 --port 9999
windows下只能使用127.0.0.1或者局域網中的本機ip地址,linux可以使用0.0.0.0包含127.0.0.1和局域網中的本機ip地址,這樣就可以在企業內共享了,同時也能使用127.0.0.1訪問。
運行成功后界面如下
三、配置注冊模型文件
1.下載模型文件
到https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
如果不能科學上網,打不開上面網址,也可以到國內阿里的開源網站下載:
https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/files
紅色框內的文件全部下載,保存到同一個目錄中,根據硬件配置選擇不同的模型文件,這里我是演示,所以選擇1.5B,一般企業內做知識庫,建議至少選擇32B,顯存32GB以上,我試過32GB跑32B的模型很吃力,響應很慢。
2.注冊模型文件
上圖中的路徑要換成linux的目錄格式,如/home/qkm/deepseekR1/1-5B,因為截圖忘保存了,用windows模式下的截圖替換了一下。
3.啟動模型文件
四、體驗與模型對話
點擊下圖箭頭處,可以啟動與大模型的聊天
使用conda創建的虛擬環境和安裝的依賴包,往同類操作系統復制時,只要直接拷貝過去即可,基本可以與docker的跨系統部署相媲美了。