ollama部署QwQ32B
-
QwQ32B硬件要求
魔改2080ti 的 22G 顯存差不多夠用
ollama中的是Q4_K_M量化模型
硬件配置 模型推理 模型高效微調 模型全量微調 顯存占用 最低配置 顯存占用 最低配置 顯存占用 最低配置 FP_16 64G RTX3090*4(94G) 92G RTX3090*4(94G) 350G A100*6(480G) Q_4_K_M 23G RTX3090(24G) 31G RTX3090*2(48G) - -
使用命令安裝 ollama
-
官網安裝命令
curl -fsSL https://ollama.com/install.sh | sh
-
啟動 ollama
ollama server
后臺啟動 ollama 并將 日志寫入當前文件夾的 ollama.log 文件夾下
nohup ollama serve > ollama.log 2>&1 &
使用安裝包下載 ollama
-
ollama github主頁的安裝包
https://github.com/ollama/ollama/releases
點擊下載(因網絡原因建議點擊下載)或者使用 wegt 下載對應 系統版本的 ollama 安裝包,下面使用 wget 來演示,我使用的 GPU主機是 ubuntu 的,所以使用
ollama-linux-arm64.tgz
,右鍵復制下載鏈接,使用 wget 下載wget https://github.com/ollama/ollama/releases/download/v0.6.0/ollama-linux-arm64.tgz
mkdir ./ollama tar -zxvf ollama-linux-amd64.tgz -C ./ollama
chmod +x ollama
-
將 bin 目錄添加到系統環境變量
vim ~/.bashrc
添加以下
export PATH=$PATH:/root/lanyun-tmp/ollama/bin
保存并退出后,輸入如下命令來使環境變量生效:
source ~/.bashrc
-
更換 ollama 模型下載的存放地址
vim ~/.bashrc
添加如下
export OLLAMA_MODELS=/root/lanyun-tmp/models
保存并退出后,輸入如下命令來使環境變量生效:
source ~/.bashrc
測試下
echo $OLLAMA_MODELS
部署 qwq32b
-
ollama 中的 qwq32b 是自己量化的,量化顯存占用大概在 22G 左右
-
下載 qwq32b
ollama run qwq
等待下載完成
下載完成后即進入對話
可以看到大概占用了 22G顯存左右