【Docker】在容器中使用 NVIDIA GPU

解決容器 GPU 設備映射問題，實現 AI 應用加速
🔗 官方文檔：NVIDIA Container Toolkit GitHub

常見錯誤排查

若在運行測試容器時遇到以下錯誤：

docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]]
或
docker: Error response from daemon: unknown or invalid runtime name: nvidia

請按本教程完成 NVIDIA Container Toolkit 的安裝與配置。

一、環境準備

1.1 驗證 NVIDIA 驅動狀態

nvidia-smi

預期輸出（注意右上角顯示的 CUDA 版本）：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15    Driver Version: 550.54.15    CUDA Version: 12.4     |
|-------------------------------+----------------------+----------------------+

問題處理：

若命令未找到或提示驅動未安裝，請訪問 NVIDIA 驅動下載中心

Ubuntu 快速安裝驅動命令：

sudo apt install nvidia-driver-550-server

二、安裝 NVIDIA Container Toolkit

2.1 添加官方軟件源

# 安裝必要工具
sudo apt-get update
sudo apt-get install -y curl gnupg# 導入 NVIDIA GPG 密鑰
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | \sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg# 添加軟件源（適配 Ubuntu 24.04）
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

2.2 安裝 Toolkit 組件

sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit

📘 官方安裝指南：NVIDIA Container Toolkit Installation Docs

三、配置 Docker 運行時

3.1 生成運行時配置

sudo nvidia-ctk runtime configure --runtime=docker

該命令會自動修改 Docker 配置文件 /etc/docker/daemon.json，添加以下內容：

{"runtimes": {"nvidia": {"path": "nvidia-container-runtime","runtimeArgs": []}}
}

3.2 重啟 Docker 服務

sudo systemctl restart docker

四、功能驗證

4.1 運行 GPU 測試容器

docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi

關鍵驗證點：

容器內輸出的 GPU 信息與宿主機 nvidia-smi 一致
無任何錯誤提示

成功輸出示例：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15    Driver Version: 550.54.15    CUDA Version: 12.4     |
|-------------------------------+----------------------+----------------------+

五、高級配置技巧

5.1 指定 GPU 數量

# 僅使用 2 塊 GPU
docker run --rm --gpus 2 nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi# 按設備序列號指定
docker run --rm --gpus '"device=0,1"' nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi

5.2 持久化模式設置

# 啟用持久化模式（防止 GPU 休眠）
sudo nvidia-smi -pm 1

🔧 GPU 管理工具：nvidia-smi 官方文檔

六、使用場景

NVIDIA Container Toolkit 適用于以下典型容器化 AI 應用場景：

? 大模型推理部署：如部署 LLaMA、ChatGLM、BERT 等模型，使用 GPU 顯著提升響應速度與并發處理能力。
? 深度學習訓練任務：如使用 PyTorch、TensorFlow、JAX 等框架在容器中進行分布式訓練，便于復現實驗環境。
? 多模型并行服務：結合 --gpus 參數可以精確分配 GPU 資源，實現在單機多服務并行部署，提升資源利用率。
? 視頻處理與 AI 編解碼：結合 FFmpeg + CUDA / TensorRT 加速視頻轉碼、超分辨率、目標檢測等任務。
? 開發調試環境隔離：避免主機污染、實現多人多項目的 GPU 環境解耦，提升研發效率與可維護性。

七、總結

Docker 原生不支持 GPU，需要借助 NVIDIA Container Toolkit 提供的運行時擴展 nvidia-container-runtime 實現 GPU 透傳。
容器運行時可獲得 幾乎無性能損耗的 GPU 使用能力，適用于從研發到生產的多種場景。
配置過程主要包括三步：安裝驅動 → 安裝 Toolkit → 配置 Docker，每一步都可通過 nvidia-smi 驗證效果。
支持靈活的 GPU 指定方式，便于構建資源隔離的 AI 工作負載。

💡 提示：Toolkit 安裝后，docker run --gpus all 成為使用 GPU 容器的標準入口，請確保測試成功后再部署正式任務。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/80199.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/80199.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/80199.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！