1. 安裝docker 已安裝過docker 沒安裝流程
啟動 Docker 服務:
sudo systemctl start docker
sudo systemctl enable docker # 設置開機即啟動docker
驗證 Docker 是否安裝成功:
docker --version
2. 部署ray
# 先停止docker服務
systemctl stop docker
# 編輯 Docker 的配置文件 更改docker 鏡像保存的路徑 以防默認目錄存儲空間不足vim /etc/docker/daemon.json
{"data-root": "/data/docker" # 自己存儲空間大的目錄
}
# 再次啟動docker服務 使上面的配置文件生效
systemctl start docker
# 拉取鏡像到本地
docker pull **鏡像名稱:版本**
# 查看鏡像
docker images# --network host參數 使docker環境共享宿主機IP# -v 參數使docker環境共享宿主機掛載目錄# tail -f /dev/null 參數 掛起docker 使其不中斷
docker run -d --name **docker環境名稱 自命名即可** --network host -v /mnt1:/mnt1 -v /mnt2:/mnt2 -v /data:/data -v /mnt3:/mnt3 **鏡像名稱:版本** tail -f /dev/null
# 查看docker環境列表
docker ps
#進入docker環境 執行任務
docker exec -it **自命名的docker環境名稱** /bin/bash
# 退出docker環境
exit
# 停止容器
docker stop ailab-data-pipelinev3 # 刪除已停止的容器
docker rm ailab-data-pipelinev3
# 查看ray版本 所有機器ray版本應保持一致 否則集群不能使用
ray --version
# head節點啟動命令
ray start --head --port=6379 --dashboard-host=0.0.0.0 --dashboard-port=8265 --num-cpus 96
#每個work節點啟動ray服務命令 請替換IP和--num-cpus數目 --num-cpus 可以是nproc的值
ray start --address='127.0.0.0:6379' --num-cpus 96
ray start --address='127.0.0.0:6379' --num-cpus 32
# 提交任務命令
ray job submit --working-dir ./ray_code -- python3 ray.py