矩池云中LLaMA- Factory多機多卡訓練

LLaMA Factory 是一款開源低代碼大模型微調框架，集成了業界最廣泛使用的微調技術，支持通過 Web UI 界面零代碼微調大模型，目前已經成為開源社區內最受歡迎的微調框架之一。但是在矩池云上如何使用LLaMA-Factory多機多卡訓練模型呢？接下來就讓小編給大家介紹如何在矩池云中使用LLaMA- Factory進行多機多卡訓練吧😊

GitHub地址：https://github.com/hiyouga/LLaMA-Factory

一、租用機器

先租用兩臺兩卡的機器，小編使用的的機器類型是8區4090，機器驅動為550，鏡像使用的是Pytorch 2.6.0_cuda_12.4，小編建議驅動可以選擇高一點。
在這里插入圖片描述

二、加入集群

首先需要創建一個集群，在矩池云主頁左下角點擊我的集群，然后在右上角選擇區域，最后點擊創建集群

在這里插入圖片描述

接下來就是把所租用的機器加入集群中，并設置好master機器
在這里插入圖片描述

三、安裝LLaMA-Factory

我們需要在主從機器上都安裝LLaMAFactory

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

需要注意的是，第三部必須執行，才能使用llamafactory-cli命令執行訓練。否則會提示報錯

四、訓練測試

執行完前面三步操作之后，我們就測試一下是否能正常運行多機多卡訓練

FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=0 MASTER_ADDR=192.168.1.11 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml  #在主服務器上運行FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=1 MASTER_ADDR=192.168.1.11 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml  #在第二個服務器上運行，MASTER_ADDR和MASTER_PORT仍寫主服務的ip和端口

需要注意的是，模型運行需要下載數據集，除亞太二區外其他區域的機器需要開代理

如需使用WebUI，參考鏈接：

https://editor.csdn.net/md/?articleId=147334646

如遇斷點重訓問題，參考鏈接：

https://blog.csdn.net/xiong_wq/article/details/143189413

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/95476.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/95476.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/95476.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！