矩池云中LLaMA- Factory多機多卡訓練

LLaMA Factory 是一款開源低代碼大模型微調框架,集成了業界最廣泛使用的微調技術,支持通過 Web UI 界面零代碼微調大模型,目前已經成為開源社區內最受歡迎的微調框架之一。但是在矩池云上如何使用LLaMA-Factory多機多卡訓練模型呢?接下來就讓小編給大家介紹如何在矩池云中使用LLaMA- Factory進行多機多卡訓練吧😊

GitHub地址:https://github.com/hiyouga/LLaMA-Factory

一、租用機器

先租用兩臺兩卡的機器,小編使用的的機器類型是8區4090,機器驅動為550,鏡像使用的是Pytorch 2.6.0_cuda_12.4,小編建議驅動可以選擇高一點。
在這里插入圖片描述

二、加入集群

首先需要創建一個集群,在矩池云主頁左下角點擊我的集群,然后在右上角選擇區域,最后點擊創建集群

在這里插入圖片描述

接下來就是把所租用的機器加入集群中,并設置好master機器
在這里插入圖片描述

三、安裝LLaMA-Factory

我們需要在主從機器上都安裝LLaMAFactory

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

需要注意的是,第三部必須執行,才能使用llamafactory-cli命令執行訓練。否則會提示報錯

四、訓練測試

執行完前面三步操作之后,我們就測試一下是否能正常運行多機多卡訓練

FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=0 MASTER_ADDR=192.168.1.11 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml  #在主服務器上運行FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=1 MASTER_ADDR=192.168.1.11 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml  #在第二個服務器上運行,MASTER_ADDR和MASTER_PORT仍寫主服務的ip和端口

需要注意的是,模型運行需要下載數據集,除亞太二區外其他區域的機器需要開代理

如需使用WebUI,參考鏈接:

https://editor.csdn.net/md/?articleId=147334646

如遇斷點重訓問題,參考鏈接:

https://blog.csdn.net/xiong_wq/article/details/143189413

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/95476.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/95476.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/95476.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Nginx的反向代理與正向代理及其location的配置說明

一、Nginx中location匹配優先級Nginx中location匹配優先級location支持各種匹配規則,在多個匹配規則下,Nginx對location的處理是有優先級的,優先級高的規則會優先進行處理;而優先級低的規則可能會最后處理或者不進行處理。注意&am…

神經網絡正則化三重奏:Weight Decay, Dropout, 和LayerNorm

正則化是機器學習中防止模型過擬合、提升泛化能力的核心技術。Weight Decay、Dropout和LayerNorm是三種最常用的方法,但它們的工作原理和首要目標截然不同。下面的流程圖揭示了它們的核心區別與聯系: #mermaid-svg-vymek6mFvvfxcWiM {font-family:"…

兩臺電腦通過網線直連共享數據,設置正確,卻互相ping不通的解決方法

因為某些原因,需要兩臺電腦互傳資源,但是某臺電腦可能無法連接外網。如果手頭有根網線,很容易想到通過一根網線連接兩臺電腦互傳數據。 這里先說一下基本的設置: 兩臺電腦最好都關閉防火墻;兩臺電腦都打開專用網絡和公…

面試新紀元:無聲勝有聲,讓AI成為你頸上的智慧伙伴

面試,無論是對于面試官還是求職者,都像一場無聲的戰爭。 一方要精準識人,一方要完美自薦;一方怕問不到點子上,一方怕答不到心坎里。 緊張、遺忘、表達失誤、準備不足……這些問題幾乎每個人都經歷過。 有沒有一種方…

qt-C++筆記之QtDesigner-Creator按鈕圖標與樣式

qt-C筆記之QtDesigner-Creator按鈕圖標與樣式 整理:如何用 .qrc 管理資源、在 Designer/Creator 中為 QPushButton 設置圖標(資源或系統主題),以及用樣式表調整文字樣式。涵蓋 C/Qt 與 PySide/PyQt;Linux 桌面優先&am…

maven 常用指令

Maven 是 Java 項目構建和依賴管理的得力助手。這里為你總結了一些常用指令,希望能幫你提升開發效率。下面這個表格匯總了 Maven 最核心和常用的一些命令:命令主要功能典型使用場景mvn clean清理項目,刪除 target 目錄及其所有編譯輸出文件。…

# pdf.js完全指南:構建現代Web PDF查看與解析解決方案

在當今Web開發中,實現高質量的PDF查看功能一直是前端開發者面臨的挑戰之一。作為最受歡迎的JavaScript PDF庫,pdf.js已經成為解決這一問題的行業標準。由Mozilla開發并維護的pdf.js項目,通過純JavaScript實現PDF解析與渲染,徹底改…

高效對象屬性復制工具

日常編程中,經常會碰到對象屬性復制的場景,比如 VO、DTO、PO、VO 等之間的轉換,關于什么是VO、DTO、PO、VO 等可以看上篇文章,VO、DTO、PO、VO 等對象具體有哪些方式可以使用呢? set/get 方式 性能最好的方式&#x…

大疆圖傳技術參數對比 你了解多少?

無人機是現代航空技術與智能控制技術結合的產物,已從軍事領域廣泛滲透至民用場景,成為推動各行業效率升級的關鍵工具。無人機的全稱為 “無人駕駛航空器(Unmanned Aerial Vehicle,簡稱 UAV)”,簡言之&#…

Redis 緩存熱身(Cache Warm-up):原理、方案與實踐

在 Redis 緩存架構中,“緩存熱身”是指在系統正式提供服務前(如重啟、擴容后),主動將熱點數據加載到 Redis 中的操作。其核心目標是避免**緩存穿透**(請求直達數據庫)和**緩存雪崩**(大量請求同…

基于SpringBoot的大學生就業招聘系統

1. 在線演示: 后臺:http://springbootiv1oo.xiaobias.com/springbootiv1oo/admin/dist/index.html 前臺:http://springbootiv1oo.xiaobias.com/springbootiv1oo/front/index.html 管理員:abo/abo 用戶:用戶1/123456、…

Java反序列化漏洞揭秘:從原理到攻擊實戰

一、背景 熟悉接口開發的同學一定知道,能將數據對象很輕松的實現多平臺之間的通信、對象持久化存儲,序列化和反序列化是一種非常有效的手段,例如如下應用場景,對象必須 100% 實現序列化。 DUBBO:對象傳輸必須要實現序…

Time-MOE 音頻序列分類任務

prompt 我準備做語音疾病分類任務。語音音頻是 WAV 格式的音頻,基本上分為兩類,分別是疾病類和非疾病類。也有少數數據集是多分類,現在我找到了26個數據集,我準備我已經在 MLP CNN 上面測試了它們的基準,下面我找到了一…

[嵌入式embed][Qt]Qt5.12+Opencv4.x+Cmake4.x_測試Qt編譯的opencv4.x的庫

[嵌入式embed][Qt]Qt5.12Opencv4.xCmake4.x_測試Qt編譯的opencv4.x的庫編譯Qt-Opencv庫測試流程-①創建一個簡單的qt-ui工程配置 & 測試配置庫編譯環境測試代碼百度云-工程(opencv4.xqt5.12的工程)參考文檔編譯Qt-Opencv庫 [嵌入式embed][Qt]Qt5.12Opencv4.xCmake4.x_用Qt…

相較于傳統AR礦物鑒定有哪些優勢?

與傳統的礦物鑒定方法相比,AR礦物鑒定就像是一位全面升級的“超級助手”,展現出了無可比擬的優勢。傳統的礦物鑒定方法,往往依賴于地質學家或專業鑒定人員的豐富經驗。他們需要通過肉眼觀察礦物的顏色、光澤、硬度等物理特征,再結…

第5節:分布式文件存儲

本節主要是講解的是分布式文件存儲,主要介紹了阿里云OSS云存儲和Minio文件存儲,本章重點主要是掌握怎么在SpringBoot項目里面接入文件存儲。 記錄、交流、實踐,讓每一份付出皆可看見,讓你我共同前行😁 1.分布式文件存…

當 GitHub 宕機時,我們如何協作?

一、引言1.1 GitHub 的重要性及宕機影響在當今軟件開發的生態系統中,GitHub 已然成為全球開發者不可或缺的核心平臺。它為無數開源項目與企業級開發團隊提供了高效的代碼托管、版本控制、協作開發以及項目管理等服務。然而,2025 年 8 月那場波及全球的 G…

Ansible 常用模塊歸納總結

[studentmaster ansible]$ ansible-galaxy collection install http://ansible.example.com/materials/community-general-6.3.0.tar.gz -p collections/##將第三方模塊下載到collections下 [studentmaster ansible]$ ansible-galaxy collection install http://ansible.exampl…

計算機網絡:概述層---TCP/IP參考模型

🌐 TCP/IP四層模型詳解:互聯網的核心協議架構深度剖析 📅 更新時間:2025年9月3日 🏷? 標簽:TCP/IP模型 | 互聯網協議 | 四層模型 | 計算機網絡 | 協議棧 | 網絡通信 | 王道考研 摘要: 本文將深入淺出地解析…

打工人日報#20250902

打工人日報#20250902 今天晚上去了玄武湖,來南京三次了,終于來了一次知識點 不確定度 “不確定度” 是測量領域的核心概念,用于量化測量結果的可靠性與分散程度—— 簡單來說,它回答了 “這個測量值有多可信?真實值可能…