基于昇騰NPU部署llamafactory單機多卡微調Qwen3教程

1. 進入華為云

華為云首頁
點擊右上角控制臺
2025-06-17_212732.png

2.進入ModelArts

點擊搜索框->搜索“ModelArts”->選擇AI開發平臺ModelArts->進入平臺后點擊開發者空間
image.png

3.創建Notebook

3.1在開發者空間中點擊Notebook->在西南貴陽一下點擊創建Notebook

image.png

3.2進入創建Notebook頁面選擇公共資源池中第2頁的pytorch_2.1.0-cann_8.0.rc1-py_3.9-euler_2.10.7-aarch64-snt9b

image.png

3.3選擇NPU與創建Notebook

image.png

4.打開服務器

等待創建完成后,單擊后面的“打開”按鈕將服務器打開。
image.png

5.安裝Python

創建“python”版本的型號,點擊上方的“+”,在展開的下拉菜單中選擇“Notebook”
將以下代碼放在Notebook中執行
conda create -n llamafactory python==3.10 -y
image.png

6.安裝openMind Hub Client和openMind Library

切換到終端窗口,點擊上方的“+”,在展開的下拉菜單中選擇“Termianl”
在終端執行命令,激活或者啟動昇騰資源服務。
source /usr/local/Ascend/ascend-toolkit/set_env.sh
image.png
查看創建的環境
conda env list
進入新建的python環境
conda activate llamafactory
image.png
安裝“openMind Hub Client”(可能出現以下的錯誤,不影響下面的操作)
pip install openmind_hub
image.png
安裝“openMind Library”,并安裝“PyTorch”框架及其依賴(可能出現以下的錯誤,不影響下面的操作)
pip install openmind[pt]
image.png
安裝和下載“LLaMa Factory”工具(報錯沒關系)
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch-npu,metrics]"
pip install numpy==1.23.5

7.安裝符合Qwen3要求的transformers

請注意,這一點很重要,如果沒安裝,后面會報錯沒有qwen3模板

pip install --upgrade transformers==4.51.0

8.模型下載Qwen3

登錄魔搭下載模型
魔搭官網
安裝安裝ModelScope
pip install modelscope
復制官網鏈接下載Qwen3模型,模型會下載在/home/ma-user/.cache/modelscope/hub/models/Qwen/Qwen3-8B下,可以使用mv命令移動到指定文件夾下
modelscope download --model Qwen/Qwen3-8B
進入模型下載路徑
cd /home/ma-user/.cache/modelscope/hub/models/Qwen/Qwen3-8B
查看當前路徑獲取路徑地址
pwd
/home/ma-user/.cache/modelscope/hub/models/Qwen/Qwen3-8B
使用mv命令移動到/home/ma-user/work/Model下,因為/home/ma-user/work下是進來顯示的界面,是永久存儲的(一開始選的100G云硬盤)
mv /home/ma-user/.cache/modelscope/hub/models/Qwen/Qwen3-8B /home/ma-user/work/Model
image.png

9.構造數據集,注冊數據集,使用命令微調Qwen3

具體可以看llamafactory官網教程
llamafactory官網
llamafactory官網數據處理詳解
在LLaMA-Factory/data 目錄下的daraset_info.json中注冊數據集,上傳數據集到指定的位置
image.png
上傳可以在要上傳的文件夾下點擊右上角上傳,上傳本地文件,如果文件過大,在彈出的提示中選擇obs桶就行,默認就可以
image.png

10.使用命令微調Qwen3

查看npu,便于觀察

npu-smi info
image.png

這是我的微調命令,根據自己的需求更改,其中NPU序列號是從0開始的,不用看別的,有幾張卡都從0開始。

ASCEND_RT_VISIBLE_DEVICES=0,1 llamafactory-cli train
–stage sft
–do_train True
–model_name_or_path /home/ma-user/work/Model/Qwen3-8B
–preprocessing_num_workers $(nproc)
–finetuning_type lora
–template qwen3
–flash_attn auto
–dataset_dir data
–dataset Multimodal_stock_train_cot
–cutoff_len 3072
–learning_rate 5e-5
–num_train_epochs 3.0
–max_samples 100000
–per_device_train_batch_size 6
–gradient_accumulation_steps 4
–lr_scheduler_type cosine
–max_grad_norm 1.0
–logging_steps 5
–save_steps 100
–warmup_steps 0
–packing False
–enable_thinking True
–report_to none
–output_dir /home/ma-user/work/out/Qwen3-8B-text
–bf16 True
–plot_loss True
–trust_remote_code True
–ddp_timeout 180000000
–include_num_input_tokens_seen True
–optim adamw_torch
–lora_rank 8
–lora_alpha 16
–lora_dropout 0
–lora_target all

成功微調~

image.png

11.保存鏡像

由于環境是創建在cache下的,關閉后是不會被保存的,能夠保存的只有云硬盤,所以要保留環境要創建自己的鏡像,具體操作是在運行狀態下點擊更多->保存鏡像
image.png

評估推理以及合并都是llamafactory官方一樣,就不說明了~

之后每次按照上述打開步驟打開平臺就可以訓練模型了,
按照以上步驟就能部署好NPU的平臺了,其他的錯誤可能就是依賴沖突問題,升級合適的版本即可

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/85715.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/85715.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/85715.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

關于XES文件格式諸多問題

1. 格式類型是什么? case:concept:name (案例ID) - 必須是字符串類型concept:name (活動名稱) - 字符串類型time:timestamp - 必須是datetime類型 2. 如何修改? data[case:concept:name] data[case:concept:name].astype(str)data[concept:name] data…

數據融合平臺有哪些?在數據治理中發揮什么作用?

目錄 一、常見的數據融合平臺 (一)傳統數據融合平臺 (二)實時數據融合平臺 (三)云數據融合平臺 二、數據融合平臺在數據治理中的作用 (一)提升數據質量 (二&#…

??Linux:XFS 文件系統擴容完整指南

???問題背景?? 在擴展 Linux 根目錄 / 時,我遇到了一個錯誤: sudo resize2fs /dev/uos/root resize2fs: 超級塊中的幻數有錯 嘗試打開 /dev/uos/root 時找不到有效的文件系統超級塊。 經過排查,發現根本原因是 ??文件系統類型是 XFS??,而 resize2fs 僅適用于 e…

網絡安全之CTF專題賽RE題解

easyre hap文件改成zip格式然后解壓去反編譯abc文件即可拿到源碼 這里推薦一個網站.abcD 蠻好用的 下載反編譯結果,解壓后用vscode打開分析。 這里可以看到一些目錄結構,我們先看看flag目錄 x_2_2.count位1000000的時候就會輸出flag那么大概率是一個點…

a padding to disable MSIE and Chrome friendly error page

問題 a padding to disable MSIE and Chrome friendly error page 解決 nginx 代理地址 配錯了

71、C# Parallel.ForEach 詳解

Parallel.ForEach 是 .NET Framework 4.0 引入的并行編程功能的一部分,位于 System.Threading.Tasks 命名空間中。它允許你對集合中的元素進行并行處理,可以顯著提高處理大量數據時的性能。 基本用法 using System; using System.Collections.Generic;…

生產者-消費者模式在不同操作系統上的行為差異

在多線程編程中,生產者-消費者模式是一種常見的設計模式,用于解決線程間的數據同步問題。最近,我在 Linux 和 macOS 上運行同一個生產者-消費者模式的程序時,發現它們表現出不同的行為。本文將介紹這個現象、分析其原因&#xff0…

【JS-4.1-DOM獲取元素操作】深入理解DOM操作:高效獲取頁面元素的方法與實踐

在現代Web開發中,DOM(文檔對象模型)操作是前端工程師的必備技能。而DOM操作的第一步,往往是從頁面中獲取我們需要操作的元素。本文將全面介紹各種獲取頁面元素的方法,分析它們的性能特點,并提供最佳實踐建議…

UE5錯誤 Linux離線狀態下錯誤 請求失敗libcurl錯誤:6無法解析主機名

UE5錯誤 Linux離線狀態下錯誤 請求失敗libcurl錯誤:6無法解析主機名 完整描述問題解析解決方法 完整描述 loghttp:warning:ox015cba21400:request failed libcurl error :6 (couldn’t resolve host name ) 問題解析 這是因為在離線狀態下…

深度學習實戰111-基于神經網絡的A股、美股、黃金對沖投資策略(PyTorch LSTM)

文章目錄 一、A股與美股對沖互補投資方案1. 現象與邏輯2. 對沖互補投資思路3. 資金分配樣例4. 最大化收益的關鍵二、對沖互補投資思路1. 資金分配原則2. 動態調整機制3. 對沖操作三、投資方案樣例1. 初始資金分配(假設總資金10萬元)2. 動態調整舉例情景一:美股進入牛市,A股…

在線教育平臺敏捷開發項目

項目背景 產品名稱:LearnFlow(在線學習平臺) 核心目標:6個月內上線MVP(最小可行產品),支持課程學習、進度跟蹤、測驗功能。 團隊構成: 產品負責人(PO)1人 S…

C++面試題(35)-------找出第 n 個丑數(Ugly Number)

操作系統:ubuntu22.04 IDE:Visual Studio Code 編程語言:C11 題目描述 我們把只包含質因子 2、3 和 5 的數稱作丑數(Ugly Number)。例如 1, 2, 3, 4, 5, 6, 8, 9, 10, 12 是前 10 個丑數。 請編寫一個函數,找出第 n …

Day03_數據結構(手寫)

01.數據結構畫圖 02. //11.按值查找返回位置 int search_value(node_p H,int value) { if(HNULL){ printf("入參為空.\n"); return -1; …

【Java學習筆記】Collections工具類

Collections 工具類 基本介紹 &#xff08;1&#xff09;Collections 中提供了一系列靜態方法對集合元素進行排序&#xff0c;查詢和修改等操作 &#xff08;2&#xff09;操作對象&#xff1a;集合 常用方法一覽表 方法描述reverse(List<?> list)反轉 List 中元素…

spring-webmvc @ResponseBody 典型用法

典型用法 基本用法&#xff1a;返回 JSON 數據 GetMapping("/users/{id}") ResponseBody public User getUser(PathVariable Long id) {return userService.findById(id); }Spring 自動使用 Jackson&#xff08;或其他 HttpMessageConverter&#xff09;將 User 對…

AI-調查研究-08-跑步分析研究 潛在傷害與預防 不同年齡段與性別的情況

點一下關注吧&#xff01;&#xff01;&#xff01;非常感謝&#xff01;&#xff01;持續更新&#xff01;&#xff01;&#xff01; &#x1f680; AI篇持續更新中&#xff01;&#xff08;長期更新&#xff09; 目前2025年06月16日更新到&#xff1a; AI煉丹日志-29 - 字節…

AI任務相關解決方案9-深度學習在工業質檢中的應用:基于DeepLabv3+模型的NEU-seg數據集語義分割研究

大家好我是微學AI,今天給大家介紹一下AI任務相關解決方案9-深度學習在工業質檢中的應用:基于DeepLabv3+模型的NEU-seg數據集語義分割研究。DeepLabv3+模型在NEU-seg數據集上實現了高達87.65%的平均交并比(mIoU),為金屬表面缺陷的高精度檢測提供了有力工具。本文將詳細探討Dee…

mysql JSON_EXTRACT JSON_UNQUOTE 函數

在處理mysql 有存儲的json字段&#xff0c;需要提取時候發現JSON_EXTRACT函數&#xff0c;發現此函數提取后會帶有引號&#xff0c;組合使用JSON_UNQUOTE 可去掉引號&#xff01; JSON_EXTRACT 函數概述 JSON_EXTRACT是MySQL中用于從JSON文檔中提取數據的函數&#xff0c;語法…

Prompt:更好的提示與迭代

歡迎來到啾啾的博客&#x1f431;。 記錄學習點滴。分享工作思考和實用技巧&#xff0c;偶爾也分享一些雜談&#x1f4ac;。 有很多很多不足的地方&#xff0c;歡迎評論交流&#xff0c;感謝您的閱讀和評論&#x1f604;。 目錄 1 引言1.1 引用資料 2 更好的提示2.1 情景學習IC…

SQL85 統計每個產品的銷售情況

SQL85 統計每個產品的銷售情況 好復雜&#xff0c;俺不中了。。 問題描述 本查詢旨在分析2023年各產品的銷售情況&#xff0c;包括&#xff1a; 每個產品的總銷售額、單價、總銷量和月均銷售額每個產品銷量最高的月份及其銷量每個產品購買量最高的客戶年齡段 解題思路 1. 基…