YOLOv12環境配置，手把手教你使用YOLOv12訓練自己的數據集和推理(附YOLOv12網絡結構圖)，全文最詳細教程

文章目錄

前言
一、YOLOv12代碼下載地址
- 1.YOLOv12模型結構圖
二、YOLO環境配置教程
- 1.創建虛擬環境
- 2.激活虛擬環境
- 3.查詢自己電腦可支持最高cuda版本是多少（無顯卡的同學可以跳過這個步驟）
- 4.pytorch安裝
- 5.驗證 PyTorch GPU 是否可用（沒有顯卡的同學不用看這個步驟）
- 6.安裝其他依賴
- 7.補充（flash_attn環境）
三、數據集準備
- 1.數據集標注軟件
- 2.voc數據集格式轉換
- 3.數據集劃分
- 4.修改yolo的訓練配置文件
四、YOLOv12推理
五、YOLOv12訓練
六、解決訓練過程中斷怎么繼續上次訓練
總結

前言

YOLO 系統尊嘟太卷了吧，YOLOv11 還沒玩明白，YOLOv12 就重磅來襲，YOLOv12 是由紐約州立大學聯合中科院在 2025年2月19 日發布，從 YOLOv12 論文題目我們大概就知道做了那些更新，下圖是YOLOv12 在 COCO 數據集上的性能表現
在這里插入圖片描述

YOLOv12 創新點：

引入區域注意力機制（area-attention）：通過引入十字形窗口自我注意機制，沿水平和垂直條紋計算注意力機制，縱橫交錯的注意機制。如下圖所示，區域注意力采用最多簡單的等分方法，將特征地圖垂直或水平劃分為 L 個區域。（默認值為4）。這樣可以避免復雜操作時同時保證接收野大，效率高。
作者設計了殘差高效層聚合網絡 (R-ELAN)：R-ELAN結構類似CSPNet，結構如下圖的（d）所示，可以看到該結構中間層是A2（區域注意力機制），更多具體信息可以看 YOLOv12 的中的 A2C2f 模塊代碼

理論詳解可以參考鏈接：論文地址

一、YOLOv12代碼下載地址

官網的源碼下載地址：官網源碼

如果官網打不開的話，我已經下載好 YOLOv12 源碼+預訓練模型+訓練腳本+推理腳本+訓練測試數據集+數據集處理腳本，從公眾號發送關鍵字：YOLOv12源碼，即可獲取完整源碼

1.YOLOv12模型結構圖

根據 yolov12.yaml 畫出 yolo 整體結構圖，對比 YOLOv11 網絡結構，YOLOv12 網絡結構做了優化，減少總層數，YOLOv12 模型結構如下圖所示：
在這里插入圖片描述

二、YOLO環境配置教程

YOLOv12/YOLOv11/YOLOv10/YOLOv9/YOLOv8/YOLOv7/YOLOv5 環境都是通用的，只需要安裝一次就行

我用之前的環境運行，報錯：mportError: cannot import name ‘scaled_dot_product_attention’ from ‘torch.nn.functional’ ，我猜應該是 pytorch 版本太低了，沒有這個模塊，那我只能在創建一個虛擬環境用于YOLOv12，那么接下來重新創建新的虛擬環境

在這里插入圖片描述

1.創建虛擬環境

python 版本為 3.9、 3.10、3.11 都行，我選擇3.11版本的

終端輸入命令創建，（-n 后面接你要創建虛擬環境的名稱，這個可以自己起一個名稱，不一定要跟我一樣）：

conda create -n yolov12 python=3.11

在這里插入圖片描述

輸入 y 回車，等待下載即可
在這里插入圖片描述

2.激活虛擬環境

激活虛擬環境語法是 conda activate myenv，myenv是自己的虛擬環境名稱，命令如下：

conda activate yolov12

激活成功括號變成你剛剛創建虛擬環境名字

在這里插入圖片描述

3.查詢自己電腦可支持最高cuda版本是多少（無顯卡的同學可以跳過這個步驟）

那怎么知道電腦有沒有顯卡，在開始菜單搜索設備管理器打開
在這里插入圖片描述

在這里插入圖片描述
有顯卡的同學還需要進行查詢自己電腦支持最高 cuda 版本是多少，在終端輸入命令 nvidia-smi 查看

可以看到我電腦支持最高 cuda 版本是 12.5，所以可以安裝向下版本的 cuda，那么知道這個有什么用，當然有用，可以看到 pytorch 官網安裝命令都帶有 cuda 版本號在這里插入圖片描述
假設你電腦都不支持這么高的cuda 版本，你安裝了 pytorch 那么你就用不了 GPU 了。如果你電腦支持cuda太低，你可以更新英偉達驅動，更新英偉達驅動直達地址：英偉達驅動，根據自己電腦選擇下載，安裝超級簡單，直接下一步下一步就行，安裝完成之后重啟電腦，在終端輸入 nvidia-smi 命令，來查看可支持的最高 cuda 版本

4.pytorch安裝

看了一眼官網的配置文件，官網安裝pytorch是2.2.2的
在這里插入圖片描述
電腦有英偉達顯卡就安裝帶 cuda 的 pytorch，電腦沒有顯卡則安裝 cpu 的 pytorch，去 pytorch 官網找到合適版本復制命令安裝就行 pytorch官網直達地址是：pytorch官網，復制命令時候 -c 后面不用復制

復制命令到終端，出現下圖這樣，或者安裝不了的，不急，我們換一種方式安裝，就是通過離線下載安裝庫進行安裝，我換源還是安裝不了，那么我們就通過另外一種方式安裝，就是下載 whl 安裝包，這種成功率達到 99% 。
在這里插入圖片描述

把這個下圖這幾個版本記住，之后離線下載對應版本就行
在這里插入圖片描述

離線安裝包下載地址：pytorch離線安裝包下載地址

打開鏈接，找到版本下載即可，說一下文件名的意思，

cu118：是 cuda 版本是 11.8，cu102 就是 cuda 版本是 10.2 的，依次類推
cp311：是 Python 的版本是3.11，cp39就是Python版本是3.9，依次類推
win：是 Windows 操作系統的意思，這個大家應該看得懂的

因為前面我按照 python 版本為 3.11 的，那么就選擇 cp311 的，系統選擇 win，這個版本號一定要對上 python 的版本號哦，之后點擊下載就行，大家根據自己需求選擇安裝即可

在這里插入圖片描述
如果沒有顯卡就選擇 cpu 的

除了下載 pytorch，還需要下載對應版本的 torchvision 和 torchaudio（前面叫你記住版本號了哦）
在下載對應版本 torchvision，我的是 torchvision==0.17.2

在下載對應版本的 torchaudio，我的應該是 torchaudio==2.2.2

在這里插入圖片描述
下載完成，在終端進入文件所在的位置，我的在 E:\3-瀏覽器下載的文件，先進入E盤，再 cd 切換路徑，之后 pip install 文件名安裝即可，（小技巧：打文件名時候可以用 tab 鍵補全，關注我不僅學到一個實用的小技巧哦）在這里插入圖片描述
記得激活虛擬環境在安裝

把剛剛下載三個文件按照順序安裝即可，順序是：首先是 torch，其次是 torchvision，最后是 torchaudio

5.驗證 PyTorch GPU 是否可用（沒有顯卡的同學不用看這個步驟）

安裝完成后，測試 GPU 是否可用，如果輸出為 True 則表示 GPU 可以使用，要是輸出 False 代表不可以使用 GPU 加速，輸出 False 也是可以使用的，一般 CPU 訓練會很慢，慢到你懷疑人生那種，不過用來推理還是可以的。要是沒有顯卡租一個服務器訓練模型就行，如果這個反響比較大，我也會出一期在服務器怎么訓練的教程。

在終端輸入 python
在這里插入圖片描述
復制下面命令到終端即可

import torch
print(torch.__version__)
print(torch.cuda.is_available())
print(torch.cuda.device_count())

在這里插入圖片描述
看到這里 pytorch 安裝完成

6.安裝其他依賴

安裝 requirements.txt 文件的環境，可以看到 YOLOv12 官網給出了很多庫版本，其實有些我們用不到，我拿 YOLOv8 的 requirements.txt 來安裝即可，到時候缺什么我們在單獨安裝，不僅減少電腦內存
下圖是 YOLOv12 官網的 requirements.txt 文件，把里面內容刪了，復制我給的庫到 requirements.txt 文件里面
在這里插入圖片描述

# Ultralytics requirements
# Example: pip install -r requirements.txt# Base ----------------------------------------
matplotlib>=3.3.0
numpy==1.24.4 # pinned by Snyk to avoid a vulnerability
opencv-python>=4.6.0
pillow>=7.1.2
pyyaml>=5.3.1
requests>=2.23.0
scipy>=1.4.1
tqdm>=4.64.0# Logging -------------------------------------
# tensorboard>=2.13.0
# dvclive>=2.12.0
# clearml
# comet# Plotting ------------------------------------
pandas>=1.1.4
seaborn>=0.11.0# Export --------------------------------------
# coremltools>=7.0  # CoreML export
# onnx>=1.12.0  # ONNX export
# onnxsim>=0.4.1  # ONNX simplifier
# nvidia-pyindex  # TensorRT export
# nvidia-tensorrt  # TensorRT export
# scikit-learn==0.19.2  # CoreML quantization
# tensorflow>=2.4.1  # TF exports (-cpu, -aarch64, -macos)
# tflite-support
# tensorflowjs>=3.9.0  # TF.js export
# openvino-dev>=2023.0  # OpenVINO export# Extras --------------------------------------
psutil  # system utilization
py-cpuinfo  # display CPU info
thop>=0.1.1  # FLOPs computation
# ipython  # interactive notebook
# albumentations>=1.0.3  # training augmentations
# pycocotools>=2.0.6  # COCO mAP
# roboflow

復制完如下圖所示：
在這里插入圖片描述

接下來正常安裝就行，這個安裝步驟我之前視頻講過，大家有興趣可以看我之前的安裝視頻，在自己的虛擬環境里面安裝，安裝命令如下：

pip install -r requirements.txt

在這里插入圖片描述
安裝完成我們測試推理，運行推理文件報錯，人家提示你沒有安裝這個庫，之后缺什么就安裝什么庫

安裝命令如下：

pip install huggingface-hub==0.23.2

在這里插入圖片描述

最后完美推理成功
在這里插入圖片描述

7.補充（flash_attn環境）

從官網的環境配置文件看出還給出了 flash_attn 庫，從庫的名字看出是在linux 下安裝的，那么在 windows 系統當然安裝不了 linux 版本的庫，如需在 windows 安裝 flash_attn 庫，則需要找 windows 版本的 flash_attn 庫。網上應該有教程在 windows 版本安裝 flash_attn 庫（需要安裝自行網上搜索找找看，后續有這個安裝需求我也更新安裝步驟出來），我就沒有安裝照樣是可以訓練和推理的，下文繼續詳細講一下。
在這里插入圖片描述
從官網代碼可以看出，AAttn 類中的 forward 方法中人家已經寫好了，安裝有 flash_attn 的話，則使用 flash_attn_func 函數計算，未安裝或未啟用flash_attn，則使用標準的縮放點積注意力(sdpa)函數來計算；最后一種情況是在 cpu 訓練，則是執行最后一段代碼。也就說有沒有安裝 flash_attn庫，照樣可以訓練，只是注意力計算方式有所區別，應該不會對結果產生很大影響吧（大家具體實驗試試）。
在這里插入圖片描述

如果安裝有 flash_attn ，不想用 flash_attn_func 計算，可以通過 USE_FLASH_ATTN = True 參數設置，不需要設置 False 即可
在這里插入圖片描述

三、數據集準備

1.數據集標注軟件

數據集使用標注軟件標注好，我這里推薦兩個標注軟件，一個是 labelimg，另外一個是 labelme，可以在python環境，使用 pip install labelimg 或者 pip install labelme 進行安裝，看你選擇哪個標注工具標注了，我使用 labelimg 標注工具

安裝完成在終端輸入命令啟動標注軟件
在這里插入圖片描述
下面是軟件界面

設置自動保存標注生成的標注文件

2.voc數據集格式轉換

標注格式如果選擇VOC格式，后面需要代碼轉換格式，如果選擇yolo格式就不用轉換，voc格式轉換yolo格式代碼如下：

# -*- coding: utf-8 -*-
"""
@Auth ：掛科邊緣
@File ：xml轉txt.py
@IDE ：PyCharm
@Motto :學習新思想，爭做新青年
@Email ：179958974@qq.com
"""
import xml.etree.ElementTree as ET
import os, cv2
import numpy as npclasses = []def convert(size, box):dw = 1. / (size[0])dh = 1. / (size[1])x = (box[0] + box[1]) / 2.0 - 1y = (box[2] + box[3]) / 2.0 - 1w = box[1] - box[0]h = box[3] - box[2]x = x * dww = w * dwy = y * dhh = h * dhreturn (x, y, w, h)def convert_annotation(xmlpath, xmlname):with open(xmlpath, "r", encoding='utf-8') as in_file:txtname = xmlname[:-4] + '.txt'txtfile = os.path.join(txtpath, txtname)tree = ET.parse(in_file)root = tree.getroot()filename = root.find('filename')img = cv2.imdecode(np.fromfile('{}/{}.{}'.format(imgpath, xmlname[:-4], postfix), np.uint8), cv2.IMREAD_COLOR)h, w = img.shape[:2]res = []for obj in root.iter('object'):cls = obj.find('name').textif cls not in classes:classes.append(cls)cls_id = classes.index(cls)xmlbox = obj.find('bndbox')b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),float(xmlbox.find('ymax').text))bb = convert((w, h), b)res.append(str(cls_id) + " " + " ".join([str(a) for a in bb]))if len(res) != 0:with open(txtfile, 'w+') as f:f.write('\n'.join(res))if __name__ == "__main__":postfix = 'png'  # 圖像后綴imgpath = r'E:\A-畢業設計代做數據\helmet\test\images'  # 圖像文件路徑xmlpath = r'E:\A-畢業設計代做數據\helmet\test\annotations'  # xml文件文件路徑txtpath = r'E:\A-畢業設計代做數據\helmet\test\labels'  # 生成的txt文件路徑if not os.path.exists(txtpath):os.makedirs(txtpath, exist_ok=True)list = os.listdir(xmlpath)error_file_list = []for i in range(0, len(list)):try:path = os.path.join(xmlpath, list[i])if ('.xml' in path) or ('.XML' in path):convert_annotation(path, list[i])print(f'file {list[i]} convert success.')else:print(f'file {list[i]} is not xml format.')except Exception as e:print(f'file {list[i]} convert error.')print(f'error message:\n{e}')error_file_list.append(list[i])print(f'this file convert failure\n{error_file_list}')print(f'Dataset Classes:{classes}')

代碼需要修改的地方如下：
1.postfix參數填圖片的后綴，需要注意圖片格式要統一，是png格式就寫png，是jpg格式就寫jpg
2.imgpath參數填圖片所在的路徑
3.xmlpath參數填標注文件的路徑
4.txtpath參數填生成的yolo格式的文件
在這里插入圖片描述

3.數據集劃分

劃分訓練集和驗證集代碼如下：

# -*- coding: utf-8 -*-
"""
@Auth ： 掛科邊緣
@File ：劃分.py
@IDE ：PyCharm
@Motto:學習新思想，爭做新青年
@Email ：179958974@qq.com
"""import os, shutil
from sklearn.model_selection import train_test_splitval_size = 0.2
postfix = 'jpg'
imgpath = r'E:\A-畢業設計代做數據\datasets\images'
txtpath =  r'E:\A-畢業設計代做數據\datasets\labels'output_train_img_folder =r'E:\A-畢業設計代做數據\datasets\dataset_kengwa/images/train'
output_val_img_folder =  r'E:\A-畢業設計代做數據\datasets\dataset_kengwa/images/val'
output_train_txt_folder =  r'E:\A-畢業設計代做數據\datasets\dataset_kengwa\labels/train'
output_val_txt_folder =  r'E:\A-畢業設計代做數據\datasets\dataset_kengwa\labels/val'os.makedirs(output_train_img_folder, exist_ok=True)
os.makedirs(output_val_img_folder, exist_ok=True)
os.makedirs(output_train_txt_folder, exist_ok=True)
os.makedirs(output_val_txt_folder, exist_ok=True)listdir = [i for i in os.listdir(txtpath) if 'txt' in i]
train, val = train_test_split(listdir, test_size=val_size, shuffle=True, random_state=0)for i in train:img_source_path = os.path.join(imgpath, '{}.{}'.format(i[:-4], postfix))txt_source_path = os.path.join(txtpath, i)img_destination_path = os.path.join(output_train_img_folder, '{}.{}'.format(i[:-4], postfix))txt_destination_path = os.path.join(output_train_txt_folder, i)shutil.copy(img_source_path, img_destination_path)shutil.copy(txt_source_path, txt_destination_path)for i in val:img_source_path = os.path.join(imgpath, '{}.{}'.format(i[:-4], postfix))txt_source_path = os.path.join(txtpath, i)img_destination_path = os.path.join(output_val_img_folder, '{}.{}'.format(i[:-4], postfix))txt_destination_path = os.path.join(output_val_txt_folder, i)shutil.copy(img_source_path, img_destination_path)shutil.copy(txt_source_path, txt_destination_path)

需要修改的地方如下
在這里插入圖片描述
下面四個參數只需在自己電腦任意位置新建一個文件夾就行，用于存放生成的訓練集和驗證集，比如新建一個文件夾叫dataset_kengwa，后面的路徑不用動，如下圖左邊的框出來的路徑覆蓋成你的就行

數據集有以下兩種方式放置，都可以進行訓練，常見的數據集放置是第一種，也有開源的數據集按照第二種方式放置的，我都遇見過，也能訓練起來
在這里插入圖片描述

4.修改yolo的訓練配置文件

我們需要在項目下創建一個 data.yaml 的文件，文件名根據數據集名稱取，我這里方便演示直接叫data.yaml，如下圖所示
在這里插入圖片描述
代碼如下：

train: E:\Desktop\new-yolov9\yolotest\images\train  # train images (relative to 'path') 4 images
val: E:\Desktop\new-yolov9\yolotest\images\val  # val images (relative to 'path') 4 imagesnc: 2# class names
names: ['dog','cat']

四、YOLOv12推理

（1）官網的預訓練模型下載

進入官網的源碼下載地址：官網模型下載地址，往下面拉，看到模型位置，YOLOv12 針對不同的場景和應用提供了 YOLOv12n、YOLOv12s 等不同大小的模型，具體看官網提供的，需要下載哪個，鼠標左鍵單擊下載就行。
在這里插入圖片描述

我的源碼包已經下載好了模型了，如果需要其他權重自行下載就行

（2）在根目錄新建一個python文件，取名為：detect.py
在這里插入圖片描述
（3）把推理代碼復制到detect.py文件
注意注意注意：模型路徑改成你自己的路徑，還有預測圖像也改成你自己的路徑
推理的代碼如下：

# -*- coding: utf-8 -*-
"""
@Auth ： 掛科邊緣
@File ：detect.py
@IDE ：PyCharm
@Motto:學習新思想，爭做新青年
@Email ：179958974@qq.com
"""from ultralytics import YOLOif __name__ == '__main__':# Load a modelmodel = YOLO(model=r'D:\2-Python\1-YOLO\YOLOv11\ultralytics-8.3.2\yolo11n-seg.pt')  model.predict(source=r'D:\2-Python\1-YOLO\YOLOv11\ultralytics-8.3.2\ultralytics\assets\bus.jpg',save=True,show=False,)

推理代碼的參數解釋
1.model參數：該參數可以填入模型文件路徑
2.source參數：該參數可以填入需要推理的圖片或者視頻路徑，如果打開攝像頭推理則填入0就行
3.save參數：該參數填入True，代表把推理結果保存下來，默認是不保存的，所以一般都填入True
4.show參數：該參數填入True，代表把推理結果以窗口形式顯示出來，默認是顯示的，這個參數根據自己需求打開就行，不顯示你就填False就行

目標檢測模型推理結果如下：
在這里插入圖片描述

五、YOLOv12訓練

(1)在根目錄新建一個python文件，取名為：train.py，如果之前看過我的文章，已經新建過就不用重新新建了
在這里插入圖片描述

(2)把訓練代碼復制到train.py文件，如果之前看過我的文章，已經復制過了就不用重新復制了，只需修改參數就行
訓練的代碼如下：

# -*- coding: utf-8 -*-
"""
@Auth ： 掛科邊緣
@File ：trian.py
@IDE ：PyCharm
@Motto:學習新思想，爭做新青年
@Email ：179958974@qq.com
"""
import warnings
warnings.filterwarnings('ignore')
from ultralytics import YOLOif __name__ == '__main__':model = YOLO(model=r'D:\2-Python\1-YOLO\YOLOv12\yolov12-main\ultralytics\cfg\models\v12\yolov12.yaml')# model.load('yolo11n.pt') # 加載預訓練權重,改進或者做對比實驗時候不建議打開，因為用預訓練模型整體精度沒有很明顯的提升model.train(data=r'data.yaml',imgsz=640,epochs=50,batch=4,workers=0,device='',optimizer='SGD',close_mosaic=10,resume=False,project='runs/train',name='exp',single_cls=False,cache=False,)

注意注意注意：模型配置路徑改成你自己的路徑，還有數據集配置文件也修改成你自己的路徑

在這里插入圖片描述
訓練代碼的參數解釋：

model參數：該參數填入模型配置文件的路徑，改進的話建議不需要填預訓練模型權重
data參數：該參數可以填入訓練數據集配置文件的路徑
imgsz參數：該參數代表輸入圖像的尺寸，指定為 640x640 像素
epochs參數：該參數代表訓練的輪數
batch參數：該參數代表批處理大小，電腦顯存越大，就設置越大，根據自己電腦性能設置
workers參數：該參數代表數據加載的工作線程數，出現顯存爆了的話可以設置為0，默認是8
device參數：該參數代表用哪個顯卡訓練，留空表示自動選擇可用的GPU或CPU
optimizer參數：該參數代表優化器類型
close_mosaic參數：該參數代表在多少個 epoch 后關閉 mosaic 數據增強
resume參數：該參數代表是否從上一次中斷的訓練狀態繼續訓練。設置為False表示從頭開始新的訓練。如果設置為True，則會加載上一次訓練的模型權重和優化器狀態，繼續訓練。這在訓練被中斷或在已有模型的基礎上進行進一步訓練時非常有用。
project參數：該參數代表項目文件夾，用于保存訓練結果
name參數：該參數代表命名保存的結果文件夾
single_cls參數：該參數代表是否將所有類別視為一個類別，設置為False表示保留原有類別
cache參數：該參數代表是否緩存數據，設置為False表示不緩存。