Hugging Face的TrainingArguments常用參數學習

Hugging Face的TrainingArguments類是用于設置和管理訓練模型時的各種參數。下面是一些關鍵參數及其原理和使用示例:

1. 輸出目錄 (output_dir)

描述:保存模型和檢查點的目錄。
示例

output_dir='./results'

2. 訓練和驗證批次大小 (per_device_train_batch_size, per_device_eval_batch_size)

描述:每個設備(GPU/CPU)的訓練和驗證批次大小。
示例

per_device_train_batch_size=8
per_device_eval_batch_size=16

3. 訓練輪數 (num_train_epochs)

描述:訓練模型的輪數。
示例

num_train_epochs=3

4. 學習率 (learning_rate)

描述:優化器的學習率。
示例

learning_rate=5e-5

5. 權重衰減 (weight_decay)

描述:優化器中的權重衰減(L2正則化)。
示例

weight_decay=0.01

6. 評估策略 (evaluation_strategy)

描述:評估模型的策略,可以是’no’、‘steps’或’epoch’。
示例

evaluation_strategy='steps'

7. 日志記錄策略 (logging_strategy)

描述:記錄日志的策略,可以是’no’、‘steps’或’epoch’。
示例

logging_strategy='steps'

8. 日志記錄步數 (logging_steps)

描述:每多少步記錄一次日志。
示例

logging_steps=500

9. 保存策略 (save_strategy)

描述:保存模型的策略,可以是’no’、‘steps’或’epoch’。
示例

save_strategy='epoch'

10. 保存總數 (save_total_limit)

描述:最多保存多少個檢查點。
示例

save_total_limit=3

11. 學習率調度器類型 (lr_scheduler_type)

描述:學習率調度器的類型,比如’linear’, ‘cosine’。
示例

lr_scheduler_type='linear'

12. 混合精度訓練 (fp16)

描述:是否使用16位浮點數進行混合精度訓練(需要GPU支持)。
示例

fp16=True

13. 每一步進行梯度累積 (gradient_accumulation_steps)

描述:每多少步進行一次梯度累積。
示例

gradient_accumulation_steps=4

14. 最大梯度規范化 (max_grad_norm)

描述:梯度裁剪的最大范數。
示例

max_grad_norm=1.0

15. 設備 (device)

描述:指定訓練使用的設備,如’cuda’或’cpu’。
示例

device='cuda'

示例代碼

以下是一個綜合使用TrainingArguments的示例:

from transformers import TrainingArgumentstraining_args = TrainingArguments(output_dir='./results',            # 保存模型的目錄num_train_epochs=3,                # 訓練輪數per_device_train_batch_size=8,     # 訓練批次大小per_device_eval_batch_size=16,     # 驗證批次大小warmup_steps=500,                  # 訓練的預熱步數weight_decay=0.01,                 # 權重衰減logging_dir='./logs',              # 日志目錄logging_steps=10,                  # 多少步記錄一次日志evaluation_strategy='steps',       # 評估策略save_strategy='epoch',             # 保存策略learning_rate=5e-5,                # 學習率lr_scheduler_type='linear',        # 學習率調度器類型fp16=True,                         # 是否使用混合精度gradient_accumulation_steps=4,     # 梯度累積步數max_grad_norm=1.0                  # 最大梯度范數
)print(training_args)

重要參數總結

  • output_dir: 確保模型和結果保存位置。
  • per_device_train_batch_size & per_device_eval_batch_size: 影響內存使用和訓練速度。
  • num_train_epochs: 決定訓練時長和模型的收斂程度。
  • learning_rate: 學習率,影響模型的學習速度和性能。
  • weight_decay: 正則化,防止過擬合。
  • evaluation_strategy & logging_strategy: 確保模型在訓練過程中的監控和評估。
  • fp16: 使用混合精度可以提高訓練速度并減少內存占用,但需要兼容的硬件。

通過合理配置這些參數,可以更好地控制模型訓練過程,提高訓練效率和模型性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/13594.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/13594.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/13594.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

藍橋杯高頻考點真題單——4.修改數組

修改數組 8.修改數組 - 藍橋云課 (lanqiao.cn) 本來我的思路很一般,用一個set,記錄每一段的最值,然后分情況討論,如果查詢到未記錄的,那就直接輸出,并記錄。如果當前值前面已經有過,那就直接從…

惡劣天氣下的車輛探測:多方關注 多模態融合方法

摘要 在自動駕駛汽車技術領域,多模式車輛檢測網絡(MVDNet)代表了一個重大的飛躍,特別是在具有挑戰性的天氣條件下。本文主要通過集成多頭關注層對MVDNet進行增強,旨在改進其性能。MVDNet模型中集成的多頭關注層是一個關鍵的改進,…

民國漫畫雜志《時代漫畫》第14期.PDF

時代漫畫14.PDF: https://url03.ctfile.com/f/1779803-1247458399-6732ac?p9586 (訪問密碼: 9586) 《時代漫畫》的雜志在1934年誕生了,截止1937年6月戰爭來臨被迫停刊共發行了39期。 ps:資源來源網絡!

java+ vue.js+uniapp一款基于云計算技術的企業級生產管理系統,云MES源碼 MES系統如何與ERP系統集成?

java vue.jsuniapp一款基于云計算技術的企業級生產管理系統,云MES源碼,MES系統如何與ERP系統集成? MES系統(制造執行系統)與ERP系統(企業資源規劃系統)的集成可以通過多種方式實現,這…

探索亞馬遜云科技技術課程:大模型平臺與提示工程的應用與優化

上方圖片源自亞馬遜云科技【生成式 AI 精英速成計劃】技術開發技能課程 前言 學習了亞馬遜云科技–技術開發技能課程 本課程分為三個部分,了解如何使用大模型平臺、如何訓練與部署大模型及生成式AI產品應用與開發,了解各類服務的優勢、功能、典型使用案…

蘋果MacOS系統使用微軟遠程桌面連接Windows電腦桌面詳細步驟

文章目錄 前言1. 測試本地局域網內遠程控制1.1 Windows打開遠程桌面1.2 局域網遠程控制windows 2. 測試Mac公網遠程控制windows2.1 在windows電腦上安裝cpolar2.2 Mac公網遠程windows 3. 配置公網固定TCP地址 前言 日常工作生活中,有時候會涉及到不同設備不同操作系…

Vue3實戰筆記(38)—粒子特效終章

文章目錄 前言一、怎樣使用官方提供的特效二、海葵特效總結 前言 官方還有很多漂亮的特效,但是vue3只有一個demo,例如我前面實現的兩個頁面就耗費了一些時間,今天記錄一下tsparticles官方內置的幾個特效的使用方法,一般這幾個就足…

微信小程序---小程序文檔配置(2)

一、小程序文檔配置 1、小程序的目錄結構 1.1、目錄結構 小程序包含一個描述整體程序的 app 和多個描述各自頁面的 page 一個小程序主體部分由三個文件組成,必須放在項目的根目錄 比如當前我們的《第一個小程序》項目根目錄下就存在這三個文件: 1…

新媒體運營十大能力,讓品牌聞達天下!

" 現在新媒體蓬勃發展,很多品牌都有新媒體運營這個崗位。新媒體運營好的話,可以提高公司品牌曝光、影響力。那新媒體運營具備什么能力,才能讓品牌知名度如虎添翼呢?" 信息收集能力 在移動互聯網時代,信息的…

單細胞分析(Signac): PBMC scATAC-seq 聚類

引言 在本教學指南中,我們將探討由10x Genomics公司提供的人類外周血單核細胞(PBMCs)的單細胞ATAC-seq數據集。 加載包 首先加載 Signac、Seurat 和我們將用于分析人類數據的其他一些包。 if (!requireNamespace("EnsDb.Hsapiens.v75&qu…

JVM嚴鎮濤版筆記【B站面試題】

前言 2023-06-19 18:49:33 出自B站 灰灰的Java面試 楓葉云鏈接:http://cloud.fynote.com/s/4976 JVM面試題大全 Lecturer :嚴鎮濤 1.為什么需要JVM,不要JVM可以嗎? 1.JVM可以幫助我們屏蔽底層的操作系統 一次編譯&#xff0c…

C語言 數組——計算最大值的函數實現

目錄 計算最大值 計算最大值的函數實現 應用實例:計算班級最高分?編輯?編輯 返回最大值所在的下標位置 返回最大值下標位置的函數實現?編輯 一個綜合應用實例——青歌賽選手評分?編輯?編輯?編輯?編輯?編輯 計算最大值 計算最大值的函數實現 應用實例&…

音視頻開發4-補充 FFmpeg 開發環境搭建 -- 在windows 上重新build ffmpeg

本節的目的是在windows 上 編譯 ffmpeg 源碼,這樣做的目的是:在工作中可以根據工作的實際內容裁剪 ffmpeg,或者改動 ffmpeg 的源碼。 第一步 :下載, 安裝,配置 ,運行 msys64 下載 下載地址&…

【paper】基于分布式采樣的多機器人編隊導航信念傳播模型預測控制

Distributed Sampling-Based Model Predictive Control via Belief Propagation for Multi-Robot Formation NavigationRAL 2024.4Chao Jiang 美國 University of Wyoming 預備知識 馬爾可夫隨機場(Markov Random Field, MRF) 馬爾可夫隨機場&#xff…

【Linux】使用AddressSanitizer分析內存非法使用問題

文章目錄 1 為什么需要AddressSanitizer?2 如何使用AddressSanitizer3 AddressSanitizer的原理4 總結 1 為什么需要AddressSanitizer? Valgrind是比較常用的內存問題定位工具,既然已經有了Valgrind,為什么還需要AddressSanitizer…

java 通過 microsoft graph 調用outlook(三)

這次會添加一個Reply接口&#xff0c; 并且使用6.10.0版本 直接上代碼 一&#xff0c; POM <!-- office 365 --><dependency><groupId>com.microsoft.graph</groupId><artifactId>microsoft-graph</artifactId><version>6.1…

域內 dcsync 權限維持

一、原理 DCSync 是域滲透中經常會用到的技術&#xff0c;其被整合在了 Mimikatz 中。在 DCSync 功能出現之前&#xff0c;要想獲得域用戶的哈希&#xff0c;需要登錄域控制器&#xff0c;在域控制器上執行代碼才能獲得域用戶的哈希。 Mimikatz的DCSync 功能&#xff1a; 該…

java8總結

java8總結 java8新特性總結1. 行為參數化2. lambda表達式2.1 函數式接口2.2 函數描述符 3. Stream API3.1 付諸實踐 java8新特性總結 行為參數化lambda表達式Stream Api 1. 行為參數化 定義&#xff1a;行為參數化&#xff0c;就是一個方法接受多個不同的行為作為參數&#x…

harmony 文件上傳

圖片上傳 1&#xff0c; 獲取文件&#xff0c;這里指的是圖片 在鴻蒙內部有一個API pick選擇器&#xff0c;實現文件保存和文件選擇的功能&#xff0c; 使用pick對象創建PhotoViewPicker實例 傳入必要的參數&#xff0c;如選擇圖片的數量&#xff0c;和彈出窗口的位置&#xf…

【機器學習】前沿探索,如何讓前端開發更加搞笑

在當今數字化時代&#xff0c;機器學習的崛起為前端開發帶來了巨大的機遇和挑戰。隨著人工智能和數據科學的不斷進步&#xff0c;前端工程師不再局限于傳統的界面設計和交互體驗&#xff0c;而是開始探索如何將機器學習技術融入到他們的工作中&#xff0c;以創造更加智能、個性…