深度學習篇---Pytorch常用優化器

深度學習篇---Pytorch常用優化器

pingmian/2025/9/4 14:27:38/文章來源:https://blog.csdn.net/2301_79556402/article/details/151121634

優化器介紹：

在 PyTorch 中，優化器（Optimizer）的作用是根據模型參數的梯度來更新參數，以最小化損失函數。下面用通俗易懂的方式介紹幾種常用的優化器：

1. SGD（隨機梯度下降）

最基礎的優化器，原理類似下山：每次走一小步，方向由當前位置的坡度（梯度）決定。

特點：簡單直接，但可能在陡坡處震蕩，在平緩區域收斂慢。
改進版：帶動量（Momentum）的 SGD，就像下山時帶了慣性，能加快收斂，減少震蕩。比如小球從坡上滾下，不會突然停下，而是有持續的動力。
適用場景：數據量大、需要穩定訓練的場景，是很多復雜優化器的基礎。

2. Adam（自適應矩估計）

目前最常用的優化器之一，可以理解為 “聰明的 SGD”。

特點：會根據參數的更新頻率自動調整學習率（步長）：
- 對于更新頻繁的參數（如高頻特征），用較小的學習率，避免來回震蕩；
- 對于更新少的參數（如低頻特征），用較大的學習率，加速收斂。
優勢：收斂快、穩定性好，不需要手動調太多參數，適合大多數場景（如圖像、NLP）。

3. RMSprop（均方根傳播）

專注于解決學習率自適應問題，類似 Adam 的 “簡化版”。

特點：通過參數梯度的平方的移動平均值來調整學習率，避免學習率過大或過小。
適用場景：在遞歸神經網絡（RNN）中表現較好，適合處理序列數據。

4. Adagrad（自適應梯度）

最早的自適應學習率優化器之一。

特點：對每個參數單獨調整學習率，更新越頻繁的參數，學習率衰減越快。
缺點：學習率會持續減小，可能導致訓練后期幾乎停止更新。現在用得較少，被 Adam、RMSprop 替代。

5. AdamW

Adam 的改進版，解決了 Adam 中權重衰減（L2 正則化）的實現問題。

特點：在 Adam 基礎上，將權重衰減單獨處理，讓正則化效果更穩定，尤其在訓練 Transformer 等大模型時表現更好。

怎么選？

新手入門：優先用?Adam，適用范圍廣，調參簡單。
追求穩定性：用?SGD+Momentum，適合需要精細調優的場景。
訓練大模型：優先?AdamW，正則化效果更可靠。

可以簡單理解為：SGD 是 “步行”，Adam 是 “騎車”，AdamW 是 “更好的騎車”—— 后者更快更穩，但前者更基礎可控。

優化器選擇：

在 PyTorch 中選擇合適的優化器，需要結合模型特點、數據特性和訓練目標來綜合判斷。以下是通俗易懂的選擇方法和思路：

一、先明確核心需求

選擇優化器前，先問自己 3 個問題：

模型大小：是簡單模型（如線性回歸）還是復雜模型（如 Transformer、ResNet）？
數據情況：數據量大還是小？噪聲多還是少？
訓練目標：追求快速收斂？還是需要更穩定的結果？或是要避免過擬合？

二、按場景選擇優化器

1. 新手 / 通用場景：優先用 Adam

適用情況：不知道選什么時的 “萬能藥”，尤其適合：
- 中等規模模型（如普通 CNN、LSTM）
- 數據分布較復雜的任務（如圖像分類、文本分類）
- 希望快速看到訓練效果，不想調太多參數
優點：自帶自適應學習率，收斂快，對學習率不敏感（默認參數 often 能跑通）

2. 復雜大模型：選 AdamW

適用情況：訓練大型模型（如 BERT、GPT、深層 ResNet）
為什么：AdamW 修復了 Adam 中權重衰減（正則化）的設計缺陷，能更好地控制模型復雜度，避免過擬合。現在大模型訓練基本都用它（比如 Hugging Face 庫的默認優化器）。

3. 追求極致性能 / 穩定收斂：選 SGD+Momentum

適用情況：
- 簡單模型（如線性回歸、邏輯回歸）
- 需要精細調優的場景（如目標檢測中的邊框回歸）
- 數據量極大（百萬級以上樣本）
優點：
- 收斂到的結果可能比 Adam 更優（尤其在凸優化問題中）
- 內存占用小，適合大數據訓練
缺點：需要手動調學習率（通常配合學習率衰減策略），收斂速度較慢

4. 序列數據 / 遞歸模型：RMSprop 或 Adam

適用情況：處理文本、語音等序列數據（如 RNN、LSTM）
為什么：這類模型容易出現梯度爆炸 / 消失，RMSprop 和 Adam 通過自適應學習率能更好地穩定訓練

5. 特殊場景：其他優化器

Adagrad：適合稀疏數據（如文本中的詞向量），但現在很少用（學習率衰減太快）
Rprop：適合噪聲大的數據，但僅在特定科研場景使用
LBFGS：適合小批量、高精度的凸優化問題（如小規模線性模型），但不適合深度學習

三、實用技巧

先試簡單的：新手先用 Adam 跑通模型，再嘗試 AdamW 或 SGD 對比效果
關注學習率：
- Adam/AdamW 通常用 1e-3 ~ 1e-5
- SGD 通常用 1e-2 ~ 1e-4（需要配合更大的動量，如 0.9）
結合學習率調度器：無論選哪種優化器，搭配?StepLR?或?CosineAnnealingLR?等調度器，效果會更好
看文獻 / 開源項目：同類任務別人用什么優化器？比如目標檢測常用 SGD，NLP 常用 AdamW

總結

快速上手 / 通用場景 →?Adam
大模型 / 需要正則化 →?AdamW
簡單模型 / 大數據 / 精細調優 →?SGD+Momentum
序列數據 →?Adam 或 RMSprop

優化器沒有絕對的 “最好”，只有 “最合適”，建議多嘗試對比效果！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/95322.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/95322.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/95322.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

0903 C++類的運算符重載、靜態成員與繼承

0903 C++類的運算符重載、靜態成員與繼承

Part 1.梳理思維導圖一.運算符重載1.運算符重載的作用使原本只能對基本數據類型生效的運算符，在重載后，滿足可以對構造類型數據生效。2.關系運算符重載a.關系運算符種類> > < < !b.分析參數表達式…

閱讀更多...

Cloudflare安全規則實用指南：從路徑攔截到IP限制的10個經典范例

Cloudflare安全規則實用指南：從路徑攔截到IP限制的10個經典范例

前言：在Cloudflare的安全防護體系中，自定義規則是抵御特定威脅的“精準武器”。除了基礎的路徑攔截，日常運維中還有許多高頻場景需要針對性配置。本文將通過10個實用范例，帶你掌握Cloudflare規則的靈活用法，覆蓋路徑防…

閱讀更多...

數據結構（時空復雜度）

數據結構（時空復雜度）

目錄一、算法復雜度二、時間復雜度 1.不同時間度代碼舉例三、空間復雜度一、算法復雜度算法復雜度（評估算法優劣一個重要指標）分為時間復雜度和空間復雜度。時間復雜度是指執行算法所需要的計算工作量，而空間復雜度是指執行這個…

閱讀更多...

ESXI8多網卡鏈路聚合

ESXI8多網卡鏈路聚合

1. 背景測試服務器只有千兆網卡，增加上行帶寬，使用兩塊網卡做鏈路聚合。 2. 環境 VM ESXI 8.0 華為交換機 S5735S 3. 交換機配置負載均衡方式采用了src-dst-ipTrunk模式采用了手工負載分擔（測試了靜態LACP，未成功）4.…

閱讀更多...

從“人工驅動”到“AI協同”：良策金寶AI如何助力設計院數智化躍遷？

從“人工驅動”到“AI協同”：良策金寶AI如何助力設計院數智化躍遷？

在“雙碳”目標驅動下，電力工程項目的數量與復雜度持續攀升。設計院面臨“項目多、周期短、人力緊”的三重壓力，傳統的“人工驅動”模式已難以為繼。良策金寶AI，正是這場變革的核心引擎。它以AI驅動數智化服務，為工程設計企業提供…

閱讀更多...

vue3 vite 自適應方案

vue3 vite 自適應方案

兩種方案： 1 使用 postcss-pxtorem插件 npm install postcss-pxtorem autoprefixer --save-dev # 或 yarn add postcss-pxtorem autoprefixer -D 2、postcss-px-to-viewport npm install postcss-px-to-viewport --save-dev 或 yarn add postcss-px-to-viewport -D …

閱讀更多...

華為研發投資與管理實踐（IPD）讀書筆記

華為研發投資與管理實踐（IPD）讀書筆記

在全球科技產業競爭日趨激烈的背景下，企業研發管理早已告別 “依賴個體經驗、靠運氣突破” 的粗放時代，如何將研發創新從 “偶然成功” 轉化為 “可復制、可持續的必然成果”，成為所有追求長期競爭力的企業必須破解的命題。華為，作…

閱讀更多...

【LeetCode_283】移動零

【LeetCode_283】移動零

刷爆LeetCode系列LeetCode第283題：github地址前言題目描述題目與思路分析代碼實現算法代碼優化LeetCode第283題： github地址有夢想的電信狗前言本文用C實現 LeetCode 第283題題目描述題目鏈接：https://leetcode.cn/problems/move-z…

閱讀更多...

一文弄懂C/C++不定參數底層原理

一文弄懂C/C++不定參數底層原理

目錄一、C語言的可變參數：基于棧幀的手動讀取 （1）C函數調用的棧幀結構 （2）C 可變參數的 4 個核心宏：如何 “手動讀棧” （3）實戰代碼：用 C 可變參數實現求和函數 &a…

閱讀更多...

【Android】【設計模式】抽象工廠模式改造彈窗組件必知必會

【Android】【設計模式】抽象工廠模式改造彈窗組件必知必會

寫一個 Android 版本的抽象工廠彈窗 Manager 管理器，使用 DialogFragment 實現，這樣能更貼近真實的開發場景。結構設計抽象產品：BaseDialogFragment（繼承 DialogFragment）具體產品：LoginDialogFragment, …

閱讀更多...

Win64OpenSSL-3_5_2.exe【安裝步驟】

Win64OpenSSL-3_5_2.exe【安裝步驟】

官網下載注意：科學上網，可以加速下載速度！ Win32/Win64 OpenSSL Installer for Windows - Shining Light Productions 下載后得到：Win64OpenSSL-3_5_2.exe 雙擊安裝修改安裝路徑： 默認就選擇第一個。重要提醒?…

閱讀更多...

華為云云原生架構賦能：大騰智能加速業務創新步伐

華為云云原生架構賦能：大騰智能加速業務創新步伐

巨大的渦輪、細小的螺絲，一臺航天飛機發動機的三維模型呈現在屏幕上，遠程同事同步協作，一臺復雜設備在工程師高效的協同中不斷完善。深圳市大騰信息技術有限公司，正是這場工業變革的推動者之一。大騰智能以“云原生工業”的融合為…

閱讀更多...

基于https+域名的Frp內網穿透教程(Linux+Nginx反向代理)

基于https+域名的Frp內網穿透教程(Linux+Nginx反向代理)

系列文章目錄基于http公網ip的Frp內網穿透教程(win server) 基于http域名的Frp內網穿透教程(win serverIIS反向代理) 基于http公網ip的Frp內網穿透教程(Linux) 基于https域名的Frp內網穿透教程(LinuxNginx反向代理) 目錄系列文章目錄前言一、Frp是什么？ 1. …

閱讀更多...

裸機程序（1）

裸機程序（1）

一、裸機裸機是一個在計算機硬件與軟件開發領域高頻出現的概念，核心定義是 “未安裝操作系統（OS），僅包含硬件本身（或僅運行最底層硬件驅動 / 控制程序）的設備”。在電腦中，裸機會映射代碼到cpu&…

閱讀更多...

95%企業AI失敗？揭秘LangGraph+OceanBase融合數據層如何破局！?

95%企業AI失敗？揭秘LangGraph+OceanBase融合數據層如何破局！?

本文較長，建議點贊收藏，以免遺失。更多AI大模型應用開發學習視頻及資料，盡在聚客AI學院。不知道你們有沒有遇到過，在我們一些實際落地的AI項目中，雖然前期“Demo 很驚艷，但上線后卻無人問津”。你們有沒有想…

閱讀更多...

樹莓集團產教融合：數字學院踐行職業教育“實體化運營”要求

樹莓集團產教融合：數字學院踐行職業教育“實體化運營”要求

在職業教育改革不斷深化的背景下，“實體化運營” 成為推動職業教育高質量發展的重要方向。樹莓集團積極響應這一要求，以產教融合為核心，打造數字學院，切實踐行職業教育 “實體化運營”，為培養高素質數字領域專業人才探…

閱讀更多...

ELK 統一日志分析系統部署與實踐指南（上）

ELK 統一日志分析系統部署與實踐指南（上）

#作者：張桐瑞文章目錄1 ELK 技術棧概述1.1ELK 核心組件詳解1.2 ELK 工作流程2 ELK部署2.1 環境描述2.1.7 配置es集群下篇：《ELK 統一日志分析系統部署與實踐指南（下）》鏈接: [https://blog.csdn.net/qq_40477248/article/detail…

閱讀更多...

上位機知識篇---poweshellcmd

上位機知識篇---poweshellcmd

要理解 PowerShell 和 CMD 的區別，我們可以先打個通俗的比方：CMD 像老式功能機，只能干打電話、發短信這些 “基礎活”；而 PowerShell 像智能手機，不僅能做基礎操作，還能裝 APP、玩復雜功能，甚至…

閱讀更多...

利用 Python 繪制環形熱力圖

利用 Python 繪制環形熱力圖

暑假伊始，Coldrain 參加了學校舉辦的數模集訓，集訓的過程中，遇到了需要展示 59 個特征與 15 個指標之間的相關性的情況，在常用的圖表不大合適的情況下，學到了一些厲害的圖表，但是似乎千篇一律都是用 R 語言…

閱讀更多...

【序列晉升】27 Spring Cloud Sleuth給分布式系統裝上透視鏡

【序列晉升】27 Spring Cloud Sleuth給分布式系統裝上透視鏡

Spring Cloud Sleuth作為微服務架構中的核心監控組件，通過輕量級的無侵入式跟蹤機制，解決了分布式系統中請求路徑復雜、問題定位困難的痛點。它自動為每個服務請求創建唯一的Trace ID，并為每個服務間調用生成Span ID，形成完整的調…

閱讀更多...

最新文章