【機器學習】梯度下降

文章目錄

    • 1. 梯度下降概念
    • 2. 梯度下降的技巧
      • 2.1 動態設置學習率
      • 2.2 Adagrad調整梯度
      • 2.3 隨機梯度下降(SGD)
      • 2.4 特征縮放
    • 3. 梯度下降理論基礎

1. 梯度下降概念

  • 梯度:Loss 對參數在某一點的偏微分,函數沿梯度的方向具有最大的變化率
  • 梯度下降:從某點出發,計算該點梯度,以一定的學習率沿著該梯度的反方向移動,直到梯度接近 0
  • 公式: w t + 1 = w t ? η d L d w w_{t+1} = w_t - \eta \frac{dL}{dw} wt+1?=wt??ηdwdL?

2. 梯度下降的技巧

2.1 動態設置學習率

  • 原理:離終端越遠,學習率越大;離終點越近,學習率越小。
  • 公式: η t = η t \eta_t = \frac{\eta}{\sqrt{t}} ηt?=t ?η?
    其中,t 是迭代次數。

2.2 Adagrad調整梯度

  • 原理:

    • 梯度大的時候,調正的步伐不一定要大,要綜合考慮到二階導數的影響。
    • 通過參數的歷史信息來調整學習率。
  • 使用 Adagrad 方法更新參數的公式:

    • η t σ t = η ∑ i = 1 t ( g i ) 2 \frac{\eta^t}{\sigma^t} = \frac{\eta}{\sqrt{\sum_{i=1}^{t} (g^i)^2}} σtηt?=i=1t?(gi)2 ?η?
    • w t + 1 = w t ? η t σ t g t w^{t+1} = w^t - \frac{\eta^t}{\sigma^t} g^t wt+1=wt?σtηt?gt

    其中: σ t \sigma^t σt 是梯度平方的累加和(即歷史梯度的平方和的平方根)。

  • 總結:化簡后,分子是一階導數,分母其實是反應二階導數的影響

2.3 隨機梯度下降(SGD)

  • 概念:不考慮所有樣本,每次隨機選取某個或某些樣本點來做梯度下降更新參數。
  • 作用:
    • 訓練更迅速,結果也不會太差。
    • 可能受到某些樣本的影響,導致不精確。

2.4 特征縮放

  • 概念:將不同的輸入特征統一縮放到相同的范圍或分布。

特征歸一化

  • 公式: x ′ = x ? min ? ( x ) max ? ( x ) ? min ? ( x ) x' = \frac{x - \min(x)}{\max(x) - \min(x)} x=max(x)?min(x)x?min(x)?
  • 將數據統一到特定的范圍,避免某些極端數據的影響。

特征標準化

  • 公式: x ′ = x ? μ σ x' = \frac{x - \mu}{\sigma} x=σx?μ?
    其中:

    • μ \mu μ 是特征的均值。
    • σ \sigma σ 是特征的標準差。
  • 效果:

    • 數據更符合正態分布,處理后的特征均值為 0,標準差為 1。
    • 減少特征間方差的差異,幫助加速收斂。

特征縮放的優點

  • 未處理之前:

    • Loss 是一個橢圓,每次更新沿著等高線(梯度)方向走,不是往圓心(最低點)走。
    • 如果不使用 Adagrad,可能很難得到好的結果。
  • 處理之后:

    • Loss 是一個圓,每次更新都往圓心(最低點)走,容易訓練。
    • 有助于模型訓練和加快收斂速度。

3. 梯度下降理論基礎

泰勒級數近似

  • 理論:
    • 移動方向與梯度(偏導)方向相反時,內積最小。
    • 發現附近以 $\theta $ 半徑圈的最小值,移動到那里。

使用前提

  • Loss function 必須是無限可微的。
  • 附近圈小,可以忽略高次項,意味著學習率要足夠小。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/64473.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/64473.shtml
英文地址,請注明出處:http://en.pswp.cn/web/64473.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數據庫在大數據領域的探索與實踐:動態存儲與查詢優化

在大數據時代,數據庫的靈活性與高效性成為數據存儲與分析的重要基石。從關系型數據庫到 NoSQL 數據庫的演進,開發者逐漸可以在結構化與非結構化數據間找到平衡。本文將聚焦大數據場景下的數據庫實踐,尤其是如何動態存儲與查詢復雜數據&#x…

【Python科研數據爬蟲】基于國家標準查詢平臺和能源標準化信息平臺的海上風電相關行業標準查詢信息爬取及處理

基于國家標準查詢平臺和能源標準化信息平臺的海上風電相關行業標準查詢信息爬取及處理 1 背景2 標準檢索平臺2.1 能源標準化信息平臺2.2 全國標準信息公共服務平臺3 標準信息數據的爬取與處理3.1 能源標準化信息平臺的信息爬取3.2 全國標準信息公共服務平臺的信息爬取3.3 標準信…

AWS Certified AI Practitioner 自學考試心得

學習目標: 考取 AWS Certified AI Practitioner 那什么是 AWS Certified AI Practitioner 認證 是基礎級的認證 比較簡單 — 學習內容: 1. AWS網站自學網站 極客時間免費課程:http://gk.link/a/12sJL 配合極客時間課程的章節測試檢驗自…

Ngnix介紹、安裝、實戰及用法!!!

一、Nginx簡介 1、Nginx概述 Nginx (“engine x”) 是一個高性能的 HTTP 和 反向代理服務器,特點是占有內存少,并發能力強,能經受高負載的考驗,有報告表明能支持高達 50,000 個并發連接數 。 2、正向代理 正向代理:如果把局…

05.HTTPS的實現原理-HTTPS的握手流程(TLS1.2)

05.HTTPS的實現原理-HTTPS的握手流程(TLS1.2) 簡介1. TLS握手過程概述2. TLS握手過程細化3. 主密鑰(對稱密鑰)生成過程4. 密碼規范變更 簡介 主要講述了混合加密流程完成后,客戶端和服務器如何共同獲得相同的對稱密鑰…

YOLO11全解析:從原理到實戰,全流程體驗下一代目標檢測

前言 一、模型介紹 二、網絡結構 1.主干網絡(Backbone) 2.頸部網絡(Neck) 3.頭部網絡(Head) 三、算法改進 1.增強的特征提取 2.優化的效率和速度 3.更高的準確性與更少的參數 4.環境適應性強 5.…

C++ 與 Python(靜態類型語言與動態語言)

C 與 Python(靜態類型語言與動態語言) 一、說明 Python和C到底有啥區別?在使用的時候有啥特殊的益處?這種問題的意義在于:如果對語言了解越清楚,越能夠更加大膽地應用哪些極限功能,從而最大限…

Jenkins 構建流水線

在 Linux 系統上安裝 Jenkins 服務,以及配置自動化構建項目 前置準備環境:docker、docker-compose、jdk、maven 一、環境搭建 1. Jenkins 安裝 (1)拉取鏡像 # 安裝鏡像包,默認安裝最新版本 docker pull jenkins/jen…

【Java】面試題 并發安全 (1)

文章目錄 synchronized1. 基本概念與作用2. 使用方式3. 底層原理(基于monitor)4. 面試題回答要點5. 注意事項與進階理解 Java中synchronized鎖相關知識總結Java內存模型(JMM)CAS概述及重要性volatile關鍵字AQS簡介 synchronized …

前端項目 npm報錯解決記錄

1.首先嘗試解決思路 npm報錯就切換yarn , yarn報錯就先切換npm刪除 node_modules 跟 package-lock.json文件重新下載依 2. 報錯信息: Module build failed: Error: Missing binding D:\vue-element-admin\node_modules\node-sass\vendor\win32-x64-8…

深度學習中batch_size

Batch size調整和epoch/iteration的關系 訓練數據集總共有1000個樣本。若batch_size10,那么訓練完全體樣本集需要100次迭代,1次epoch。 訓練樣本10000條,batchsize設置為20,將所有的訓練樣本在同一個模型中訓練5遍,則…

Redis 數據類型全解析:基礎與進階應用場景

前言:Redis 是一個高性能的內存數據庫,支持多種數據類型,能夠高效處理各種場景的數據存儲和操作。 以下是Redis數據類型的數據結構及其應用場景的詳細說明: 基礎數據類型 1. 字符串 (String) 底層數據結構 Simple Dynamic Stri…

評分模型在路網通勤習慣分析中的應用——提出問題(1)

1、問題的由來、目標和意義 最近一段時間和公司其它業務部門討論時,發現一個有趣的交通路網問題,車輛從S點行駛到V點共用時40分鐘,這段時間內路網中的卡口攝像頭識別到了車輛通過的信息。如下圖所示: 設計師需要通過這些有限的路…

leetcode 面試經典 150 題:刪除有序數組中的重復項

鏈接刪除有序數組中的重復項題序號26題型數組解題方法雙指針難度簡單熟練度????? 題目 給你一個 非嚴格遞增排列 的數組 nums ,請你 原地 刪除重復出現的元素,使每個元素 只出現一次 ,返回刪除后數組的新長度。元素的 相對順序 應該保…

提升生產力工具

VSCODE插件 干貨:用好這13款VSCode插件,工作效率提升10倍 - 程序員檸檬 - 博客園 Sourcetrail Sourcetrail 是一個開源且免費的源碼閱讀工具,以其強大的代碼導航、可視化及跨平臺支持特性,成為開發者理解復雜代碼庫的得力助手。…

什么是 Git Hooks?

在團隊開發中,當成員提交代碼的描述信息不符合約定提交規范的時候,需要阻止當前的提交,而要實現這個目的,我們就需要先來了解一個概念,叫做 Git hooks,即Git 在執行某個事件之前或之后進行一些其他額外的操…

Go語言方法和接收器類型詳解

Go語言方法和接收器類型詳解 1. 方法接收器類型 1.1 值接收器 值接收器方法不會改變接收器的狀態,因為Go語言會在調用時復制接收器的值。因此,任何對接收器成員變量的修改都只會影響副本,而不會影響原始結構體實例。 type Person struct …

MS SQL Server 實戰 排查多列之間的值是否重復

目錄 需求 范例運行環境 數據樣本設計 功能實現 上傳EXCEL文件到數據庫 SQL語句 小結 需求 在日常的應用中,排查列重復記錄是經常遇到的一個問題,但某些需求下,需要我們排查一組列之間是否有重復值的情況。比如我們有一組題庫數據&am…

抖去推碰一碰系統技術源碼/open SDK轉發技術開發

抖去推碰一碰系統技術源碼/open SDK轉發技術開發 碰一碰智能系統#碰碰卡系統#碰一碰系統#碰一碰系統技術源頭開發 碰碰卡智能營銷系統開發是一種集成了人工智能和NFC技術的工具,碰碰卡智能營銷系統通過整合數據分析、客戶關系管理、自動化營銷活動、多渠道整合和個…

redis優化

在高并發、高性能、高可用系統中,Redis 的優化至關重要。以下是一些在面試中可以詳細說明的 Redis 優化策略,以及具體的實踐經驗和技術亮點: 1. 數據模型與結構設計優化 使用合適的數據結構 :根據業務需求選擇合適的 Redis 數據結…