深度學習-梯度下降算法-NLP(五)

梯度下降算法

  • 深度學習中梯度下降算法簡介
    • 找極小值問題
      • 數學上求最小值
      • 梯度
      • 梯度下降算法
    • 找極小值問題在深度學習流程中
      • 深度學習整體流程圖
      • 求解損失函數的目標
      • 權重的更新

深度學習中梯度下降算法簡介

找極小值問題

引子: 我們訓練一個人工智能模型,簡單點說,就是根據數據,調整模型的參數,使模型預測的值和我們數據的值一樣。但一開始肯定不一樣,所以我們引入損失函數,用它來計算,還差多少;差多少我們求出來,我們怎么調整原有模型里面的參數呢?

哎! 調整原有模型的參數目的就是為了使得預測的值和要求值一樣嘛,是不是求一個模型參數可以使得計算出的預測值和要求值之間的差距最小呢?===》這就是找極小值問題

所以本質上就是求損失函數的極小值。

數學上求最小值

在這里插入圖片描述
拆解示意:
目標: 找到合適的x值,使得f(x)最小。
邏輯

1.任取一點x0,計算在這一點的導數值f(x0)
2.根據導數的正負,決定x0應當調大還是調小;導數為正,那么就調小x;因為增大,y也會增大;導數為負,增大x
3.迭代進行1,2步直到導數為0;或者導數變號了。
什么情況下導數為變號?
那就函數的值,之前在減小,現在在增大了,所以導數就會編號,那么最小值就在其中(救贖之道,就在其中)

梯度

梯度: 可以直接理解就是導數,只是在深度學習中,通常不是一個導數,即對多元函數進去求導。
在這里插入圖片描述
舉個例子:
一元函數:

原函數:y=5x^2
導函數:y= 10x
即在x=1時,導數值為10

多元函數

三元函數:y=2x^2 + 6z^2 + 7m^3
導函數(即對三個未知數進行偏導求解):y={4x,12z,21m^2}
在[1,1,1]處的梯度為[4,12,21];并且梯度是個向量

都是對函數進行求導,可以用導數去理解梯度

梯度下降算法

釋義: 梯度下降算法就是計算出模型在輸入數據的梯度,然后通過學習率對模型原有的權重參數進行更新的一個邏輯,其中使用的算法有多類,我們會介紹到
在這里插入圖片描述

找極小值問題在深度學習流程中

深度學習整體流程圖

如下示意圖即為深度學習的流程圖,其中找極小值問題價值就對應著損失函數–>優化器–>模型
在這里插入圖片描述

求解損失函數的目標

1.損失函數越小,模型越好
2.學習的目標就是損失函數最小化
3.模型的權重影響損失函數
4.通過梯度下降來找最優權重

權重的更新

更新的邏輯

1.根據輸入的x與模型當前的權重,計算預測值y1
2.根據y1和y使用loss函數算計loss
3.根據loss計算模型的權重的梯度
4.使用梯度和學習率,根據優化器來調整模型的權重

更新的方式:

1.所有的樣本一起計算梯度(累加)Gradient descent
2.每次使用一個樣本計算梯度 Stochastic gradient descent
3.每次使用n個樣本計算梯度(累加)Mini-batch gradient descent

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/42073.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/42073.shtml
英文地址,請注明出處:http://en.pswp.cn/web/42073.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

磁致伸縮液位計原理和特點

工作原理 磁致伸縮液位計的工作原理基于磁性材料在外部磁場作用下的尺寸變化來進行液位測量。該液位計主要由電子變送器、浮球(浮子)、探測桿(測桿)三部分組成。在磁致伸縮液位計的傳感器測桿外配有一浮子,此浮子可以…

【SpringCloud應用框架】Nacos服務配置中心

第四章 Spring Cloud Alibaba Nacos之服務配置中心 文章目錄 一、基礎配置二、新建子項目1.pom文件2.YML配置3.啟動類4.業務類5.Nacos配置規則 三、Nacos平臺創建配置操作四、自動配置更新五、測試 一、基礎配置 Nacos不僅僅可以作為注冊中心來使用,同時它支持作為…

【環境準備】 Vue環境搭建

文章目錄 前言vue-cli 安裝創建項目3.0、以下3.0 、以上 前言 書接上回《NodeJs(壓縮包版本)安裝與配置》,安裝完了NodeJs,接下來就要配置vue的環境了。 vue-cli 安裝 安裝vue-cli輸入如下命令 #(安裝的是最新版) npm install …

觀察者模式(Observer Pattern)

觀察者模式(Observer Pattern) 定義 觀察者模式定義了一種一對多的依賴關系,讓多個觀察者對象同時監聽某一個主題對象。這個主題對象在狀態發生變化時,會通知所有觀察者對象,使它們能夠自動更新自己。別名&#xff1…

鼠標宏怎么設置?6款鼠標自動點擊器強推,游戲玩家專用!(2024全)

隨著電子游戲和日常應用的不斷發展,我們經常會遇到一些重復性的任務或操作。而在這種情況下,鼠標宏以其自動化的特點成為了許多玩家和使用者的利器之一。如果你正在尋找如何設置鼠標宏來簡化操作并提高效率,那么你來對地方了。在本文中&#…

【Java]認識泛型

包裝類 在Java中,由于基本類型不是繼承自Object,為了在泛型代碼中可以支持基本類型,Java給每個基本類型都對應了一個包裝類型。 除了 Integer 和 Character, 其余基本類型的包裝類都是首字母大寫。 泛型 泛型是在JDK1.5引入的…

ASAN排查程序中內存問題使用總結

簡介 谷歌有一系列Sanitizer工具,可用于排查程序中內存相關的問題。常用的Sanitizer工具包括: Address Sanitizer(ASan):用于檢測內存使用錯誤。Leak Sanitizer(LSan):用于檢測內存…

【9-2:RPC設計】

RPC 1. 基礎1.1 定義&特點1.2 具體實現框架1.3 應用場景2. RPC的關鍵技術點&一次調用rpc流程2.1 RPC流程流程兩個網絡模塊如何連接的呢?其它特性RPC優勢2.2 序列化技術序列化方式PRC如何選擇序列化框架考慮因素2.3 應用層的通信協議-http什么是IO操作系統的IO模型有哪…

數據結構第14節 加權圖

加權圖是在圖論中一種更為復雜的圖結構,它擴展了無向圖和有向圖的概念,通過給圖中的邊附加一個數值來表示邊的某種屬性,如成本、距離、容量或相似度等。這個數值被稱為邊的“權重”。 定義 加權圖可以被形式化地定義為一個三元組 ( G (V, …

Vortex GPGPU的硬件設計和代碼結構分析

文章目錄 前言一、GPGPU是什么?1.1 GPU和GPGPU之間的差異1.2 GPU和CPU之間的集成方式1.3 GPU包含什么(列舉和VMIPS向量體系結構的差異) 二、Vortex GPGPU是什么?2.1 Vortex GPGPU的技術邊界和驗證環境2.2 Vortex GPGPU的指令集設計…

安卓穩定性之crash詳解

目錄 前言一、Crash 的基本原理二、Crash 分析思路三、實例分析四、預防措施五、參考鏈接 前言 在開發和測試 Android 應用程序時,遇到應用程序崩潰是很常見的情況。 Android 崩潰指的是應用程序因為異常或錯誤而無法正常執行,并且導致應用強制關閉。 一…

p11函數和遞歸

遞歸與迭代 求n的階乘。&#xff08;不考慮溢出&#xff09; int Fac1(int n) {int i0;int ret1;for(i1;i<n;i){ret*i;}return ret; } int main(){//求n的階乘int n0;int ret0;scanf("%d",&n);retFac1(n);printf("%d\n",ret);return 0; } int Fac…

什么是激光導航和視覺導航技術

激光導航和視覺導航技術是現代導航系統中的兩種重要技術&#xff0c;它們在多個領域&#xff0c;如掃地機器人、無人機、機器人導航等中都有廣泛應用。以下是對這兩種技術的詳細介紹&#xff1a; 一、激光導航技術 1. 定義與原理 激光導航技術是一種利用激光束進行精確測量和…

ChatGPT:||是短路運算符,那么|、、是什么?

ChatGPT&#xff1a;||是短路運算符&#xff0c;那么|、&、&&是什么? 在Java中&#xff0c;邏輯運算符&&和||是短路邏輯運算符&#xff0c;而&和|是非短路邏輯運算符。 && 和 || 是短路邏輯運算符。當使用這些運算符時&#xff0c;如果第一個…

解決 Docker 容器鏡像拉取難題:全面指南

一、引言 在使用 Docker 容器的過程中&#xff0c;經常會遇到鏡像拉取慢甚至無法下載的問題&#xff0c;這給開發和部署工作帶來了不小的困擾。本文將深入探討這一問題的原因&#xff0c;并提供多種有效的解決方案。 二、問題原因分析 網絡限制 本地網絡帶寬不足或存在網絡擁…

unity知識點 專項四 一文徹底說清楚(錨點(anchor)、中心點(pivot)、位置(position)之間的關系)

一 概述 想要使UI控件在屏幕中達到正確的顯示效果&#xff0c;比如自適應屏幕尺寸、固定邊距等等&#xff0c;首先要理清楚幾個基本概念和設置&#xff1a;錨點(anchor)、中心點(pivot)、位置(position)、UI縮放模式、父物件的transform設置 二 Anchor、Pivot與Position 2…

網絡連接線相關問題

問題1&#xff1b; 直通線為什么兩頭都是T568B&#xff1f;是否可以兩臺T5568A&#xff1f;或者任意線序&#xff0c;只需兩頭一致&#xff1f; 不行&#xff0c;施工規范規定。&#xff08;原因&#xff1b;網線最長距離100m&#xff0c;實際用起來要把網線包管&#xff0c;走…

【分布式系統】Filebeat+Kafka+ELK 的服務部署

目錄 一.實驗準備 二.配置部署 Filebeat 三.配置Logstash 四.驗證 一.實驗準備 結合之前的博客中的實驗 主機名ip地址主要軟件es01192.168.80.101ElasticSearches02192.168.80.102ElasticSearches03192.168.80.103ElasticSearch、Kibananginx01192.168.80.104nginx、Logs…

iperf3: error - unable to connect to server: No route to host

1.確認iperf3版本是否統一。 2.確認防火墻是否關閉。 關閉防火墻 : systemctl stop firewalld 查看防火墻狀態: systemctl status firewalld 3.重新建起鏈接

Java進階----接口interface

接口 接口概述 接口是一種規范&#xff0c;使用接口就代表著要在程序中制定規范. 制定規范可以給不同類型的事物定義功能&#xff0c;例如&#xff1a; 利用接口&#xff0c;給飛機、小鳥制定飛行規范&#xff0c;讓其都具備飛行的功能&#xff1b;利用接口&#xff0c;給鼠…