毫米波雷達深度學習技術-1.7訓練一個神經網絡

1.7 訓練一個神經網絡

?????? 對于訓練神經網絡,有兩個步驟,即前向傳遞和誤差反向傳播。

1.7.1 前向傳播和反向傳播

?????? 在前向傳遞中,輸入被饋送到模型并與權重向量相乘,并為每一層添加偏差以計算模型的輸出。密集層或全連接層第l層的輸入、 激活函數和輸出表示如下:

(1.57)

?????? 其中N表示第l層的神經元數量,是第l層任務需要學習的權重,σ()是激活函數

?????? 反向傳播如下所述。考慮一個樣本,其輸入和預期輸出和實際輸出,因此一個樣本的誤差為?,其中是權重的函數。使用梯度下降算法更新權重以最小化誤差,可以表示如下:

(1.58)

?????? 在式(1.58),可計算如下:

(1.59)

?????? 其中,

?????? 由于的函數,因此可以推導出

(1.60)

(1.61)

?????? 這是在前饋步驟中計算的。

?????? 因此,把它們放在一起給了我們:

(1.62)

?????? 神經網絡訓練過程中的一些重要方面如下:

?????? 1.學習率:每次權重更新都由參數 λ 控制,稱為學習率參數。如果學習率太小,那么可能會導致學習速度非常慢,很容易被困在局部最小值中,并且可以持續運行多次迭代。另一方面,如果學習率很大,那么它可能會越過最小值,可能無法收斂,并可能發散。因此,根據架構、數據集、傳遞函數等選擇良好的學習率非常重要。圖1.18說明了選擇小學習率和大學習率對梯度下降的影響。

圖1.18 (a)學習率小和(b)學習率大時梯度下降的圖示。

?????? 2. 權重初始化:在初始化過程中隨機化權重很重要;否則,權重的對稱性會阻止網絡學習。通常,使用小的隨機值,這在層中的神經元數量增長時非常重要,因為加權和可能會使優化函數飽和。

?????? 3. 過擬合和欠擬合:在機器學習中,目標不僅是最小化樣本內數據(即可用或可見的數據)的成本函數,而且還要對樣本外數據(即訓練期間不可用或不可見的數據)進行泛化。在訓練過程中,可用的數據集分為訓練集、驗證集和測試集。訓練數據集用于訓練模型,驗證數據集用于設置模型的超參數,測試數據集用于估計樣本外或泛化精度。

?????? 當訓練數據的性能較差時,可以將其視為欠擬合,通常是由于學習率選擇不當或神經網絡維度不足。此錯誤稱為“偏差”。圖1.19的左列說明了欠擬合問題。當訓練數據的性能良好(即近似精度好),但測試或驗證數據性能差(即泛化精度差)時,就會出現過擬合問題。這種現象也稱為“方差”,如圖1.19的右欄所示。如果訓練集大小不足或模型復雜度對于數據來說太高,則模型可以很好地記住或近似訓練數據,但不能很好地泛化測試數據,即過度擬合。訓練機器學習模型的目的是找到一個如圖 1.19 中間列所示的模型,其中訓練誤差(偏差)和泛化誤差(方差)最小化。通常,訓練會找到一個模型,以便在偏差和方差之間實現平衡,通常被稱為“偏差-方差”權衡。在深度學習的情況下,“偏差-方差”權衡不適用,因為有單獨的機制來減少偏差和方差,因此權衡不容易適用。

圖1.19 模型欠擬合和過擬合的圖示。

?????? 4. 維度的詛咒:機器學習的另一個關鍵方面是維度的詛咒。維度的詛咒與過擬合密切相關。在高維空間中,大多數訓練數據都位于定義特征空間的超立方體的角落。特征空間角落中的實例比超活躍球體質心周圍的實例更難分類。因此,隨著特征或維度數量的增加,我們需要準確泛化的數據量也呈指數級增長。

1.7.2 優化器

?????? 優化器是幫助改變模型的權重和偏差的方法,以便將損失函數最小化。對標準隨機梯度下降 (SGD) 算法提出了一些修改,即,其中)?分別表示損失函數及其導數。表示更新步驟后和之前的權重,λ表示學習率。以下是改進標準 SGD 的優化器列表:

?????? 1. 動量:它加速SGD朝向相關方向,同時減少振蕩。它基本上是將先前權重更新的一部分添加到當前更新向量中,從而確保在一定程度上保留先前更新的方向,同時使用當前更新梯度來微調最終更新方向。動量引入了另一個變量,可以表示如下

(1.63)

?????? 2. Nesterov 加速梯度 [45]:雖然動量有助于降低噪聲并加速收斂,但它也會引入誤差。在Nesterov加速梯度中,通過將先前的權重更新的一部分包含在當前更新向量中以執行權重更新來解決此問題,其表示如下:

(1.64)

?????? γ的典型值 = 0.9。

?????? 3. Adagrad [46]:Adagrad 的動機是每個參數都有一個自適應學習率;然而,早期的方法具有固定的學習率。Adagrad 確保依賴于迭代的隱藏層的不同神經元具有不同的學習率。其背后的直覺是,對于不頻繁的參數,應該進行較大的更新,而對于頻繁的參數,應該進行較小的更新。對于每次權重更新,學習率調整如下:

(1.65)

?????? 由于梯度的平方和不斷增長,因此自適應地會導致較小的學習率。參數ε有助于避免除以零的問題。

?????? 4. RMSprop [47]:Adagrad 的一個問題是,在DNN中經過幾次迭代后,學習速率變得非常小,從而導致死神經元問題,并導致這些神經元沒有更新。RMSprop 修復了此問題,即使在多次參數更新后,學習也可以繼續。在RMSprop 中,學習率是梯度的指數平均值,而不是像 Adagrad 中那樣的梯度平方和的累積和。通過將梯度累積限制在某個過去來計算每個權重的平方梯度的移動平均值,可以表示如下:

?(1.66)

?????? 5. Adadelta [48]:Adadelta 是對 Adagrad 的另一項改進,可在多次參數更新后繼續學習。但 Adadelta 的計算成本很高。在這里,梯度累積僅限于某個過去的更新,方法是計算每個權重參數的平方梯度和參數更新的移動平均值,如下所示:

(1.67)

?????? 6. 自適應矩估計(ADAM)[49]:Adam 優化器是當今最流行和使用最廣泛的優化器之一。它既存儲類似于動量的過去梯度的衰減平均值,也存儲過去平方梯度的衰減平均值,類似于 RMSprop和Adadelta。ADAM可以表示為以下等式,其中動量通過使用第一和第二矩添加到RMSprop中,即梯度的平均值和方差

(1.68)

?????? 其中β1和β2是梯度均值和方差的移動平均實現中的遺忘因子。Adam易于實現且計算效率高,并且由于移動平均實現,需要的內存更少

1.7.3 損失函數

?????? 神經網絡被表述為一個優化問題。候選解,即網絡的權重,應最小化或最大化給定目標函數的分數。

?????? 在回歸問題的情況下,目標是預測一個實值量。在這種情況下,在輸出層使用線性激活單元,并使用 MSE 作為損失函數。回歸的均方損失如下:

(1.69)

?????? 其中y和?分別是神經網絡的真實值和預測值。

?????? 對于分類問題建模,其思路是將輸入變量映射到類標簽,這意味著目標是預測示例屬于特定類的概率。在最大似然估計下,網絡的訓練試圖找到一組模型權重,以最小化模型給定數據集的預測概率分布與訓練數據集中概率分布之間的差異。這稱為CE損失,在二元分類的情況下,在輸出端配置為sigmoid激活,而對于多類分類,在輸出端使用 softmax 激活。在這兩種情況下,問題都表述為預測屬于特定類的給定輸入的最大可能性

?????? 二元分類的二元CE損失如下:

(1.70)

?????? 其中p是類1的概率,1?p 是類0的概率,?是神經網絡的預測概率。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/38716.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/38716.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/38716.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SQL面試題練習 —— 查詢前2大和前2小用戶并有序拼接

目錄 1 題目2 建表語句3 題解 1 題目 有用戶賬戶表,包含年份,用戶id和值,請按照年份分組,取出值前兩小和前兩大對應的用戶id,需要保持值最小和最大的用戶id排首位。 樣例數據 ------------------------- | year | user_id | v…

網絡基礎-RIP協議

RIP(Routing Information Protocol)是一個基于距離矢量的動態路由協議,常用于小型到中型網絡。RIP是較早的路由協議之一,具有簡單易用的特點。以下是關于RIP協議的詳細介紹: RIP的主要特點 ①使用跳數(ho…

非標設備行業的數智化項目管理

近年來,中國制造快速發展,企業迫切需要加快轉型升級。與傳統制造業相比,高端制造業具有明顯的優勢:高技術、高附加值、低污染、低排放、競爭優勢強。一方面,企業對于生產效率和自動化水平的要求不斷提高,期…

開發個人OpenUI--1 項目介紹

開發個人OpenUI--1 項目介紹 開發個人OpenUI--1 項目介紹知識點大綱文章目錄項目地址 開發個人OpenUI–1 項目介紹 本文將以一個使用Ollama部署的ChatGPT為背景,主要還是介紹和學習使用 go-zero 框架,開發個人OpenUI的服務器后端,使用Docker…

武漢星起航:成功掛牌上股交,領航亞馬遜跨境電商,共創未來輝煌

在全球電商的競爭格局中,亞馬遜憑借其卓越的服務、豐富的商品種類和高效的物流體系,始終穩坐全球電商市場的頭把交椅。而在這股不可阻擋的電商浪潮中,武漢星起航電子商務有限公司憑借其前瞻性的戰略布局和強大的運營能力,成功在20…

名企面試必問30題(十二)——簡單介紹一下你的家庭情況

1.思路 對于面試官來說,他提出這個問題,只是為了深挖您的性格、穩定性、行事風格,包括未來定居規劃、生育規劃等基礎信息,這是正常情況。您不要過多圍繞其他家庭成員來講,否則面試官無法獲取他想要的,您也難…

【單片機畢業設計選題24040】-基于STM32的藍牙防丟器設計

系統功能: 系統上電后顯示“歡迎使用藍牙防丟系統請稍后”兩秒鐘顯示正常界面,如果藍牙正常連接OLED顯示Connected, 藍牙未連接則顯示DisConnected同時蜂鳴器報警 藍牙正常連接后在APP上每隔三秒顯示一個Connected 系統功能框圖: 主要功能模塊原理圖: 電源時鐘…

大數據之Zookeeper部署

文章目錄 集群規劃環境準備集群部署參考資料 集群規劃 確定使用Hadoop101、hadoop102和hadoop103三臺服務器來構建Zookeeper集群。 hadoop101hadoop102hadoop103zookeeperzookeeperzookeeper 環境準備 安裝zookeeper前需要確保下面的環境配置成功,具體可以參考大…

AI智能剪輯發展到哪種地步?來看看云微客就知道了!

不是短視頻團隊招不起,而是矩陣賬號更有性價比。企業做短視頻有反思過為什么干不過同行嗎?我們來看看大佬是怎么做的。云微客AI智能剪輯系統用幾百個賬號做矩陣布局,系統每天自動進行批量剪視頻、寫文案、一鍵自動化發布視頻,一個…

[漏洞復現] MetInfo5.0.4文件包含漏洞

[漏洞復現] MetInfo5.0.4文件包含漏洞 MetInfo5.0.4 漏洞代碼審計 漏洞出現在about/index.php中,因為利用了動態地址,所以存在漏洞。 漏洞檢查語句(!192.168.109.100是我的服務器ip,需要換成自己的)&…

華為倉頡語言體驗:一個簡單的socket服務端實現

前言 由于倉頡目前是內測狀態, 不能展示倉頡的詳細信息,但是華為倉頡官網的公共文檔的內容是可以公開的。 我相信有不少喜歡編程的朋友都申請了內測,但是一些編程初學者應該和我一樣,處于摸索階段。所以,我這里把我測…

排序題目:多數元素 II

文章目錄 題目標題和出處難度題目描述要求示例數據范圍進階 前言解法一思路和算法代碼復雜度分析 解法二思路和算法代碼復雜度分析 解法三思路和算法代碼復雜度分析 題目 標題和出處 標題:多數元素 II 出處:229. 多數元素 II 難度 3 級 題目描述 …

css高度0到高度auto,過渡的設置

1.css從高度0到高度auto,過渡設置 方法(vue代碼) 你可以通過設置transform: scale(0);到 transform: scale(1); 來實現,具體代碼 你也可以通過設置transform: scaleY(0);到 transform: scaleY(1); 這兩種展示的效果不一樣,你可以看看你喜歡那種 // css代碼// 原來的css類 .s…

港口危險貨物安全管理人員考試題庫(含答案)

一、單選題 1.化學品安全標簽內容中警示詞有( )種分別進行危害程度的警示。 A、3 B、4 C、5 參考答案:A 2.運輸放射性物品,應當使用( )的放射性物品運輸包裝容器(以下簡稱運輸容器)。 A、專業 B、專用 C、統一 D、定制 參考答案:B 3.庫區儀表及計算機監控管理系…

中電金信:金Gien樂道 | 6月熱門新聞盤點 回顧這一月的焦點事件

“以檢之力 e企守護”——上海市檢一分院與中電金信開展聯學聯建 6月24日,上海市人民檢察院第一分院與中電金信數字科技集團股份有限公司聯合開展“以檢之力 e企守護”聯學聯建活動。雙方共同參觀了全國檢察機關證券期貨犯罪辦案基地和重大職務犯罪案件辦理&#xf…

HTML5與3D打印:探索網頁內容的物理化可能

隨著科技的飛速發展,互聯網與物理世界的交匯點日益增多。HTML5作為當前網頁開發的主流標準,不僅推動了網頁內容的豐富性和互動性,還在與3D打印技術的結合中,展現出了將網頁內容物理化的巨大潛力。本文將探討HTML5與3D打印的結合點…

C++ 中的數據類型

C規定在創建一個變量或者常量時,必須要指定出相應的數據類型,否則無法給變量分配內存. 1 整型 作用:整型變量表示的是整數類型的數據 C中能夠表示整型的類型有以下幾種方式,區別在于所占內存空間不同: 數據類型占用…

python(6)numpy的使用詳細講解

在numpy中,最基本的數據結構是數組,因此我們首先需要了解如何創建一個數組。numpy提供了多種數組創建方法,包括從列表或元組創建、從文件中讀取數據、使用特定函數創建等。下面是一些常用的創建方法: 一、創建數組 1. 從列表或元…

【MySQL備份】Percona XtraBackup基礎篇

目錄 1.關于Percona XtraBackup 2. Percona XtraBackup有哪些特點? 3.安裝Percona XtraBackup 3.1.環境信息 3.2.安裝步驟 4. xtrabackup內部流程圖 5.Percona XtraBackup基礎語法 5.1.全量備份 5.2.增量備份 5.2.1.基于全量備份的增量備份 5.2.2.基于前…

[leetcode]max-consecutive-ones 最大連續1的個數

. - 力扣&#xff08;LeetCode&#xff09; class Solution { public:int findMaxConsecutiveOnes(vector<int>& nums) {int maxCount 0, count 0;int n nums.size();for (int i 0; i < n; i) {if (nums[i] 1) {count;maxCount max(maxCount, count);} else…