深度學習:入門簡介

深度學習(Deep Learning, DL)是機器學習(Machine Learning, ML)的一個重要分支,核心是通過模擬人類大腦神經元的連接方式,構建多層神經網絡來自動學習數據中的特征和規律,最終實現預測、分類、生成等任務。它擺脫了傳統機器學習對 “人工設計特征” 的依賴,能直接從原始數據(如圖像、文本、音頻)中挖掘深層信息,是當前人工智能(AI)技術爆發的核心驅動力。

一、深度學習的核心思想:“多層” 與 “自動特征學習”

要理解深度學習,首先需要對比它與傳統機器學習的核心差異:

舉個直觀例子:

  • 用傳統機器學習識別貓:需手動設計 “是否有胡須”“是否有尖耳朵”“毛色分布” 等特征,再喂給模型訓練;
  • 用深度學習識別貓:直接輸入原始貓的圖片,模型會自動從 “像素點→邊緣→紋理→五官→完整貓輪廓” 逐層學習特征,無需人工干預。

二、深度學習的基礎組件:神經網絡的核心單元

深度學習的模型本質是多層神經網絡,其最小組成單元和結構如下:

1. 基本單元:人工神經元(Artificial Neuron)

模擬生物神經元的 “接收信號→處理信號→輸出信號” 過程,是神經網絡的基礎:
? 輸入(Input):接收來自前一層的信號(如數據特征、前一層神經元的輸出);
? 權重(Weight):每個輸入對應一個權重(表示該輸入的重要性,模型訓練的核心就是優化權重);
? 偏置(Bias):調整神經元激活的 “基準線”,避免僅由輸入和權重決定輸出;
? 激活函數(Activation Function):對 “輸入 × 權重 + 偏置” 的結果進行非線性變換,讓模型能學習復雜的非線性關系(如圖像、語言中的復雜規律)。

常見激活函數:

  • ReLU:最常用,公式?f(x) = max(0, x),解決 “梯度消失” 問題,計算高效;
  • Sigmoid:將輸出壓縮到 [0,1],適用于二分類任務的輸出層;
  • Tanh:將輸出壓縮到 [-1,1],比 Sigmoid 更對稱,常用于早期模型的隱藏層。
  • 這是生物上的神經元

  • 這是計算機上的神經網絡、

  • 神經網絡是由大量的節點(或稱“神經元”)和之間相互的聯接構成。
  • 每個節點代表一種特定的輸出函數,稱為激勵函數、激活函數(activation function)。
  • 每兩個節點間的聯接都代表一個對于通過該連接信號的加權值,稱之為權重,這相當于人工神經網絡的記憶。

2. 神經網絡的層結構


多個人工神經元按 “層” 組織,形成神經網絡,核心層包括:
? 輸入層(Input Layer):接收原始數據(如圖片的像素值、文本的向量),僅傳遞數據,不做計算;
? 隱藏層(Hidden Layer):對輸入層的信號進行逐層加工、提取特征,“深度” 即指隱藏層的數量(通常≥2 層即可稱為 “深度網絡”);
? 輸出層(Output Layer):輸出模型的最終結果,根據任務類型選擇不同的激活函數:
? 分類任務:用 Softmax(多分類,輸出各類別概率之和為 1);
? 回歸任務:無激活函數(直接輸出連續值);
? 二分類任務:用 Sigmoid(輸出單個概率值)。

三、推導

  • 以下是推導過程:
    • 傳入特征,按照不同的權重傳入神經元進行求和
    • 然后將結果放入sigmod函數進行非線性映射
    • 最后得出分類結果

四、感知器與多層感知器

1.感知器

  • 由兩層神經元組成的神經網絡--“感知器”(Perceptron),感知器只能線性劃分數據。
  • 因為只能通過一個線性函數(即加權和)將輸入數據映射到輸出類別
  • 感知器圖示
  • 右下角是計算規則

2.多層感知器


多層感知器(MLP)是深度學習中一種重要的神經網絡結構,由多個層次的神經元組成,通常包括以下部分:

輸入層:接收數據特征。
隱藏層:一個或多個,進行復雜的非線性變換。每層的神經元通過激活函數(如ReLU、Sigmoid)處理輸入。
輸出層:生成最終的預測結果或分類標簽。

3.偏置


在神經網絡中需要默認增加偏置神經元(節點),這些節點是默認存在的
它本質上是一個只含有存儲功能,且存儲值永遠為1的單元
在神經網絡的每個層次中,除了輸出層以外,都會含有這樣一個偏置單元
偏置節點沒有輸入(前一層中沒有箭頭指向它)
一般情況下,我們都不會明確畫出偏置節點
調整決策邊界:偏置項允許決策邊界在特征空間中進行平移,而不僅僅是通過原點。

提高模型靈活性:使得神經網絡能夠捕捉到更多的數據模式和復雜性,即使在沒有輸入特征的情況下也能進行調整。

五、如何確定輸入層和輸出層個數

  • 輸入層的節點數:與特征的維度匹配
  • 輸出層的節點數:與目標的維度匹配。
  • 中間層的節點數:目前業界沒有完善的理論來指導這個決策。一般是根據經驗來設置。較好的方法就是預先設定幾個可選值,通過切換這幾個值來看整個模型的預測效果,選擇效果最好的值作為最終選擇。

六、損失函數

模型訓練的目的:使得參數盡可能的與真實的模型逼近。
具體做法:
1、首先給所有參數賦上隨機值。我們使用這些隨機生成的參數值,來預測訓練數據中的樣本。????

2、計算預測值為yi,真實值為y。那么,定義一個損失值loss,損失值用于判斷預測的結果和真實值的誤差,誤差越小越好
常用的損失函數: 0-1損失函數 均方差損失 平均絕對差損失 交叉熵損失 合頁損失
多分類的情況下,如何計算損失值

七、正則化懲罰

輸入為[1,0,0,0]現有2種不同的權重值

w1 = [1,0,0,0]

w2 = [0.25,0.25,0.25,0.25]

w1和w2與輸入的乘積都為1,但w2 與每一個輸入數據進行計算后都有數據,使得w2會學習到每一個特征信息。而w1只和第1個輸入信息有關系,容易出現過擬合現象,因此w2的效果會比w1 好

正則化懲罰的功能:主要用于懲罰權重參數w,一般有L1和L2正則化。

八、梯度下降

1. 偏導數

????????我們知道一個多變量函數的偏導數,就是它關于其中一個變量的導數而保持其他變量恒定。該函數的整個求導: 例如:計算像 f(b0,b1)=b0x12* b1x2 這樣的多變量函數的過程可以分解如下:

2. 梯度

梯度可以定義為一個函數的全部偏導數構成的向量,梯度向量的方向即為函數值增長最快的方向

3、梯度下降法

一個一階最優化算法,通常也稱為最陡下降法 ,要使用梯度下降法找到一個函數的局部極小值

步長(學習率):梯度可以確定移動的方向。學習率將決定我們采取步長的大小。不易過小和過大 如何解決全局最小的問題?產生多個隨機數在不同的位置分別求最小值。

九、BP神經網絡

BP(Back-propagation,反向傳播)前向傳播得到誤差,反向傳播調整誤差,再前向傳播,再反向傳播一輪一輪得到最優解的。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/96424.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/96424.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/96424.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

switch搖桿JoyCon搖桿研究,碳膜搖桿、霍爾電磁搖桿

https://blog.csdn.net/qq_28145393/article/details/125769568 https://zhuanlan.zhihu.com/p/1925522678263056352 插件DIP 碳膜搖桿 6腳,內部兩個滑動變阻器,1個按鍵。 引腳定義如下:1腳AD1、2腳按鍵GND、3腳按鍵、4腳AD2、5腳變阻器GND、…

保護 PDF 格式:禁止轉換為其他格式文件

在日常辦公中,PDF是很常見的文件格式。有時候為了方便編輯,我們會將PDF轉換成其他格式文件,比如Word、PPT等;但有時候出于安全考慮,我們又不希望PDF可以隨意轉換成其他格式文件。那如何禁止轉換格式呢?其實…

docker 打包

目錄 構建docker容器 使用 Dockerfile 構建自定義鏡像 構建docker容器 docker images docker pull pytorch/torchserve:latest-gpu docker imagesdocker run -d --rm --gpus all --name torchserve-dev-bg -u $(id -u):$(id -g) -v /nas:/nas pytorch/torchserve:latest /bi…

云原生俱樂部-k8s知識點歸納(7)

計劃是再更兩篇就完結k8s系列,其中CRD客戶端資源定義會單獨列一篇,或許會講一講operator。不過當前的k8s并沒有細講operator,因為涉及到很多的go語言內容,以及相關的package的方法。這一部分主要就是講一講k8s如何進行監控和升級&…

c語言之進程函數

1. 進程創建#include <sys/types.h>#include <unistd.h>pid_t fork(void);fork 創建一個新進程fork() creates a new process by duplicating the calling process. The new process is referred to as the child process. The calling process is refe…

學習python第12天

今日任務&#xff1a;DataFrameDataFrame的構造pandas.DataFrame(dataNone, indexNone, columnsNone, dtypeNone, copyFalse)參數說明&#xff1a;data&#xff1a;DataFrame 的數據部分&#xff0c;可以是字典、二維數組、Series、DataFrame 或其他可轉換為 DataFrame 的對象。…

C++顯示類型轉換運算符static_cast使用指南

這是一篇關于 static_cast 用法的文章。本文會從基礎概念到常見應用場景全覆蓋&#xff0c;并附上代碼示例以方便理解。C 中的 static_cast 用法詳解 在 C 中&#xff0c;static_cast 是一種顯式類型轉換運算符&#xff0c;主要用于在編譯期進行類型安全的轉換。相比 C 風格的強…

es6常用方法來解決功能需求

前言&#xff1a;es6常用方法來解決功能需求。1、出現復雜的json字符串如何去解析&#xff1f;比如&#xff1a;下面這個字符串&#xff0c;如果用json.parse解析發現還是個字符串"\"[{\\\"orgId\\\":\\\"1054021138280960\\\",\\\"orgName…

龍虎榜——20250822

上證指數今天繼續創新高收中陽線&#xff0c;量能維持在5天均量線附近&#xff0c;目前均線多頭強勢的走勢&#xff0c;小級別也未出現反轉信號&#xff0c;上漲趨勢不要輕易看空。深證指數今天延續強勢的走勢&#xff0c;大漲收光頭光腳的陽線&#xff0c;目前均線多頭排列&am…

3維模型導入到3Dmax中的修改色彩簡單用法----第二講

目錄回顧1 補充信息*stp導出沒有顏色怎么辦&#xff1f;*2 3Dmax的使用如果顏色丟失了怎么辦呢&#xff1f;怎么實現一零件上多個色彩呢&#xff1f;怎么將零件綁到一起呢&#xff1f;怎么將三角形的面變成光滑曲面呢&#xff1f;回顧 上一講&#xff0c;我們簡單的說了一下&a…

智慧農業新基建:邊緣計算網關在精準農業中的落地實踐案例

智慧農業新基建&#xff1a;邊緣計算網關在精準農業中的落地實踐案例傳統農業生產中&#xff0c;水肥管理依賴經驗判斷&#xff0c;往往造成資源浪費和產量不穩定&#xff1b;同時&#xff0c;惡劣的自然環境也給農業生產帶來諸多挑戰。而藍蜂邊緣計算網關在精準農業中的應用&a…

llm操控solidworks 畫立方體 deepseek

deepseek接入solidowrks畫立方體用eval方法鏈接llm和solidworks pythonwin32接口 離好的效果還差一個有腦子會生成復雜命令序列的ai 參考 基于Python的Solidworks二次開發方法_selectbyray-CSDN博客 Welcome - 2025 - SOLIDWORKS API Help 倉庫 llm_sw: llm鏈接solidworks…

MySQL事務及原理詳解

MySQL 事務 事務是一組不可分割的操作集合&#xff0c;這些操作要么同時成功提交&#xff0c;要么同時失敗回滾。 acid事物的四大特性 原子性 最小工作單元&#xff0c;要么同時成功&#xff0c;要么同時失敗。 例如A轉賬300給B,A賬戶-300與B賬戶300必須滿足操作原子性&#xf…

Flutter上手記:為什么我的按鈕能同時在iOS和Android上跳舞?[特殊字符][特殊字符]

文章目錄&#x1f525; 先解決靈魂拷問&#xff1a;憑啥選Flutter&#xff1f;&#x1f9f1; 解剖Flutter&#xff1a;它肚子里藏著什么黑科技&#xff1f;三層蛋糕架構 &#x1f382;狀態管理&#xff1f;江湖門派大戰&#xff01; &#x1f94b;&#x1f6e0; 真實項目暴擊&a…

單片 、物聯網、51單片機、軟硬件之基于STM32與藍牙的倉儲管控系統的設計與實現/基于物聯網的倉庫管理系統

單片 、物聯網、51單片機、軟硬件之基于STM32與藍牙的倉儲管控系統的設計與實現/基于物聯網的倉庫管理系統

Product Hunt 每日熱榜 | 2025-08-22

1. Mocke 標語&#xff1a;模擬郵件營銷&#xff1a;在不發起活動的情況下了解你的回復率 介紹&#xff1a;Mocke AI代理模擬運行電子郵件營銷活動&#xff0c;并在一分鐘內返回結果&#xff0c;包括郵件的打開率、回復率和退訂率。它還會揭示每個潛在客戶為何未打開郵件、報…

基于Java+SpringBoot+Vue+HTML5電影評論網站系統(源碼+LW+調試文檔+講解等)/電影評論/網站系統/電影/評論/網站/系統/影評網站/電影網站/評論系統/電影評論系統

博主介紹 &#x1f497;博主介紹&#xff1a;?全棧領域優質創作者&#xff0c;專注于Java、小程序、Python技術領域和計算機畢業項目實戰?&#x1f497; &#x1f447;&#x1f3fb; 精彩專欄 推薦訂閱&#x1f447;&#x1f3fb; 2025-2026年最新1000個熱門Java畢業設計選題…

家用電器,讓現代家庭生活更美好

在現代家庭中&#xff0c;家用電器早已不再是冰冷的機器&#xff0c;而是成為了我們生活中不可或缺的一部分。它們以科技之名&#xff0c;融入我們的日常&#xff0c;讓生活變得更加便捷、舒適和美好。 清晨&#xff0c;當第一縷陽光透過窗簾&#xff0c;智能咖啡機已經為您準備…

RabbitMQ延時隊列的兩種實現方式

目錄 一、延時插件實現 1、版本要求 2、為運行新容器時安裝 3、為已運行的容器安裝 4、驗證安裝 5、代碼編寫 1. 配置類 2. 生產者 3. 消費者 二、死信隊列實現 1、代碼編寫 1. 配置類 2. 生產者 3. 消費者 三、踩坑記錄 1、發送消息失敗 2、消息過期后未能轉…

深度學習在股票量化中的應用

深度學習在股票量化中的具體應用&#xff1a;從時間序列預測到Alpha挖掘深度學習并非量化交易的銀彈&#xff0c;但它是一套強大的工具集&#xff0c;能夠解決傳統量化方法難以處理的復雜問題。其核心價值在于從海量、高維、非結構化的數據中自動提取有效特征并發現非線性關系。…