深度學習:簡介與任務分類總覽

一、什么是深度學習?

1.1 深度學習的定義

深度學習(Deep Learning)是機器學習的一種特殊形式,它依賴于具有多層結構的神經網絡自動從數據中學習特征并完成任務,如圖像識別,語音識別,自然語言處理等。

深度學習常常被認為是“端到端學習”的典范:從原始數據輸入(如圖像像素,音頻波形,文本)直接學習到最終輸出(分類,生成,預測等)。

1.2深度學習與傳統機器學習對比

維度傳統機器學習深度學習
特征提取人工設計(如顏色直方圖,詞袋模型)自動學習特征
模型結構淺層(SVM,決策樹,KNN)多層神經網絡(DNN,CNN,Transformer)
表達能力有限強大,可逼近任意非線性函數
依賴數據量少量數據即可訓練通常需要大規模數據
計算資源普通CPU即可運行通常需要GPU,TPU
應用場景小規模結構化數據圖像,視頻,文本,音頻,大模型等

二、深度學習的核心組成模塊(以神經網絡為例)

2.1 網絡基本結構

組成部分功能示例
輸入層接收原始數據(如圖像,音頻,文本)224*224圖像,長度為128的句子
隱藏層(隱藏單元)提取高階特征(可多個)卷積層,全連接層,注意力層
輸出層給出最終預測(分類,數值,掩碼等)softmax輸出10類,回歸數值等

2.2 核心機制解釋

  • 激活函數:使網絡具備非線性表達能力(ReLU,Sigmoid,Tanh)
  • 損失函數:衡量預測結果與真實值差距(交叉熵,均方誤差MSE)
  • 反向傳播算法:根據損失計算梯度,用于參數更新
  • 優化器:控制參數更新方式(SGD,Adam,RMSprop)

1.激活函數(Activation Function)

定義:

激活函數是作用在神經網絡每個神經元輸出上的非線性變換,使網絡具備擬合復雜非線性關系的能力。

為什么需要激活函數?

  • 若無激活函數(線性網絡),無論堆疊多少層,其最終還是線性函數,無法學習復雜模型。
  • 引入激活函數后,網絡可以逼近任意非線性函數。

常見的激活函數 :

名稱表達式特點常用場景
Sigmoid\sigma \left ( x \right )=\frac{1}{1+e^{-x}}輸出范圍 (0,1),常用于概率二分類輸出層
Tanhtanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}輸出范圍 (-1,1),中心對稱隱藏層早期模型
ReLUf(x) = max(0,x)稀疏激活,計算快,收斂快最常用,CNN/RNN等隱藏層
Leaky ReLUf(x) = max(\alpha x,x)緩解ReLU“死亡”問題深層網絡或小批量訓練
SoftmaxSoftmax(x_{i})=\frac{e^{x_{i}}}{\sum_{j}^{e^{x_{j}}}}輸出為概率分布多分類輸出層

注意事項:

  • 隱藏層通用ReLU(或其變體)
  • 輸出層根據任務選擇:二分類用Sigmoid,多分類用Softmax,回歸無激活或用線性

2.損失函數(Loss Function)

定義:損失函數用來衡量模型預測結果與真實標簽之間的差距,是訓練過程中優化的目標函數。

常見損失函數:?

類型損失函數表達式/作用使用場景
分類交叉熵(Cross Entropy)L=-\sum ylog(\hat{y})分類任務(Softmax/Sigmoid后)
回歸均方誤差(MSE)L=\frac{1}{n}\sum (\hat{y}-y)^{2}連續值預測
回歸平均絕對誤差(MAE)L=\frac{1}{n}\sum_{i=1}^{n}|\hat{y_i}-y_i|對異常值魯棒的回歸任務
多標簽

BCE(Binary Cross Entropy)

針對多個二分類圖像多標簽分類
自監督對比損失(Contrastive/InfoNCE)拉近正樣本,推遠負樣本SimCLR,CLIP,Siamese網絡
分割Dice Loss/IoU Loss關注區域重疊率語義/實例分割任務

注意事項:

  • 分類任務常用交叉熵(與Softmax配套)
  • 回歸任務慎選損失,MSE對異常值敏感
  • 分割任務要考慮類別不平衡,形狀連續性

?

3.反向傳播算法(Backpropagation)

定義:

反向傳播是一種高效計算神經網絡中每個參數對損失函數梯度的方法,是深度學習模型的核心算法。

工作原理:

  • 1.前向傳播(Forward):輸入從輸入層到輸出層,得到預測結果。
  • 2.損失計算(Loss):預測與真實標簽對比,計算損失。
  • 3.反向傳播(Backward):利用鏈式法則,從輸出層向前逐層計算梯度。
  • 4.梯度更新:結合優化器更新模型參數。

數學基礎:

利用鏈式法則計算損失對每層參數的偏導數

示例:若L=f(g(x))?,則\frac{dL}{dx}={f}'(g(x))\cdot {g}'(x)

注意事項:

  • 會出現梯度爆炸(值過大)或梯度消失(值趨近于0)的問題,尤其在深層網絡中
  • 為此需要使用梯度裁剪,BatchNorm,合適激活函數等技術

4.優化器(Optimizer)

定義:

優化器根據反向傳播得到的梯度來更新神經網絡的參數,使得損失函數逐步下降。

常見優化器:

名稱原理簡述優點缺點備注
SGD基礎的梯度下降算法簡單,易實現收斂慢,易陷局部最小可配合動量Momentum
SGD+Momentum引入“慣性”概念

穩定收斂

能跳出局部極小

參數調節復雜

Momentum

一般設為0.9

RMSProp自動調整每個參數學習率對稀疏數據友好參數更新難以解釋常用于RNN
Adam自適應學習率+動量收斂快,調參少收斂精度有時候不穩定當前最主流
AdamWAdam+正確的權重衰減收斂更穩,防止過擬合參數略多常用于Transfromer訓練
Adagrad/Adadelta早期自適應優化器對稀疏特征友好會停止更新現已經較少使用

學習率(Learning Rate)調節技巧:

  • 可使用學習率衰減策略(如StepDecay,CosineAnnealing)
  • 學習率過高可能發散,過低收斂慢
  • 可用Warmup技術逐步升高學習率,適用于大模型(如BERT)?

?

?核心機制之間的配合邏輯總結圖:

          數據輸入↓前向傳播(激活函數)↓損失函數計算↓反向傳播算法(鏈式法則)↓優化器根據梯度更新參數↓網絡更新 → 下一輪訓練

三、常見深度學習任務分類總覽表

類別任務名稱輸入輸出典型模型特點
1.分類任務

圖像分類,

文本分類

圖像/文本類別標簽

CNN,RNN,

Transformer

多為監督學習,

關注特征提取與決策邊界

2.回歸任務

股票預測、

房價預測

數值型數據連續數值

MLP、RNN、

LSTM

輸出為實數,

誤差評估常用MSE等

3.目標檢測

YOLO、

Faster R-CNN

圖像

目標類別+

位置信息

CNN +?Region Proposal

輸出包含類別和框,

評估指標為mAP

4.語義分割UNet,DeepLab圖像

像素級

類別標簽圖

FCN,UNet

精細化像素預測,

每個像素有標簽

5.實例分割Mask R-CNN圖像每個實例的掩碼檢測 + 分割網絡識別不同目標實例,難度更高
6.圖像生成GAN,VAE隨機噪聲/圖像圖像GAN,Diffusion,VAE生成式模型,關注圖像逼真度
7.序列建模機器翻譯,語音識別序列(文本/音頻)序列RNN,LSTM,Transformer輸入輸出長度可能不同,注意時序關系
8.強化學習

AlphaGo、

智能體控制

狀態,獎勵行動策略DQN,PPO,A3C決策導向,目標是最大化累計獎勵
9.多模態任務圖文檢索,VQA圖像+文本回答/標簽/圖文匹配CLIP,BLIP,Flamingo融合多個模態的信息,需對齊特征空間
10.自監督學習SimCLR,MAE無標簽數據表征或預測結果對比學習。自編碼學習

訓練無需標簽,

通過任務設計學習表示

11.多標簽分類

疾病診斷、

圖像標注

圖像/文本多個標簽集合CNN/Transformer每個樣本可對應多個標簽,非互斥
12.檢索與排序

文本檢索、

圖像檢索

查詢+數據集排序列表

Siamese Net,

BERT + Ranking

關注匹配程度,

輸出為排序或相似度

13.時間序列預測股票預測,交通流量歷史數據未來值LSTM,TCN強時序相關
14.文本生成ChatGPT,BERT文本文本Transformer,GPT聊天機器人,摘要生成

四、各類任務特點簡述

1.分類(Classification)

定義:將輸入分到預定義的類別中

特點:任務簡單,監督標簽明確。廣泛用于圖像識別、文本情感分析,垃圾郵件識別等。

2.回歸(Regression)

定義:根據輸入預測連續數值輸出

特點:輸出實數。常用于房價預測,氣溫預測,股票預測等;常用損失函數為MSE(均方差)

3.目標檢測(Object Detection)

定義:識別圖像中所有物體及其位置(邊界框)

特點:同時完成“分類+定義”任務,適用于安防,自動駕駛等場景;輸出包括類別標簽和坐標信息

4.語義分割(Semantic Segmentation)

定義:對圖像中每個像素賦予語義標簽。

特點:像素級別精細標注;每個像素對應一個語義類別,廣泛用于醫療圖像,遙感圖像分析等。

5.實例分割(Instance Segmentation)

定義:識別圖像中每個物體實例的掩碼與類別。

特點:不僅需要分辨像素類別,還要區分不同個體;結合目標檢測與語義分割。

6.圖像生成(Image Generation)

定義:根據輸入生成新的圖像。

特點:典型的生成式任務,常用GAN,Diffusion模型;輸出為逼真的新圖像,用于AI作畫,圖像修復,風格遷移等。

7.序列建模(Sequence Modeling)

定義:處理序列到序列的輸入輸出映射關系。

特點:輸入到輸出均為變長序列,廣泛用于機器翻譯,語音識別,字幕生成等時許相關任務。

8.強化學習(Reinforcement Learning)

定義:智能體通過與環境交互學習最大化長期獎勵的策略。

特點:無標簽,靠獎勵信號訓練,訓練較慢但適用于決策類問題。

9.多模態任務(Multimodel Learning)

定義:同時處理并融合來自多種模態(如圖像,文本,音頻等)的信息進行預測或生成。

特點:輸入通常為圖+文或視頻+語音等,輸出可以是分類標簽,文本回答或圖像;任務涉及模態對齊,跨模態生成,應用于圖文回答,跨模態檢索等。

10.自監督學習(Self-supervised Learning)

定義:從未標注數據中通過構造任務進行表示學習最大化長期獎勵的策略。

特點:不依賴人工標簽,通過數據自身生成監督信號(如BERT的遮蔽預測);適合大規模預訓練,如SimCLR,MAE等。

11.多標簽分類(Multi-label Classification)

定義:一個輸入對應多個非互斥的標簽

特點:適用于同時具有多個屬性的對象

12.檢索與排序(Retrieval and Ranking)

定義:根據查詢樣本從候選集合中找出最匹配項并排序。

特點:輸出為排序結果或相似度分值;廣泛用于搜索系統,推薦系統,圖文匹配等。

13.時間序列預測(Time Series Forecasting)

定義:基于歷史序列數據,預測未來時刻的值。

特點:具有時間依賴性和周期性,廣泛應用于金融市場,交通流量,銷售趨勢等;輸出為未來的數值序列或單點預測。

14.文本生成(Text Generation)

定義:基于輸入生成新的文本序列。

特點:輸出內容連貫,有邏輯;應用于對話生成,摘要生成,代碼自動補全等,常用GPT,T5等語言模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/91376.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/91376.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/91376.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MSPM0開發學習筆記:二維云臺畫圖(2025電賽 附源代碼及引腳配置)

前言 今年的電賽(2025),很多題都與云臺相關,因此為備戰電賽,博主這邊也是準備了一個由兩個42步進電機驅動的云臺并提前進行調試,避免賽題出來之后手忙腳亂的,這邊的兩個42步進電機采用同一個驅…

借助 Wisdom SSH 的 AI 助手構建 Linux 開發環境

借助Wisdom SSH的AI助手構建Linux開發環境 在Linux系統的開發場景中,快速、準確地搭建開發環境至關重要。Wisdom SSH憑借其強大的AI助手,能極大簡化這一過程,其官網為ssh.wisdomheart.cn。以下以在Ubuntu 22.04服務器上構建Python開發環境&am…

Python 程序設計講義(44):組合數據類型——集合類型:創建集合

Python 程序設計講義(44):組合數據類型——集合類型:創建集合 目錄Python 程序設計講義(44):組合數據類型——集合類型:創建集合一、集合的特征二、創建集合:使用set()函…

10 - 大語言模型 —Transformer 搭骨架,BERT 裝 “雙筒鏡”|解密雙向理解的核心

目錄 1、為什么 BERT 能 “懂” 語言?先看它的 “出身” 2、核心邏輯 2.1、“自學階段”—— 預訓練,像嬰兒學說話一樣積累語感 2.1.1、簡述 2.1.2、核心本事:“雙向注意力”,像人一樣 “聚焦重點” 2.2、“專項復習”—— …

【Spring Boot 快速入門】四、MyBatis

目錄MyBatis(一)入門簡介MyBatis 入門LombokMyBatis 基礎操作數據準備刪除預編譯新增更新查詢XML 映射文件MyBatis(一)入門 簡介 MyBatis 是一款 優秀的持久層框架,它支持 自定義 SQL、存儲過程以及高級映射&#xf…

Spring IOC 基于Cglib實現含構造函數的類實例化策略

作者:小凱 分享、讓自己和他人都能有所收獲! 一、前言 技術成長,是對場景設計細節不斷的雕刻! 你覺得自己的技術什么時候得到了快速的提高,是CRUD寫的多了以后嗎?想都不要想,絕對不可能&#xf…

composer 常用命令

### 設置鏡像源全局設置composer config -g repo.packagist composer https://mirrors.aliyun.com/composer/當個項目設置composer config repo.packagist composer https://mirrors.aliyun.com/composer/恢復官方源composer config -g --unset repos.packagist### 常用源阿里云…

【python】Python爬蟲入門教程:使用requests庫

Python爬蟲入門教程:使用requests庫 爬蟲是數據獲取的重要手段,下面我將通過一個完整的示例,教你如何使用Python的requests庫編寫一個簡單的爬蟲。我們將以爬取豆瓣電影Top250為例。 【python】網絡爬蟲教程 - 教你用python爬取豆瓣電影 Top…

OpenCV圖像縮放:resize

圖像縮放是圖像處理中的基礎操作之一。無論是圖像預處理、數據增強還是圖像金字塔構建,cv::resize 都是我們最常用的函數之一。但你是否注意到,在 OpenCV 中同時還存在一個名為 cv::Mat::resize 的方法?這兩個函數雖然名字類似,但…

汽車、航空航天、適用工業虛擬裝配解決方案

一、現狀在制造業數字化轉型浪潮中,傳統裝配過程仍面臨諸多挑戰:物理樣機試錯成本高、裝配周期冗長、工藝優化依賴經驗、跨部門協作效率低下……如何打破“試錯-返工”的惡性循環?目前總裝工藝通過DELMIA、NX、Creo等工程軟件進行工藝裝配驗證…

頁面跳轉和前端路由的區別

傳統方式&#xff1a;通過改變瀏覽器地址欄的 URL 來實現window.location.href /new-page<a href"/new-page">跳轉到新頁面</a>會導致整個頁面重新加載會觸發瀏覽器向服務器發送新的請求頁面狀態不會保留&#xff0c;所有資源重新加載可以避免新上線的內…

C/C++核心知識點詳解

C/C核心知識點詳解 1. 變量的聲明與定義&#xff1a;內存分配的本質區別 核心概念 在C/C中&#xff0c;變量的聲明和定義是兩個完全不同的概念&#xff1a; 聲明&#xff08;Declaration&#xff09;&#xff1a;告訴編譯器變量的名稱和類型&#xff0c;但不分配內存空間定義&a…

物聯網發展:從概念到應用的演變歷程

物聯網的發展歷程是一部技術革新與社會需求共同驅動的進化史&#xff0c;其演變可劃分為概念萌芽、技術積累、應用拓展和智能融合四個階段&#xff0c;每個階段均以關鍵技術突破或社會需求變革為標志&#xff0c;最終形成萬物互聯的智能生態。以下是具體演變歷程&#xff1a;一…

一個人開發一個App(數據庫)

后端要保存數據&#xff0c;我還是選擇了關系型數據庫Mysql, 因為其它的不熟悉。 flutter端這次我選擇的是ObjectBox&#xff0c;以前都是直接用的sqlite3&#xff0c;看對比ObjectBox效率比sqlite3高許多&#xff0c;這次前端為了用戶體驗&#xff0c;我需要緩存數據&#xff…

天銘科技×藍卓 | “1+2+N”打造AI驅動的汽車零部件行業智能工廠

7月24日&#xff0c;杭州天銘科技股份有限公司&#xff08;簡稱 “天銘科技”&#xff09;與藍卓數字科技有限公司&#xff08;簡稱 “藍卓”&#xff09;簽訂全面戰略合作協議。天銘科技董事長張松、副總經理艾鴻冰&#xff0c;藍卓副董事長譚彰等領導出席簽約儀式&#xff0c…

技術復盤報告:Vue表格中多行文本字段數據保存丟失問題

1. 問題背景 在一個基于 Vue 2.0 和 ElementUI 的復雜數據維護頁面中&#xff0c;用戶報告了一個偶發但嚴重的問題&#xff1a;在表格中編輯一個多行文本&#xff08;textarea&#xff09;字段時&#xff0c;輸入的內容有時會在點擊“保存”后丟失。 具體表現&#xff1a; 前端…

#C語言——學習攻略:深挖指針路線(四)--字符指針變量,數組指針變量,二維數組傳參的本質,函數指針變量,函數指針數組

&#x1f31f;菜鳥主頁&#xff1a;晨非辰的主頁 &#x1f440;學習專欄&#xff1a;《C語言學習》 &#x1f4aa;學習階段&#xff1a;C語言方向初學者 ?名言欣賞&#xff1a;"暴力解法是上帝給的&#xff0c;優化解法是魔鬼教的。" 目錄 1. 字符指針變量 1.1 使…

SpringBoot收尾+myBatis plus

一、數據傳遞返回值為:字符串package com.apesource.springboot_web_04.controller;import com.apesource.springboot_web_04.pojo.Emp; import org.springframework.stereotype.Controller; import org.springframework.web.bind.annotation.RequestMapping;/*** 返回值為:字符…

基于 Spring Boot 實現動態路由加載:從數據庫到前端菜單的完整方案

在后臺管理系統中&#xff0c;不同用戶角色往往擁有不同的操作權限&#xff0c;對應的菜單展示也需動態調整。動態路由加載正是解決這一問題的核心方案 —— 根據登錄用戶的權限&#xff0c;從數據庫查詢其可訪問的菜單&#xff0c;封裝成前端所需的路由結構并返回。本文將詳細…

VitePress學習-自定義主題

VitePress-自定義主題 代碼倉庫 基礎了解 初始化項目的時候選擇 custom theme 運行后會發現頁面挺丑的。 如果想要用默認主題怎么辦呢&#xff0c;修改Layout。 使用默認主題的Layout <script setup lang"ts"> import { useData } from vitepress; impo…