深度學習之卷積神經網絡理論基礎

深度學習之卷積神經網絡理論基礎

卷積層的操作(Convolutional layer)

在提出卷積層的概念之前首先引入圖像識別的特點

圖像識別的特點

  • 特征具有局部性:老虎重要特征“王字”僅出現在頭部區域
  • 特征可能出現在任何位置
  • 下采樣圖像,不會改變圖像目標

例如從512 * 512的圖像進行下采樣得到32 * 32的圖像目標
在這里插入圖片描述

  1. 特征具有局部性:卷積核每次僅連接K * K區域,K * K是卷積核尺寸
    在這里插入圖片描述
  2. 特征可能出現在任何位置:卷積核參數重復使用(參數共享),在圖像上滑動
    在這里插入圖片描述

該圖片的卷積的計算步驟如下所示:(即對應位置相乘在相加得到最終的結果)

0×0+1×1+3×2+4×3=19
1×0+2×1+4×2+5×3=25
3×0+4×1+6×2+7×3=37,
4×0+5×1+7×2+8×3=43

在這里插入圖片描述
其中綠色代表的是輸出部分,藍色代表的是輸入的部分,綠色的每一個區域是在藍色區域的基礎上經過卷積運算得到的,在計算的過程中區域不斷的進行滑動

卷積層的相關概念

卷積核(Kernel):具可學習參數的算子,用于對輸入圖像進行特征提取,輸出通常稱為特征圖(featuremaps)

通常我們說的就是3x3的卷積核,即對應上圖中的核函數2x2的卷積核

在這里插入圖片描述

卷積核當中的權重就代表的是一種特征模式。2012年AlexNet網絡第一個卷積層卷積核可視化卷積核呈現邊緣、頻率和色彩上的特征模式。

填充(Padding) 在輸入圖像的周圍添加額外的行/列。使卷積后圖像分辨率不變,方便計算特征圖尺寸的變化彌補邊界信息丟失
在這里插入圖片描述

而該圖中的padding=1 在上下左右都添加1個位置的像素,保證邊緣部分與中間部分相比不會參與卷積的次數太少而被忽略而丟失

步長(Stride) :卷積核滑動的行數和列數稱為步幅,控制輸出特征圖的大小,會被縮小1/s倍

在藍色圖像上每次滑動的距離之間影響得到的輸出圖的大小和像素值

感受野:特征圖中的一個點相當于圖片中多大的區域,層數越多感受野越大。

感受野從3 * 3 到 5 * 5的區域
在這里插入圖片描述

多通道卷積

多通道卷積:RGB圖像是3 * h* w 的三維的數據,第一個維度3,表示channel,通道數一個卷積核是3-D張量,第一個維與輸入通道有關注:卷積核尺寸通常指高、寬
在這里插入圖片描述

補充:2-d卷積和3-d卷積的區分,卷積核在輸入上只在行和列兩個維度上移動并進行卷積—稱為2d卷積 ,而在一些視頻任務中在此基礎上還需要使用到第三個維度即時間維度稱為3-d卷積

池化層操作(Pooling layer)

  1. 下采樣圖像,不會改變圖像目標:降低計算量,減少特征

池化:一個像素表示一塊區域的像素值,降低圖像分辨率

  • 方法1:MaxPooling,取最大值(最大池化)
  • 方法2:AveragePooling,取平均值(平均池化)

而池化層中無可學習的參數

在這里插入圖片描述
池化操作可以看作是一種特殊的卷積操作。

池化的作用:

  • 緩解卷積層對位置的過度敏感。

Lenet -5

在這里插入圖片描述

  • C1層: 卷積核K1=(6,1,5,5),p=1,s=1,output=(6,28,28)
  • S2層:最大池化層,池化窗口=(2,2),s=2,output=(6,14,14)
  • C3層:卷積核K3=(16,6,5,5),p=1,s=1,output=(16,10,10)
  • S4層:最大池化層,池化窗口=(2,2),s=2,output=(16,5,5)
  • FC層:3個FC層輸出分類

特征提取器:C1、S2、C3、S4分類器:3個FC

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/13196.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/13196.shtml
英文地址,請注明出處:http://en.pswp.cn/web/13196.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python 小抄

Python 備忘單 目錄 1.語法和空格 2.注釋 3.數字和運算 4.字符串處理 5.列表、元組和字典 6.JSON 7.循環 8.文件處理 9.函數 10.處理日期時間 11.NumPy 12.Pandas 要運行單元格,請按 ShiftEnter 或單擊頁面頂部的 Run(運行)。 1.語法和空格…

三種方法進行跨服務器文件傳輸

今天需要在一個centOS服務器上編譯一個工具, 我的本地主機是ubuntu, 但是由于服務器是合規環境, 沒有文件傳輸的接口, 也不能訪問github等外網, 所以很多依賴只能下載到ubuntu然后在想辦法搞到服務器上. 這種場景有三種簡單有用的辦法, 整理一下. 方法一: 把主機配置成http ser…

6---Linux下版本控制器Git的知識點

一、Linux之父與Git的故事: Linux之父叫做“Linus Torvalds”,我們簡稱為雷納斯。Linux是開源項目,所以在Linux的早期開發中,許多世界各地的能力各異的程序員都參與到Linux的項目開發中。那時,雷納斯每天都會收到許許…

用ntpdate同步時間出現問題

1. 使用ntpdate同步 [rootnode ~]# ntpdate ntp.aliyun.com4 Aug 00:07:17 ntpdate[20924]: adjust time server 203.107.6.88 offset -0.001543 sec2. 查看時間 [rootnode ~]# date Thu Aug 4 00:07:46 CST 20223. 如果時間對不上 報錯信息 cna02:~ # ntpdate ntp1.aliyu…

mysql社區版最多支持多個連接并發

MySQL社區版對于并發連接數的支持并沒有一個固定的上限,它實際上取決于多個因素,包括服務器的硬件配置、MySQL的配置參數以及應用程序的設計等。 硬件配置:服務器的CPU、內存和磁盤I/O等硬件資源會直接影響MySQL可以處理的并發連接數。例如&a…

VMware Fusion 13.5.2 for Mac 發布,產品訂閱模式首個重大變更

VMware Fusion 13.5.2 for Mac 發布,產品訂閱模式首個重大變更 適用于基于 Intel 處理器和搭載 Apple 芯片的 Mac 的桌面虛擬化軟件 請訪問原文鏈接:https://sysin.org/blog/vmware-fusion-13/,查看最新版。原創作品,轉載請保留…

vue props接收組件數據(類型配置)

"props"接收的常見傳參類型有以下幾種:String:字符串類型,Number:數字類型,Boolean:布爾類型,Array:數組類型,Object:對象類型,Date&am…

文章解讀與仿真程序復現思路——中國電機工程學報EI\CSCD\北大核心《集裝箱海港級聯物流-能源耦合系統協同優化方法 》

本專欄欄目提供文章與程序復現思路,具體已有的論文與論文源程序可翻閱本博主免費的專欄欄目《論文與完整程序》 論文與完整源程序_電網論文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 電網論文源程序-CSDN博客電網論文源…

FPGA - GTX收發器-K碼 以及 IBERT IP核使用

一,前言 在FPGA - Xilinx系列高速收發器---GTX中詳細介紹了GTX的基礎知識,以及IP核的調用,下面將補充一下GTX在使用中的高速串行數據流在接收和發送時的控制與對齊(K碼),以及高速接口GTX,如果G…

Springboot開發 -- Postman 調試 session 驗證 接口

當我們在開發Spring Boot應用時,經常會遇到帶有Session驗證的接口,這些接口需要用戶先登錄并獲取到Session ID(或稱為cookie中的JSESSIONID),然后在后續的請求中攜帶這個Session ID來保持會話狀態。下面我將以一個實際…

力扣72-編輯距離

題目鏈接 記憶化搜索: 解題關鍵:每次僅考慮兩字符串word1、word2分別從0 - i修改成0-j下標的完全匹配(下標表示) 臨界條件:當 i 或 j 小于0時,表示該字符串為空,編輯距離確定為 y1 或 x1 int dp[501][501…

Hello, GPT-4o!

2024年5月13日,OpenAI 在官網正式發布了最新的旗艦模型 GPT-4o 它是一個 多模態模型,可以實時推理音頻、視頻和文本。 * 發布會完整版視頻回顧:https://www.youtube.com/watch?vDQacCB9tDaw GPT-4o(“o”代表“omni”&#xff0c…

高效協同,智慧繪制:革新型流程圖工具全解析

流程圖,作為一種直觀展示工作過程和系統運作的工具,在現代辦公和項目管理中發揮著不可或缺的作用。 其優勢在于能夠清晰、直觀地呈現復雜的過程和關系,幫助人們快速理解并掌握關鍵信息。同時,流程圖也廣泛應用于各種場景&#xf…

linux常用命令(持續更新)

1.sudo -i 切換root權限 2. ll 和 ls 查看文件夾下面的文件 3. cat 查看文件內容 cat xxx.txt |grep 好 篩選出有好的內容 4. vi 編輯文件 點擊insert進入編輯模式 編輯完之后點擊Esc退出編輯模式 數據:wq!回車保存文件 5. ssh 連接到可以訪問的系統 6. telnet 看端口是否可以…

【Python】圖像批量合成視頻,并以文件夾名稱命名合成的視頻

一個文件夾中有多個子文件夾,子文件夾中有多張圖像。如何把批量把子文件夾中的圖像合成視頻,視頻名稱是子文件夾的名稱,生成的視頻保存到指定文件夾,效果記錄。 代碼 import os import cv2def create_video_from_images(image_f…

leetcode刷題(6):二叉樹的使用

文章目錄 104. 二叉樹的最大深度解題思路c 實現 94. 二叉樹的中序遍歷解題思路c 實現 101. 對稱二叉樹解題思路c 實現 96. 不同的二叉搜索樹解題思路c 實現 102. 二叉樹的層序遍歷解題思路c 實現 104. 二叉樹的最大深度 題目: 給定一個二叉樹 root ,返回其最大深度…

重新認識Flutter跨平臺技術(上)

背景 2017年,Flutter剛推出來的時候,正好自己在做TV Launcher開發的工作。 我們知道TV Launcher是Android TV操作系統中的一個啟動器應用程序。它負責在打開電視時展示給用戶的主要界面,包括應用程序圖標、推薦內容等。通過Android TV Launcher,用戶可以方便地瀏覽和啟動…

ALV 圖標顯示

前言 在ABAP ALV中,使用fieldcat來定義列表中每個字段的顯示屬性,包括圖標(Icon)的顯示。圖標可以在ALV列表中為特定列的行或標題添加圖形元素,以增強視覺提示或傳達附加信息。 ICON查詢 圖標的名稱用事務碼”ICON“進…

智能BI(后端)-- 系統異步化

文章目錄 系統問題分析什么是異步化?業務流程分析標準異步化的業務流程系統業務流程 線程池為什么需要線程池?線程池兩種實現方式線程池的參數線程池的開發 項目異步化改造 系統問題分析 問題場景:調用的服務能力有限,或者接口的…

離岸公司+外貿

為什么外貿公司老板都喜歡注冊離岸公司呢?怎樣利用離岸公司做進出口貿易呢? 今天大家花一分鐘時間來了解清楚 第一步就是注冊一家離岸公司,將這個離岸公司作為國際外貿的中轉站,與國外客戶簽訂單,你從國內工廠采購商…