卷積神經網絡(CNN)入門學習筆記

什么是 CNN?

CNN,全稱 卷積神經網絡(Convolutional Neural Network),是一種專門用來處理圖片、語音、文本等結構化數據的神經網絡。
它模仿人眼識別圖像的方式:
從局部到整體,一步步提取特征,最后做出判斷。

什么叫“卷積”?

卷積這個詞,來源于數學中的卷積操作
簡單說,就是用一個小方塊(卷積核)在圖片上滑動,把相鄰像素做個“加權求和”,用來提取特定特征。
比如:

  • 檢測邊緣
  • 識別線條
  • 找出顏色塊

CNN 結構組成

CNN 通常由以下幾部分組成:

  1. 卷積層(Convolutional Layer)
  2. 激活函數(Activation Function)
  3. 池化層(Pooling Layer)
  4. 全連接層(Fully Connected Layer)
  5. 輸出層(Output Layer)

CNN 常見術語速查表

專有名詞含義
卷積核(Filter)提取局部特征的小方塊
步長(Stride)卷積核每次移動的格子數
填充(Padding)給圖像邊緣補零,避免尺寸縮小
激活函數增強模型非線性能力,常用 ReLU
池化降維、保留關鍵信息,防止過擬合
全連接層將所有特征組合分類
損失函數衡量預測值和真實值的差距

圖片識別

圖片識別-Neuron Versin

李宏毅老師: 《機器學習》 學習筆記

overall

輸入是一張圖片,輸出是圖片的分類: cat/dog…
在這里插入圖片描述
計算每一個像素–判斷是否是cat
在這里插入圖片描述

Cverservation 1 - 不需要觀察整張圖片

只觀察一張圖片特定的幾個部分,如下面例子中的: 鳥嘴/鳥眼/鳥爪
在這里插入圖片描述

Simplification 1 - Typical Setting
  1. kernel size(卷積核(filter)): 3 * 3
  2. all channels
  3. stride(步長)=1:每次移動一個像素,沿著水平+垂直方向移動
  4. padding:就是在輸入特征圖(圖片或序列)邊緣周圍補上額外像素(通常是 0),目的是為了:
    ? 保持輸出尺寸不變
    ? 控制特征圖尺寸變化規律
    ? 更好地提取邊緣特征
    在這里插入圖片描述

Cverservation 2 - 共享參數

在這里插入圖片描述

Simplification 2
原理
  • weight: 決定輸入信號對神經元輸出的影響程度
  • bias: 偏移值,幫助模型更靈活擬合數據
    在這里插入圖片描述
Typical Setting

在這里插入圖片描述

圖片識別-Filter Version

feature map

在這里插入圖片描述

Multiple Convolutional layers

在這里插入圖片描述

Comparision of 2 Stories

在這里插入圖片描述

Pooling - Max Pooling

卷積操作后,特征圖通常很大,這時候用 **subsampling(池化 Pooling)**來降低特征圖尺寸,但保留重要特征。

在這里插入圖片描述

  • 特征提取(Feature Extraction) 就是:從原始數據中,把能代表事物本質特征的信息挑選出來,作為模型輸入的過程。
    • 最大特征(Max Feature / Max Pooling): 從一堆特征值里,取最大值作為代表
    • 平均特征(Average Feature / Average Pooling): 從一堆特征值里,計算平均值作為代表
      在這里插入圖片描述

Convolutional Layers + Pooling

在這里插入圖片描述

The Whole CNN

在這里插入圖片描述

Application Playing Go(略)

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/81502.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/81502.shtml
英文地址,請注明出處:http://en.pswp.cn/web/81502.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

c#基礎07(調試與異常捕捉)

文章目錄 調試與異常捕捉調試異常處理C#中的異常類異常處理拋出對象 調試與異常捕捉 很多時間,寫代碼不能一擼到底,中間都是經歷過無數次的調試,才能正常正確的運行起來。.Net調試有很多方法和技巧。 調試 在C#中程序調試主要指在Visual S…

一種比較精簡的協議

鏈接地址為:ctLink: 一個比較精簡的支持C/C的嵌入式通信的中間協議。 本文采用的協議格式如下 *幀頭 uint8_t 起始字節:0XAF\ *協議版本 uint8_t 使用的協議版本號:當前為0X01\ *負載長度 uint8_t 數據段內容長…

【windwos】文本編輯器Notepad++ 替代品Notepad--

一、N和N--對比介紹 曾經備受推崇的「Notepad」曾是Windows上的經典代碼編輯器。然而,作者的一些政治言論已經讓它被廣大中國用戶拋棄。 一個名為「Notepad--」的新編輯器,也是開源免費,功能和實用性也在盡可能接近。與此同時,「N…

貪心算法套路模板+詳細適用場景+經典題目清單

1. 排序 貪心選擇 適用場景: 任務調度問題:需要安排多個任務,盡量完成更多任務或最小沖突。 區間調度問題:選出最多互不重疊的區間。 區間覆蓋問題:用最少區間覆蓋某個范圍。 合并區間問題:合并重疊區…

Qt QPaintEvent繪圖事件painter使用指南

繪制需在paintEvent函數中實現 用圖片形象理解 如果加了刷子再用筆就相當于用筆畫過的區域用刷子走 防雷達&#xff1a; 源文件 #include "widget.h" #include "ui_widget.h" #include <QDebug> #include <QPainter> Widget::Widget(QWidget…

SIGGRAPH 2025 | 快手可靈團隊提出3D感知的電影級文本到視頻生成框架CineMaster

Sora、可靈等視頻生成模型令人驚艷的性能表現使得創作者僅依靠文本輸入就能夠創作出高質量的視頻內容。然而&#xff0c;我們常見的電影片段通常是由導演在一個場景中精心布置多個目標的運動、攝像機拍攝角度后再剪輯而成的。例如&#xff0c;在拍攝賽車追逐的場景時&#xff0…

在springboot,禁止查詢數據庫種的某字段

使用Mp注解&#xff08;只對Mp提供的基礎方法有效&#xff09; 在注解TableField后面加一個select false,這樣就無法查詢到該表下密碼這個字段了 但需要注意的是如果是自己寫的sql就無法通過這一種方法實現了

Spring Boot + MyBatis-Plus實現操作日志記錄

創建數據庫表 CREATE TABLE sys_operation_log (log_id bigint NOT NULL AUTO_INCREMENT COMMENT 日志ID,operation_type varchar(20) NOT NULL COMMENT 操作類型,operation_module varchar(50) NOT NULL COMMENT 操作模塊,operation_desc varchar(200) DEFAULT NULL COMMENT …

開源多模態新標桿——BAGEL本地部署教程:7B參數撬動萬億數據

一、簡介 BAGEL &#xff0c;這是一個開源的多模態基礎模型&#xff0c;具有 70 億個激活參數&#xff08;總共 140 億個&#xff09;&#xff0c;并在大規模交錯多模態數據上進行訓練。 BAGEL 在標準多模態理解排行榜上超越了當前頂級的開源 VLMs 如 Qwen2.5-VL 和 InternVL…

SD卡+FATFS+Tinyjpeg圖片解碼顯示 (STM32F103VET6通過CubeMX快速建立工程)

先展示最終實現的功能效果如下: 1.目的與意義 為什么選用SD卡? 使用Nor-flash(W25Q系列)進行圖片的存取,需要先把圖片通過對應軟件批量處理為二進制bin文件,再通過SPI等通訊方式將 bin文件燒寫進Nor-flash才能進行使用,使用時還要記住每張圖片的首地址和對應字節數,MC…

數據結構-散列表查找(哈希表)

一&#xff0c;散列表查找定義 散列技術是在記錄的存儲位置和它的關鍵字之間建立一個確定的對應關系f&#xff0c;使得每個關鍵字key對應一個存儲位置f(key)。查找時&#xff0c;根據這個確定的對應關系找到給定值key的映射f(key)&#xff0c;若查找集中存在這個記錄&#xff0…

Stable Diffusion 簡單了解一下

1. 幫我簡單介紹一下:StableDiffusion ?? Stable Diffusion 是什么? Stable Diffusion 是一個 文本生成圖像(Text-to-Image) 的人工智能模型。你只需要輸入一句話,它就能根據這句話生成一張高質量的圖片。 比如: "一只穿著太空服的貓,在月球上彈吉他"St…

R語言科研編程-標準偏差柱狀圖

生成隨機數據 在R中&#xff0c;可以使用rnorm()生成正態分布的隨機數據&#xff0c;并模擬分組數據。以下代碼生成3組&#xff08;A、B、C&#xff09;隨機數據&#xff0c;每組包含10個樣本&#xff1a; set.seed(123) # 確保可重復性 group_A <- rnorm(10, mean50, sd…

普羅米修斯監控CPU\內存匯聚圖

要找出內存使用率大于80%的主機&#xff0c;你可以使用以下PromQL查詢。這個查詢會計算每個節點的內存使用率&#xff0c;然后篩選出使用率超過80%的節點&#xff1a; (avg by(nodename) ((node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes)* on(instance) group…

飛牛fnNAS手機相冊備份及AI搜圖

目錄 一、相冊安裝應用 二、手機開啟自動備份 三、開始備份 四、照片檢索 五、AI搜圖設置 六、AI搜圖測試 七、照片傳遞 現代的手機,已經成為我們最親密的“伙伴”。自從手機拍照性能提升后,手機已經完全取代了簡單的卡片相機,而且與入門級“單反”相機發起了挑戰。在…

華為高斯數據庫(GaussDB)深度解析:國產分布式數據庫的旗艦之作

高斯數據庫介紹 一、高斯數據庫概述 GaussDB是華為自主研發的新一代分布式關系型數據庫&#xff0c;專為企業核心系統設計。它支持HTAP&#xff08;混合事務與分析處理&#xff09;&#xff0c;兼具強大的事務處理與數據分析能力&#xff0c;是國產數據庫替代的重要選擇。 產…

網頁 CSS美化2(詳解)

這是接著上一篇css基礎的第二篇&#xff1a;主要開始對頁面的布局進行學習 顯示模式&#xff1a; 塊級模式&#xff08;Block&#xff09; 特點 &#xff1a; 元素會獨占一行&#xff0c;在其前后會自動換行&#xff0c;與其他塊級元素在垂直方向上排列。 寬度默認為所在容器…

JSON解析性能優化全攻略:協程調度器選擇與線程池饑餓解決方案

簡介 JSON解析是現代應用開發中的基礎操作,但在使用協程處理時,若調度器選擇不當,會導致性能嚴重下降。特別是當使用Dispatchers.IO處理JSON解析時,可能觸發線程池饑餓,進而引發ANR或系統卡頓。本文將深入剖析這一問題的技術原理,提供全面的性能檢測方法,并給出多種優化…

python打卡第37天

知識點回顧&#xff1a; 過擬合的判斷&#xff1a;測試集和訓練集同步打印指標模型的保存和加載 僅保存權重保存權重和模型保存全部信息checkpoint&#xff0c;還包含訓練狀態 早停策略 作業&#xff1a;對信貸數據集訓練后保存權重&#xff0c;加載權重后繼續訓練50輪&#xf…

【洛谷P9303題解】AC- [CCC 2023 J5] CCC Word Hunt

在CCC單詞搜索游戲中&#xff0c;單詞隱藏在一個字母網格中。目標是確定給定單詞在網格中隱藏的次數。單詞可以以直線或直角的方式排列。以下是詳細的解題思路及代碼實現&#xff1a; 傳送門&#xff1a; https://www.luogu.com.cn/problem/P9303 解題思路 輸入讀取與初始化&…