深度學習篇---卷積核的權重

卷積核權重:

在深度學習的卷積操作中,“卷積核的權重” 是最核心的概念之一,它決定了卷積核能從圖像中 “看到” 什么特征(比如邊緣、紋理,甚至是眼睛、車輪這樣的復雜結構)。我們可以把它理解成卷積核的 “視角偏好”—— 權重的數值不同,卷積核關注的圖像細節就不同。

一、先明確:權重是什么?

卷積核本質上是一個數字矩陣(比如 3x3 的矩陣里裝著 9 個數字),這些數字就是權重

舉個例子:一個 3x3 的卷積核可能長這樣:

[[0.2,  0.5, -0.1],[-0.3, 0.8,  0.4],[0.1, -0.2, 0.3]]

這里面的 0.2、0.5、-0.1…… 就是權重。

二、權重的作用:決定卷積核 “關注什么”

卷積核的工作原理是 “滑動時和圖像像素相乘再求和”,而權重就是這個 “乘法” 里的系數。它的核心作用是:給圖像中不同位置的像素 “打分”——

  • 正權重:表示這個位置的像素如果亮度高(數值大),會讓輸出結果變大(卷積核 “喜歡” 這個位置的特征);
  • 負權重:表示這個位置的像素如果亮度高,會讓輸出結果變小(卷積核 “排斥” 這個位置的特征);
  • 權重絕對值越大:表示這個位置的像素對結果影響越大(卷積核越關注這個位置)。
舉個直觀的例子:邊緣檢測核的權重

比如一個檢測 “垂直邊緣” 的卷積核,權重可能是這樣:

[[1,  0, -1],[1,  0, -1],[1,  0, -1]]
  • 左側列是正權重(1),右側列是負權重(-1),中間是 0。
  • 當它滑過圖像中 “左亮右暗” 的區域(比如垂直邊緣的左側),左側高像素值乘 1,右側低像素值乘 - 1,總和會很大 —— 這就是 “檢測到垂直邊緣” 的信號。
  • 這里的權重設計(左正右負),就是讓卷積核專門 “關注垂直方向的明暗變化”。

三、權重不是人工設計的,而是 “學” 出來的!

在傳統圖像處理中(比如 PS 里的濾鏡),卷積核的權重是人工設定的(比如邊緣檢測核的權重是固定的)。但在深度學習中,權重是通過數據 “自動學習” 的,這也是深度學習的核心優勢。

學習過程:像 “調參數” 一樣試錯

可以把權重的學習理解成一個 “不斷試錯、優化” 的過程:

  1. 初始階段:權重是隨機賦值的(比如從 - 0.1 到 0.1 之間隨便挑數),此時卷積核啥也 “看不懂”,輸出結果雜亂無章。
  2. 訓練階段:用大量標注好的圖像(比如 “這是貓”“這是狗”)喂給網絡,網絡會根據 “預測結果” 和 “正確答案” 的差距(稱為 “損失”),自動調整權重:
    • 如果某個權重讓結果更接近正確答案,就往增大的方向微調;
    • 如果某個權重讓結果偏離正確答案,就往減小的方向微調。
  3. 最終階段:經過幾萬甚至幾百萬張圖像的訓練,權重會逐漸穩定下來 —— 此時卷積核就能 “精準捕捉” 對任務有用的特征(比如識別貓時,專門關注耳朵、胡須的特征)。

四、權重的 “小個性”:不同層的權重關注不同特征

在深度卷積網絡(比如 ResNet、VGG)中,通常有十幾甚至幾十層卷積層,每層的卷積核權重都不一樣,且關注的特征層次不同:

  • 淺層卷積核:權重對應的特征很簡單,比如邊緣(水平 / 垂直 / 對角線)、顏色塊、紋理(條紋 / 斑點)。這是因為淺層直接接觸原始圖像,只能捕捉最基礎的視覺信號。
  • 深層卷積核:權重對應的特征更復雜,比如 “眼睛”“車輪”“翅膀”,甚至是 “貓的整體輪廓”“汽車的形狀”。這是因為深層的卷積核是在淺層特征的基礎上 “組合學習” 的(比如 “眼睛”= 圓形邊緣 + 深色塊 + 周圍的淺色紋理)。

五、通俗總結:權重就像 “定制眼鏡”

  • 卷積核的權重,本質是一組 “打分標準”,決定了它對圖像中哪些細節敏感。
  • 訓練過程就是 “磨鏡片”:通過大量數據試錯,最終把鏡片(權重)磨成最適合 “看清” 目標特征的樣子。
  • 不同的權重(不同的鏡片),能讓卷積核 “看到” 不同的東西 —— 有的擅長看邊緣,有的擅長看眼睛,組合起來就能完成復雜的圖像任務(比如識別、分割)。

理解了權重,就理解了卷積網絡 “智能” 的來源:它不是靠人工編程識別特征,而是靠數據自動 “學” 出了適合的權重,從而擁有了 “看懂” 圖像的能力。

分類任務過程:

網絡完成分類任務的過程,就像一個 “智能偵探” 通過線索斷案:先收集各種線索(提取特征),再篩選出關鍵線索(整合特征),最后根據關鍵線索下結論(分類)。整個過程靠 “不斷學習糾錯” 變得越來越準。

一、先明確:分類任務的目標是什么?

分類任務的核心是給輸入的東西貼 “標簽”。比如:

  • 輸入一張圖片,輸出 “貓”“狗”“汽車”;
  • 輸入一段語音,輸出 “你好”“再見”。

網絡要做的,就是從輸入中找到 “能區分不同類別的關鍵特征”,再根據這些特征判斷它屬于哪個類別。

二、核心流程:從 “看東西” 到 “下結論” 的 3 步

我們以 “給圖片分類(比如區分貓和狗)” 為例,拆解整個過程:

第一步:提取特征 —— 收集 “線索”

網絡的前半部分(比如卷積層、池化層)負責從原始圖像中 “扒出” 各種特征,就像偵探在案發現場收集指紋、毛發、腳印等線索。

  • 原始圖像:就是一堆像素點(比如一張貓的圖,本質是幾百萬個 RGB 數值),對網絡來說是 “混亂的原始數據”。

  • 特征提取過程

    • 淺層卷積層:先提取最基礎的 “小線索”,比如邊緣(貓的耳朵邊緣、胡須的線條)、顏色塊(貓的毛色區域)、紋理(貓毛的條紋)。這些是構成所有物體的 “基本零件”。
    • 深層卷積層:把淺層的小線索 “組合” 成更復雜的 “大線索”,比如 “貓的耳朵(三角形邊緣 + 粉色內側紋理)”“貓的胡須(細長白色線條 + 分布在嘴巴周圍)”“貓的眼睛(圓形邊緣 + 豎瞳)”。到了最深層,甚至能提取 “貓的整體輪廓(耳朵 + 胡須 + 尾巴的組合)”。

    舉個例子:一張貓的圖片,經過多層提取后,網絡會得到一堆關鍵特征:“三角形耳朵”“長胡須”“豎瞳”“毛茸茸的身體”。

第二步:特征整合 —— 匯總 “關鍵線索”

提取到的特征是分散的(比如 “耳朵”“胡須”“眼睛” 是分開的),網絡需要把它們 “匯總打包”,變成一個能代表 “這張圖整體特征” 的 “特征向量”(可以理解成一串數字,每個數字對應一個關鍵特征的 “強度”)。

這一步主要靠全連接層(或全局池化層)完成:

  • 全連接層就像 “線索整理員”,把深層提取的所有關鍵特征(比如 “耳朵的明顯程度”“胡須的長度”“眼睛的形狀”)進行加權匯總,最終輸出一個固定長度的向量。比如用一個 1000 維的向量表示 “這張圖的所有關鍵特征強度”。

    舉例:貓的特征向量可能是:[耳朵特征強度 = 0.9,胡須特征強度 = 0.8,豎瞳特征強度 = 0.95,尾巴特征強度 = 0.85……](數值越高,說明這個特征越明顯)。

第三步:分類決策 —— 根據線索 “下結論”

有了匯總的特征向量,最后一步就是 “判斷類別”。這一步像 “陪審團投票”,根據特征向量里的線索,給每個可能的類別打分,最后選分數最高的作為結果。

核心是分類器(比如 softmax 層):

  • 分類器會給每個類別(比如 “貓”“狗”“鳥”)分配一個 “匹配度分數”。分數的計算基于特征向量:如果特征向量里 “貓的關鍵特征”(耳朵、胡須等)強度高,“貓” 的分數就高;如果 “狗的關鍵特征”(豎耳、長鼻子等)強度高,“狗” 的分數就高。
  • 最后,選分數最高的類別作為輸出。比如 “貓” 的分數是 0.92,“狗” 是 0.07,就判定這張圖是 “貓”。

三、關鍵:網絡如何 “學會關注有用特征”?

網絡不是一開始就知道 “哪些特征有用” 的,它靠訓練過程(用帶標簽的數據學習)慢慢 “摸清楚”:

  1. 初始階段:網絡是 “新手”,對特征的判斷很混亂。比如可能把 “背景的桌子” 當成區分貓和狗的關鍵特征,導致分類錯誤(把有桌子的貓圖誤判為狗)。

  2. 通過 “損失” 糾錯:每次分類后,網絡會計算 “預測結果” 和 “正確答案” 的差距(稱為 “損失”)。比如把貓誤判為狗,損失就會很大。

    • 損失會 “告訴” 網絡:你關注的特征不對(比如桌子不是關鍵),應該多關注那些真正能區分貓和狗的特征(比如貓的胡須、狗的鼻子)。
  3. 調整 “權重” 強化有用特征:網絡會根據損失,反向調整各層的權重(參考之前講的權重概念):

    • 對 “有用特征”(如胡須)的權重調大 —— 讓這些特征在后續計算中更突出。
    • 對 “無用特征”(如桌子)的權重調小 —— 讓這些特征的影響減弱。
  4. 逐漸 “熟練”:經過幾萬甚至幾十萬張圖片的訓練(比如反復看各種貓、狗的圖),網絡會越來越清楚 “哪些特征是貓 / 狗獨有的”,最終能穩定地根據這些特征做出正確分類。

四、通俗總結:像 “醫生診斷” 一樣分類

可以把整個過程類比成醫生給病人診斷:

  • 原始圖像?= 病人的各種癥狀(發燒、咳嗽、頭痛);
  • 特征提取?= 醫生檢查關鍵癥狀(比如測體溫、看喉嚨、聽肺部 —— 過濾掉無關信息,抓住有用線索);
  • 特征整合?= 醫生匯總關鍵癥狀(比如 “高燒 + 喉嚨紅腫 + 肺部啰音”);
  • 分類決策?= 醫生根據匯總的癥狀判斷疾病(比如 “這是流感”);
  • 訓練過程?= 醫生通過大量病例學習(剛開始可能誤診,后來慢慢知道 “哪些癥狀對應哪種病”)。

本質上,分類任務就是網絡通過學習,掌握了 “哪些特征能代表哪個類別”,然后用這些特征作為依據,給輸入的東西貼對標簽。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/93592.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/93592.shtml
英文地址,請注明出處:http://en.pswp.cn/web/93592.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SMTPman,smtp ssl助力安全高效郵件傳輸!

SMTPman,smtp ssl助力安全高效郵件傳輸!SMTPman,smtp ssl不僅僅是一種郵件協議方式,更是企業日常運營的重要支撐。通過SMTPman,smtp ssl,用戶可以獲得更快的投遞速度,更穩定的連接,以…

學習日志37 python

1 Python 和 Java 在類屬性(靜態屬性)和實例屬性的處理題目執行以下程序,輸出結果為() class Base(object):count 0def __init__(self):pass b1 Base() b2 Base() b1.count b1.count 1 print(b1.count,end" …

對于QPS的理解和簡單

QPS(Queries Per Second) 是衡量系統吞吐量的核心指標,表示每秒能處理的請求數量。以下是關于QPS的完整解析和實踐指南:一、QPS的核心公式 QPS 總請求量 / 請求總時間(秒)典型場景計算: 日請求…

【筆記ing】考試腦科學 腦科學中的高效記憶法

前言本書是拙作《高中生學習法》的修訂版。《高中生學習法》出版已有十余年。這期間,腦科學研究不斷進步,十幾年前無法解釋的事情現在已經開始逐漸明晰。同時,書中有些內容甚至已經被明確證實是錯誤的。也就是說,《高中生學習法》…

Web安全 - 構建安全可靠的API:基于國密SM2/SM3的文件上傳方案深度解析

文章目錄概述1. 緣起:挑戰與目標2 . 核心架構:非對稱簽名與摘要算法的珠聯璧合威脅模型(我們要防的攻擊)密鑰管理體系3 . 簽名與驗證:一步一解,安全閉環3.1 A系統:簽名的生成(請求前…

【MyBatis-Plus】一、快速入門

這里寫自定義目錄標題MyBatis-Plus 概述快速入門入門案例常用注解常見配置MyBatis-Plus 概述 MyBatis-Plus 簡介: MyBatis-Plus 是在 MyBatis 基礎上開發的一個 增強工具包,它簡化了 MyBatis 的開發,減少了大量重復代碼。它保持了 MyBatis …

PostgreSQL導入mimic4

一、PostgreSQL連接驗證 正確連接命令 使用psql工具連接目標數據庫,格式為:psql -h 127.0.0.1 -U 用戶名 -d 數據庫名 --password 示例(用戶名Shinelon,數據庫mimic):psql -h 127.0.0.1 -U Shinelon -d mi…

css中 hsl() 的用法

好的 👍 我來詳細介紹一下 CSS hsl() 的用法。1. 基本語法 color: hsl(hue, saturation, lightness);hue(色相) 取值范圍:0 ~ 360(角度值,代表色環的角度)0 或 360 → 紅色120 → 綠色240 → 藍…

企業級Spring事務管理:從單體應用到微服務分布式事務完整方案

企業級Spring事務管理:從單體應用到微服務分布式事務完整方案 🌟 你好,我是 勵志成為糕手 ! 🌌 在代碼的宇宙中,我是那個追逐優雅與性能的星際旅人。 ? 每一行代碼都是我種下的星光,在邏輯的土…

繼續記錄面試題

坐在工位,沒事干心慌的不行,可能也是房貸壓的。一閑下來就開始胡思亂想,無法沉下心去背那些八股文。這才剛剛接到離職通知第三天啊。而且、我還在坐班呢!!! 哎、怪不得有句老話說的,人窮志短&a…

從零開始學習:深度學習(基礎入門版)(第2天)

(一)在pycharm軟件中,用python語言,opencv庫實現以下功能(1.1)圖片的邊界填充核心流程:讀取原始圖像使用 cv2.imread() 加載名為 yueshan.png 的圖像文件統一邊界參數設定四周留白尺寸均為 50px(上下左右各…

HTTP協議-3-HTTP/2是如何維持長連接的?

先說結論:HTTP/2的“長連接” 一個TCP連接 多路復用 二進制幀 流控制 持久會話管理 它不只是“連接不斷”,更關鍵的是:在這個長連接上,可以同時并發傳輸成百上千個請求和響應,互不阻塞! 1、HTTP/2的“…

圖解希爾排序C語言實現

1 希爾排序 希爾排序(Shell Sort)是D.L.Shell于1959年提出來的一種排序算法,在這之前排序算法的時間復雜度基本都是O(n),希爾排序算法是突破這個時間復雜度的第一批算法之一。 1.1 基本概念與原理 希爾排序通過將原始列表分割成若…

網絡協議——HTTPS協議

目錄 一、HTTPS是什么 加密是什么 二、HTTPS的工作過程 (一)對稱加密 (二)非對稱加密 (三)在非對稱加密的基礎上,引入證書校驗 證書是什么 證書的內容 用證書解決中間人攻擊 三、總結 …

React 基礎實戰:從組件到案例全解析

React 基礎實戰專欄:從組件到案例全解析 本專欄圍繞 React 核心概念(組件、Props、State、生命周期)展開,通過 6個實戰案例+核心知識點拆解,幫你掌握 React 基礎開發邏輯,每篇聚焦1個實戰場景,搭配完整代碼與原理講解,適合 React 入門者鞏固基礎。 專欄目錄 【組件傳…

ARM芯片架構之CoreSight Channel Interface 介紹

CoreSight Channel Interface(通道接口)詳解1. 概述 Channel Interface 是 ARM CoreSight 架構中用于在不同組件之間傳遞觸發事件的專用接口。它是 Event Interface 的增強版本,支持多通道、雙向通信,以及同步與異步兩種時鐘域連接…

Blender模擬結構光3D Scanner(二)投影儀內參數匹配

關于投影儀外參的設置可參見前一篇文章 Blender模擬結構光3D Scanner(一)外參數匹配-CSDN博客 使用Projectors插件模擬投影儀 Step 1 在Github下載插件(https://github.com/Ocupe/Projectors)。下載zip壓縮包即可,無…

synchronized的作用

目錄 一、核心作用 二、實現原理:基于"對象鎖" 三、使用方式 四、鎖的優化 五、優缺點 六、總結 synchronized 是 Java 中用于解決多線程并發安全問題的核心關鍵字,它的主要作用是實現線程間的同步,確保多個線程在訪問共享資…

機試備考筆記 14/31

2025年8月14日 小結:(17號整理14號的筆記,這輩子真是有了w(゚Д゚)w)昨天摔了跤大的,今天好媽媽在家,松弛。省流:6道中等,明天只學了10分鐘嘻嘻 目錄LeetCode22…

dolphinscheduler中任務輸出變量的問題出現ArrayIndexOutOfBoundsException

一段腳本任務如下:ret/data/dolphinscheduler/loadOraTable.sh "yonbip/yonbip10.16.10.69:1521/orcl" "select t.bondcontractno,t.olcunissuemny from yonbip.bond_contract t " "/dmp/biz" "bip" "2025-08-13"…