學習筆記丨卷積神經網絡(CNN):原理剖析與多領域Github應用

本文深入剖析了卷積神經網絡(CNN)的核心原理,并探討其在計算機視覺、圖像處理及信號處理等領域的廣泛應用。下面就是本篇博客的全部內容!(內附相關GitHub數據庫鏈接)

目錄

一、什么是CNN?

二、CNN核心原理

(一)輸入層

(二)卷積層

(三)池化層

(四)全連接層和輸出層

(五)訓練過程

四、CNN之計算機視覺

(一)圖像分類

(二)目標檢測

(三)語義分割

(四)人臉識別

五、CNN之圖像處理

(一)圖像超分辨率

(二)圖像去噪

(三)圖像風格遷移

(四)圖像生成

六、CNN之信號處理

(一)語音識別

(二)音頻分類與事件檢測

(四)腦電/心電圖(EEG/ECG)分析

(五)自然語言處理(NLP)


一、什么是CNN?

卷積神經網絡(Convolutional Neural Network, CNN)?是一種專門設計用于處理具有網格狀拓撲結構數據(如圖像、視頻、語音信號)的深度學習模型。它通過模仿生物視覺皮層的工作原理,在圖像識別、目標檢測、語義分割等任務中展現出卓越性能,是計算機視覺領域的基石技術。

與初級視覺皮層相關的區域與CNN中的各層之間的對應關系?[圖源]

卷積神經網絡由五個主要部分組成。它們幫助CNN模擬人腦如何識別圖像中的模式和特征:

  • 輸入層(Input layer):接收原始像素數據。

  • 卷積層(Convolutional layer):提取局部特征。

  • 池化層(Pooling layer):壓縮特征,保留關鍵信息。(不一定會有)

  • 全連接層(Fully connected layer):整合所有高級特征,進行全局推理。

  • 輸出層(Output layer):給出預測結果。

CNN的基本結構?[圖源]

二、CNN核心原理

(一)輸入層

輸入層是CNN的第一層,負責接收和格式化原始數據,本身不進行特征提取(無權重參數),而是為后續卷積操作準備標準化的數據張量。可以類比于將宏觀的 “植物葉片圖像” 標準化為微觀的 “植物細胞組織排列數據” 。

??→?

數據標準化過程的比喻

當原始數據(圖像、視頻或語音信號等)抵達時,輸入層首先會將其組織成一種稱為張量(Tensor)的多維數組結構。

對于一張典型的彩色圖像,這個張量會被塑造為(高度, 寬度, 通道數)的形式,灰度圖像則對應(高度, 寬度, 1)?的單通道張量。例如,224像素高 x 224像素寬 x 3通道(對應RGB顏色通道)

處理視頻或語音信號時,輸入層會相應構建包含時間維度的更高維張量,如(幀數 x 高度 x 寬度 x 通道數 或 時間步長 x 通道數),或者將一維信號預處理成二維的時頻譜圖。

(二)卷積層

卷積層的運作,可以類比于一個由眾多小型特征探測器(稱為卷積核或濾波器)組成的精密掃描陣列。每個卷積核本質上是一個小型的權重矩陣,常見尺寸如3x3、5x5或7x7。

輸入圖像及其像素表示?[圖源]

這個探測器會在輸入數據(對于第一層是經過輸入層預處理的圖像張量,對于后續層則是上一層輸出的特征圖)上,以一種規律的方式(從左到右、從上到下)進行滑動掃描。在每一個停留的位置,卷積核會執行一個關鍵的數學操作:局部點乘累加

卷積層滑動掃描過程 [圖源]

具體來說,它將自身覆蓋的輸入數據局部小塊(稱為感受野)中的每個元素,與卷積核對應位置的權重值相乘,然后將所有這些乘積結果相加,最終在輸出特征圖的對應位置生成一個單一的數值。這個數值反映了輸入局部區域與卷積核所代表的特征模式(比如一個特定方向的邊緣或某種紋理)的匹配程度。

使用3x3內核的步幅1應用卷積任務?[圖源]

不太好理解的話,可以想象你拿一把帶圖案的“小印章”(卷積核),在整張圖片上挨個角落“蓋章”。

  • 蓋章過程(卷積操作):印章蓋住的每個小區域,你都看一眼:“這小塊圖案和我印章的圖案像不像?”?越像,就在新圖紙(特征圖)對應位置畫個大紅點(數值越大)。

  • 一把印章(多個卷積核):你手里不只有一個印章!你有幾十個不同的印章——有的專門認“橫線”,有的專找“豎線”,有的找“橙色三角”... 每個印章都蓋遍全圖,生成自己專屬的“紅點圖”(一張特征圖)。

一個卷積層通常包含多個(數十甚至數百個)不同的卷積核,其中有幾個卷積核就有幾個特征圖。因此,卷積層輸出的不是一個單一的“圖”,而是一個特征圖堆棧,其深度(通道數)等于該層卷積核的數量。淺層的卷積核可能學習到邊緣、角點、顏色斑點等低級特征;深層的卷積核則能組合這些低級特征,檢測出更復雜的模式,如紋理、部件(車輪、眼睛)乃至完整的物體輪廓。

?卷積核堆疊在一起?[圖源]

(三)池化層

池化層的核心作用在于,降低特征圖的空間尺寸,減少計算量和參數量,同時增強特征的空間不變性(對微小平移、旋轉、縮放不敏感)。

?使用2x2濾波器以2的步幅應用最大池化?[圖源]

常用的方式包括:

  • 最大池化(Max Pooling):取窗口區域內的最大值。最能保留顯著特征。

最大池化?[圖源]

  • 平均池化(Average Pooling):取窗口區域內的平均值。

平均池化?[圖源]

(四)全連接層和輸出層

全連接層通常位于網絡末端,在多個卷積-激活-池化層之后。其作用主要是將前面提取到的高度抽象化的特征圖“展平”成一維向量,并連接到一個或多個全連接層。這些層整合所有特征信息,最終輸出分類概率或回歸值,從而實現從局部特征到全局語義理解的映射。

全連接層 [圖源]

(五)訓練過程

CNN的訓練過程本質上是一個通過數據驅動、不斷自我修正的優化過程,其核心目標是讓網絡學會從輸入數據(如圖像)中自動提取有意義的特征,并做出準確的預測。其關鍵內容包括:

  • 損失函數:衡量網絡預測結果與真實標簽的差距(如交叉熵用于分類,均方誤差用于回歸)。

  • 反向傳播:利用鏈式法則,計算損失函數相對于網絡中每個參數的梯度。

  • 優化算法:如隨機梯度下降(SGD)及其變種(Adam, RMSprop),利用梯度信息更新網絡權重,最小化損失函數。

四、CNN之計算機視覺

(一)圖像分類

  • 任務:?識別圖像中的主要對象類別,如“貓”、“狗”、“汽車”。

  • 經典網絡:?AlexNet (2012年ImageNet競賽冠軍)、VGGNet、GoogLeNet (Inception)、ResNet。這些網絡在ImageNet等大規模數據集上取得了遠超傳統方法的準確率。

網絡名稱提出時間主要貢獻者網絡深度關鍵創新ImageNet Top-5錯誤率GitHub資源
AlexNet2012Alex Krizhevsky et al.8層(5卷積+3全連接)首次使用ReLU激活函數、Dropout正則化、雙GPU并行訓練、LRN層16.4%bvlc_alexnet
VGGNet2014Oxford VGG組16/19層全3×3小卷積核堆疊、結構簡潔一致、取消LRN7.3% (VGG16)pytorch-vgg
GoogLeNet (Inception)2014Google (Christian Szegedy)22層Inception模塊(多尺度并行卷積)、1×1卷積降維、全局平均池化替代全連接層6.7%inception-v3
ResNet2015Microsoft (Kaiming He et al.)18–152層殘差連接(跳連)解決梯度消失、Bottleneck結構、批歸一化(BN)3.57% (ResNet-152)resnet-pytorch

GitHub資源擴展

→ 完整實現庫

PyTorch官方模型庫(提供AlexNet、VGG、GoogLeNet、ResNet的預訓練實現)

TensorFlow模型倉庫(包含Inception-v3/v4及ResNet變種)

→ 訓練示例

AlexNet實戰(原始作者代碼)

ResNet圖像分類示例(CIFAR-10數據集)

(二)目標檢測

  • 任務:?定位圖像中多個感興趣目標的位置(通常用邊界框表示)并識別其類別。

  • 代表算法:?R-CNN系列 (Fast R-CNN, Faster R-CNN, Mask R-CNN)、YOLO (You Only Look Once)、SSD (Single Shot MultiBox Detector)。廣泛應用于安防監控、自動駕駛(行人車輛識別)、醫學影像分析。

算法提出時間核心創新點主要優勢

典型

應用場景

GitHub資源庫

(★表示Star數)

R-CNN2014首用CNN提取區域特征 + SVM分類比傳統方法mAP提升30%以上高精度靜態圖像分析rbgirshick/rcnn?(舊版參考) ★3.4k
Fast R-CNN2015RoI Pooling(共享卷積計算)提速10倍,端到端訓練中等實時性檢測系統rbgirshick/fast-rcnn?★4.2k
Faster R-CNN2015RPN(Region Proposal Network)替換Selective Search候選框生成僅10ms,首個全微分框架實時高精度檢測ShaoqingRen/faster_rcnn?(Matlab) ★4.1k
endernewton/tf-faster-rcnn?(TensorFlow) ★4k
Mask R-CNN2017RoIAlign + 分割分支支持實例分割,邊界更精確圖像分割與檢測一體化matterport/Mask_RCNN?★24k
YOLO系列2016-2025單階段檢測(回歸框與類別)極快推理速度(45-150 FPS)實時視頻流分析ultralytics/yolov5?★47k
Egrt/yolov7-obb?(旋轉目標版) ★0.8k
YOLOs-CPP?(C++部署庫,支持YOLOv5-11) ★1.2k
SSD2016多尺度特征圖檢測 + 預設錨框平衡速度與精度(59mAP@VOC)移動端嵌入式設備balancap/SSD-Tensorflow?★4.2k
alvarocfc/pytorch-ssd?(中文注釋版) ★1.1k

(三)語義分割

  • 任務:?為圖像中的每個像素分配一個類別標簽。

  • 核心網絡:?全卷積網絡(FCN)、U-Net(在醫學圖像分割中表現卓越)、DeepLab系列。應用于自動駕駛(道路場景理解)、遙感圖像解譯、醫療影像分析(器官/病灶分割)。

模型/年份核心創新點主要優勢典型應用場景GitHub資源

FCN

(2015)

全卷積替換全連接層;反卷積上采樣;跳級結構(FCN-8s)支持任意尺寸輸入;端到端像素級預測;保留空間位置信息自動駕駛(道路標記)、遙感(土地分類)shelhamer/fcn.berkeleyvision.org

U-Net

(2015)

對稱編碼器-解碼器;跳躍連接融合多尺度特征醫學影像小數據高效訓練;邊界分割精度高;適應低對比度圖像乳腺腫瘤分割(INbreast/DDSM)、腦腫瘤MRI分析bubbliiiing/unet-pytorch
DeepLabv3+ (2018)空洞卷積解決下采樣;ASPP多尺度池化;編解碼器增強平衡精度與速度;深度可分離卷積減少計算量;目標邊界精細化城市景觀分割(Cityscapes)、手機實時分割(如肖像模式)tensorflow/models/deeplab

(四)人臉識別

從檢測人臉、定位關鍵點(如眼睛、鼻子)到提取深度特征并進行身份驗證或識別,CNN是核心技術支柱。

數據集資源(GitHub關聯項目)

Flickr-Faces-HQ (FFHQ):7萬張1024×1024高清人臉,覆蓋多屬性。

LFW (Labeled Faces in the Wild):1.3萬張無約束環境人臉,用于基準測試。

CelebA:20萬名人圖像含40種屬性標注,適合多任務學。

五、CNN之圖像處理

(一)圖像超分辨率

  • 任務:?從低分辨率圖像重建高分辨率圖像。

  • 代表網絡:?SRCNN (首開CNN用于超分之先河)、ESPCN、EDSR、RCAN。廣泛應用于提升老照片/視頻畫質、醫學影像增強、衛星圖像處理。

模型提出時間核心創新點基本結構輸入處理方式主要貢獻GitHub數據庫
SRCNN2014 (ECCV)首個將CNN用于超分辨率的模型三層卷積:特征提取、非線性映射、重建LR圖像經雙三次插值上采樣開創深度學習超分領域,建立端到端映射官方代碼?(Matlab/Caffe)
ESPCN2016 (CVPR)亞像素卷積層(Sub-pixel Convolution)多卷積層+通道重排上采樣直接輸入LR圖像在LR空間計算卷積,效率提升10倍以上實現代碼
EDSR2017 (CVPR)移除BN層,殘差塊堆疊多層殘差塊+單上采樣層雙三次插值預處理NTIRE 2017超分冠軍,支持多尺度重建BasicSR集成
RCAN2018 (ECCV)通道注意力機制(RG+CAB)殘差組+通道注意力塊+全局殘差連接雙三次插值預處理自適應特征通道加權,提升大倍數重建效果官方代碼

(二)圖像去噪

  • 任務:?去除圖像中的噪聲(如高斯噪聲、椒鹽噪聲),恢復清晰圖像。

  • 代表方法:?DnCNN、FFDNet。在低光照攝影、醫學成像、遙感等領域至關重要。

特性DnCNNFFDNet
提出時間2017年2018年(DnCNN的升級版)
核心創新殘差學習 + 批量標準化(BN)噪聲水平圖輸入 + 下采樣/上采樣架構
網絡架構3部分:
1. Conv+ReLU(1層)
2. Conv+BN+ReLU(多層,通常17/20層)
3. Conv(1層)
結構與DnCNN相似,但輸入為四張降采樣子圖 + 噪聲水平圖,輸出需上采樣融合
損失函數均方誤差(MSE)均方誤差(MSE)
適用噪聲高斯噪聲(單模型支持盲去噪)高斯噪聲 + 空間變化噪聲(通過噪聲圖靈活控制)
優勢超越BM3D的PSNR指標,訓練收斂快計算量更低,噪聲適應性強,支持非均勻噪聲
官方/主流實現鏈接

husqin/DnCNN-keras(Keras復現版,支持TensorFlow后端)

cszn/DnCNN(官方Matlab實現,包含預訓練模型及測試代碼)

cszn/FFDNet(官方PyTorch實現,支持灰度/彩色圖像去噪)

(三)圖像風格遷移

  • 任務:?將一幅圖像的內容與另一幅圖像的藝術風格融合,生成新圖像。

  • 開創性工作:?Gatys等人首次利用CNN特征實現了藝術風格遷移。后續有更快的優化方法。

項目名稱GitHub鏈接

框架/

語言

主要特點相關論文
CNNMRFchuanli11/CNNMRFTorch結合馬爾可夫隨機場(MRF)與CNN,通過局部紋理匹配提升風格化細節效果;速度較慢但質量高Combining Markov Random Fields and CNN for Image Synthesis?
fast-neural-stylejcjohnson/fast-neural-styleTorch李飛飛團隊開源,前饋網絡實現實時風格遷移(50ms/幀);支持實例歸一化(Instance Normalization)提升質量Perceptual Losses for Real-Time Style Transfer?
PyTorch-Style-TransferVioleshnv/neural-transferPyTorch經典Gatys算法實現,使用VGG19提取特征,通過Gram矩陣計算風格損失;支持自定義層權重A Neural Algorithm of Artistic Style?
Contextual-Loss-PyTorchz-bingo/Contextual-Loss-PyTorchPyTorch針對非對齊數據的感知損失函數,通過特征相似度優化風格遷移細節;支持多GPU訓練The Contextual Loss for Image Transformation?
StyTR-2diyiiyiii/StyTR-2PyTorch引入Transformer解決CNN長距離依賴問題,提出內容感知位置編碼(CAPE);內容/風格損失最低StyTr2: Image Style Transfer with Transformers?

(四)圖像生成

  • 任務:?學習真實圖像數據的分布,生成新的、逼真的圖像。

  • 代表模型:?生成對抗網絡(GAN)?的生成器通常基于CNN架構,如DCGAN。應用于藝術創作、數據增強、游戲開發。

項目名稱GitHub鏈接主要功能技術特點
DCGAN (TensorFlow)carpedm20/DCGAN-tensorflowMNIST/CelebA圖像生成基礎DCGAN實現,支持自定義數據集輸入
AnimeGANTachibanaYoshino/AnimeGAN真實照片轉漫畫風格結合VGG19計算風格損失,優化生成圖像的藝術性
pix2pixHDNVIDIA/pix2pixHD高分辨率(2048×1024)圖像翻譯(如語義圖→照片)多尺度判別器,生成超高清圖像
SinGANtamarott/SinGAN單張圖像訓練生成模型,支持超分辨率/動畫生成金字塔結構,從單一圖像學習多尺度特征
DeblurGANKupynOrest/DeblurGAN運動模糊圖像復原條件GAN,結合感知損失提升復原清晰度

六、CNN之信號處理

(一)語音識別

  • 任務:?將語音信號轉換為文字。

  • 應用:?CNN可以有效地處理語音信號的時頻譜圖,提取魯棒的聲學特征,作為端到端語音識別系統的重要組成部分,常結合RNN/LSTM/Transformer。在智能音箱、語音輸入法中廣泛應用。

項目名稱核心架構支持語言GitHub地址特點
wav2letter++全卷積網絡(聲學+語言模型)多語言facebookresearch/wav2letterFacebook開源,純CNN端到端識別,推理速度業界領先,支持CPU/GPU高效訓練,詞錯率低至5%?
ASRTCNN+CTC + 語言模型中文nl8590687/ASRT_SpeechRecognition基于VGG式深層CNN處理語譜圖,拼音轉文本流程完整,提供預訓練模型及Windows應用?
CNN+DFSMN4層CNN + 6層DFSMN + CTC通用makeplanetoheaven/NlpModel融合CNN特征提取與阿里DFSMN結構,支持LayerNorm和Swish激活函數,針對長序列優化
sherpa-ncnnConformer/CTC + NCNN推理框架多語言k2-fsa/sherpa-ncnn專為嵌入式設備設計,支持離線識別,依賴輕量級NCNN庫,實時性高
CNN-Baseline基礎CNN + Mel頻譜特征通用datawhalechina/team-learning零基礎入門項目,使用Librosa提取Mel特征,適合語音分類任務教學
語音情感識別CNN/LSTM + 多特征融合中/英/德

示例倉庫

?(鏈接缺失)

支持Opensmile和Librosa特征提取,實現多語言情感分類(憤怒、快樂等),準確率80%

(二)音頻分類與事件檢測

  • 任務:?識別音頻片段中的聲音類別或檢測特定事件。

  • 方法:?將音頻信號轉換為時頻表示,如梅爾頻譜圖、梅爾倒譜系數MFCC圖,作為CNN的輸入進行特征學習和分類。

項目名稱數據集模型架構技術特點應用場景

GitHub

鏈接/來源

AudioSet ToolsAudioSetCNN (VGGish等)提供預訓練VGGish模型;支持弱標簽學習;兼容TensorFlow/PyTorch通用音頻事件分類audioset/ontology
UrbanSound8K分類UrbanSound8KCRNN (CNN+GRU)梅爾頻譜輸入;結合CNN空間特征與RNN時序建模;支持數據增強城市環境聲音識別apachecn-dl-zh?示例代碼
ESC-50事件檢測ESC-50CNN/CRNN模型輕量化(TFLite導出);支持剪枝與量化壓縮;實時性優化移動端聲音事件檢測CSDN資源
音樂流派分類FMA Small并行CNN-RNN梅爾頻譜輸入;雙分支特征融合;激活可視化(Keras-Vis)音樂流派識別priya-dwivedi/Music_Genre_Classification
R-CRNNDCASE 2017區域卷積循環網絡端到端事件定位;多任務損失(分類+定位);超越Faster-RCNN高精度音頻事件檢測研究論文

(四)腦電/心電圖(EEG/ECG)分析

  • 任務:?從腦電波或心電信號中檢測異常、識別模式、進行分類(癲癇發作檢測、心律失常分類等)。

  • 方法:?將一維生理信號轉換為二維表示(如時頻譜圖),或直接利用一維卷積處理原始信號。CNN能夠自動學習信號中的關鍵特征,輔助醫生診斷。

項目名稱GitHub鏈接主要技術適用信號主要應用場景亮點與特點
TSceptionyi-ding-cs/TSception多尺度時空卷積(動態時序+空間不對稱層)EEG情感識別聯合學習時間動態與空間不對稱特征,在DEAP/MAHNOB-HCI數據集上超越EEGNet等模型
FBCNetravikiran-mane/FBCNet濾波器組CNN + 方差層(時序特征壓縮)EEG運動想象(MI)分類融合FBCSP與CNN,提出方差層替代池化,在BCI競賽IV-2a數據集達SOTA(79%)
EEG-CorrelationRomRoc/EEG-Correlation-Based-AnalysisCNN-LSTM混合模型EEG飛行員工作負荷分類針對腦電相關性分析設計,提供完整預處理流程與模型代碼
EEG-DLSuperBruceJia/EEG-DLTensorFlow EEG分類庫(支持多種CNN架構)EEG通用腦電任務分類集成Motor Imagery數據集處理工具,支持數據→Matlab→訓練流水線
torch_ecgDeepPSP/torch_ecgCRNN/U-Net/RR-LSTM + 數據增強模塊ECG心律失常分類/血壓預測模塊化設計(增廣器+預處理器),覆蓋12導聯ECG分析,支持遷移學習

Cuffless_

BP_Prediction

jeya-maria-jose/Cuff_less_BP_PredictionCNN回歸模型(ECG+PPG信號融合)ECG/PPG無袖帶血壓預測基于UCI數據庫,提供特征工程與端到端深度學習方案

mit-bih_ecg_

recognition

lxy764139720/mit-bih_ecg_recognitionRNN-CNN混合(小波去噪+MIT-BIH處理)ECG心律失常五分類(N/A/V/L/R)完整MIT-BIH預處理代碼(WFDB庫),包含小波去噪與R峰定位

(五)自然語言處理(NLP)

雖然RNN和Transformer在NLP中占主導,但CNN也可用于文本分類(如情感分析)、關鍵信息抽取等任務。通常將詞嵌入向量視為“一維圖像”,應用一維卷積捕捉局部詞序列模式。

資源庫名稱與鏈接主要貢獻/特點編程語言Star數量最近更新支持任務
fastTextFacebook開發的文本分類庫,支持CNN優化C++, Python26.8k2025-06文本分類、詞嵌入
deeplearning4j企業級深度學習庫,含CNN文本處理模塊Java, Scala13.2k2025-05文本分類、序列標注
dennybritz/cnn-text-classification-tfTensorFlow實現經典TextCNN(Kim, 2014)Python3.6k2022-11文本分類
brightmart/text_classification集成CNN/RNN/Attention的文本分類框架Python10.3k2023-04多標簽分類
pytorch/textPyTorch官方NLP工具庫,含CNN示例Python3.4k2025-05文本分類、序列處理
yoonkim/CNN_sentenceCNN文本分類開山論文(EMNLP 2014)代碼Python2.4k2015-01句子分類
Shawn1993/cnn-text-classification-pytorchPyTorch輕量級TextCNN實現Python1.2k2023-08文本分類
jiegzhan/multi-channel-text-cnn多通道TextCNN(支持動態/靜態詞向量)Python3202020-03文本分類
roomylee/cnn-text-classification支持多種CNN變體的模塊化實現Python2802021-09文本分類

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/90696.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/90696.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/90696.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

cnpm exec v.s. npx

1. 核心定位與設計目標 npx (Node Package Executor): 定位: Node.js 內置工具(npm 5.2 起捆綁),核心目標是便捷地執行本地或遠程 npm 包中的命令,無需全局安裝。核心價值: 避免全局污染: 臨時使用某個 CLI 工具&#…

我花10個小時,寫出了小白也能看懂的數倉搭建方案

目錄 一、什么是數據倉庫 1.面向主題 2.集成 3.相對穩定 4.反映歷史變化 二、數倉搭建的優勢 1.性能 2.成本 3.效率 4.質量 三、數倉搭建要考慮的角度 1.需求 2.技術路徑 3.數據路徑 4.BI應用路徑 四、如何進行數倉搭建 1.ODS層 2.DW層 3.DM層 五、寫在最后…

OBB旋轉框檢測配置與訓練全流程(基于 DOTA8 數據集)

🚀 YOLO交通標志識別實戰(五):OBB旋轉框檢測配置與訓練全流程(基于 DOTA8 數據集) 在專欄前面四篇里,我們完成了: ? Kaggle交通標志數據集下載并重組標準YOLO格式 ? 訓練/驗證集拆…

uniapp制作一個視頻播放頁面

1.產品展示2.頁面功能(1)點擊上方按鈕實現頁面跳轉&#xff1b;(2)點擊相關視頻實現視頻播放。3.uniapp代碼<template><view class"container"><!-- 頂部分類文字 --><view class"categories"><navigator class"category-…

8.卷積神經網絡基礎

8.1 卷積核計算 import torch from torch import nn import matplotlib.pyplot as plt def corr2d(X,k):#計算二維互相關運算h,wk.shape#卷積核的長和寬Ytorch.zeros((X.shape[0]-h1,X.shape[1]-w1))#創建(X-H1,X-W1)的全零矩陣for i in range(Y.shape[0]):for j in range(Y.s…

【每天一個知識點】子空間聚類(Subspace Clustering)

“子空間聚類&#xff08;Subspace Clustering&#xff09;”是一種面向高維數據分析的聚類方法&#xff0c;它通過在數據的低維子空間中尋找簇結構&#xff0c;解決傳統聚類在高維空間中“維度詛咒”帶來的問題。子空間聚類簡介在高維數據分析任務中&#xff0c;如基因表達、圖…

《匯編語言:基于X86處理器》第7章 整數運算(2)

本章將介紹匯編語言最大的優勢之一:基本的二進制移位和循環移位技術。實際上&#xff0c;位操作是計算機圖形學、數據加密和硬件控制的固有部分。實現位操作的指令是功能強大的工具&#xff0c;但是高級語言只能實現其中的一部分&#xff0c;并且由于高級語言要求與平臺無關&am…

JVM故障處理與類加載全解析

1、故障處理工具基礎故障處理工具jps&#xff1a;可以列出正在運行的虛擬機進程&#xff0c;并顯示虛擬機執行主類&#xff08;Main Class&#xff0c;main()函數所在的類&#xff09;名稱以及這些進程的本地虛擬機唯一ID&#xff08;LVMID&#xff0c;Local Virtual Machine I…

Python 第三方庫的安裝與卸載全指南

在 Python 開發中&#xff0c;第三方庫是提升效率的重要工具。無論是數據分析、Web 開發還是人工智能領域&#xff0c;都離不開豐富的第三方資源。本文將詳細介紹 Python 第三方庫的安裝與卸載方法&#xff0c;幫助開發者輕松管理依賴環境。 一、第三方庫安裝方法 1. pip 工具…

RabbitMQ 高級特性之消息分發

1. 為什么要消息分發當 broker 擁有多個消費者時&#xff0c;就會將消息分發給不同的消費者&#xff0c;消費者之間的消息不會重復&#xff0c;RabbitMQ 默認的消息分發機制是輪詢&#xff0c;但會無論消費者是否發送了 ack&#xff0c;broker 都會繼續發送消息至消費者&#x…

Linux操作系統從入門到實戰:怎么查看,刪除,更新本地的軟件鏡像源

Linux操作系統從入門到實戰&#xff1a;怎么查看&#xff0c;刪除&#xff0c;更新本地的軟件鏡像源前言一、 查看當前鏡像源二、刪除當前鏡像源三、更新鏡像源四、驗證前言 我的Linux版本是CentOS 9 stream本篇博客我們來講解怎么查看&#xff0c;刪除&#xff0c;更新國內本…

兩臺電腦通過網線直連形成局域網,共享一臺wifi網絡實現上網

文章目錄一、背景二、實現方式1、電腦A&#xff08;主&#xff09;2、電腦B3、防火墻4、驗證三、踩坑1、有時候B上不了網一、背景 兩臺windows電腦A和B&#xff0c;想通過**微軟無界鼠標&#xff08;Mouse without Borders&#xff09;**實現一套鍵盤鼠標控制兩臺電腦&#xf…

Java Reference類及其實現類深度解析:原理、源碼與性能優化實踐

1. 引言&#xff1a;Java引用機制的核心地位在JVM內存管理體系中&#xff0c;Java的四種引用類型&#xff08;強、軟、弱、虛&#xff09;構成了一個精巧的內存控制工具箱。它們不僅決定了對象的生命周期&#xff0c;還為緩存設計、資源釋放和內存泄漏排查提供了基礎設施支持。…

華為云對碳管理系統的全生命周期數據處理流程

碳管理系統的全生命周期數據處理流程包含完整的數據采集、處理、治理、分析和應用的流程架構,可以理解為是一個核心是圍繞數據的“采集-傳輸-處理-存儲-治理-分析-應用”鏈路展開。以下是對每個階段的解釋,以及它們與數據模型、算法等的關系: 1. 設備接入(IoTDA) 功能: …

大模型安全風險與防護產品綜述 —— 以 Otter LLM Guard 為例

大模型安全風險與防護產品綜述 —— 以 Otter LLM Guard 為例 一、背景與安全風險 近年來&#xff0c;隨著大規模預訓練語言模型&#xff08;LLM&#xff09;的廣泛應用&#xff0c;人工智能已成為推動文檔處理、代碼輔助、內容審核等多領域創新的重要技術。然而&#xff0c;…

1.2.2 計算機網絡分層結構(下)

繼續來看計算機網絡的分層結構&#xff0c;在之前的學習中&#xff0c;我們介紹了計算機網絡的分層結構&#xff0c;以及各層之間的關系。我們把工作在某一層的軟件和硬件模塊稱為這一層的實體&#xff0c;為了完成這一層的某些功能&#xff0c;同一層的實體和實體之間需要遵循…

實訓八——路由器與交換機與網線

補充——基本功能路由器&#xff1a;用于不同邏輯網段通信的交換機&#xff1a;用于相同邏輯網段通信的1.網段邏輯網段&#xff08;IP地址網段&#xff09;&#xff1a;IP地址的前三組數字代表不同的邏輯網段&#xff08;有限條件下&#xff09;&#xff1b;IP地址的后一組數字…

C++——構造函數的補充:初始化列表

C中&#xff0c;構造函數為成員變量賦值的方法有兩種&#xff1a;構造函數體賦值和初始化列表。構造函數體賦值是在構造函數里面為成員變量賦值&#xff0c;如&#xff1a;class Data { public://構造函數體賦值Data(int year,int month,int day){_year year;_month month;_d…

代碼隨想錄|圖論|12島嶼周長

leetcode:106. 島嶼的周長 題目 題目描述 給定一個由 1&#xff08;陸地&#xff09;和 0&#xff08;水&#xff09;組成的矩陣&#xff0c;島嶼是被水包圍&#xff0c;并且通過水平方向或垂直方向上相鄰的陸地連接而成的。 你可以假設矩陣外均被水包圍。在矩陣中恰好擁有…

開發制作模仿參考抄別人的小程序系統

很多老板看見別人公司的小程序系統界面好看&#xff0c;功能強大&#xff0c;使用人數多。就想要抄襲模仿參考別人家的小程序系統。想要了解一下有沒有侵權風險&#xff0c;以及怎么開發制作開發制作模仿參考抄別人的小程序系統。首先回答第一個問題&#xff0c;只要你的小程序…