深度學習-分類

深度學習-分類方式

      • (重點)一、按數據類型與處理邏輯分類
        • 1. 序列數據(時序/順序相關)
        • 2. 網格狀數據(空間相關)
        • 3. 圖結構數據(非歐幾里得結構)
        • 4. 其他特殊類型數據
      • (重點)二、按模型功能與應用場景分類
        • 1. 判別模型(分類/回歸)
        • 2. 生成模型
        • 3. 強化學習模型
        • 4. 無監督/自監督模型
      • 三、按網絡結構與核心機制分類
        • 1. 基于卷積的架構
        • 2. 基于循環的架構
        • 3. 基于自注意力的架構
        • 4. 基于膠囊的架構
      • 四、按網絡規模與訓練方式分類
        • 1. 小型輕量級模型
        • 2. 大型預訓練模型(大模型)
        • 3. 分布式訓練模型
      • (重點)五、按任務類型分類
        • 1. 計算機視覺(CV)模型
        • 2. 自然語言處理(NLP)模型
        • 3. 語音處理模型
        • 4. 跨領域模型
      • 六、總結:分類維度的交叉與融合

深度學習架構
├── 序列建模架構
│   ├── 基礎RNN
│   ├── 改進型RNN(LSTM、GRU、Bi-RNN)
│   └── 自注意力模型(Transformer)
├── 空間特征架構(CNN及變種)
├── 圖結構架構(GNN)
├── 生成模型(GAN、VAE、擴散模型)
└── 強化學習架構(DQN、Actor-Critic)
  • RNN是序列建模的核心基礎,LSTM/GRU等是其優化版本,而Transformer則是序列建模的革命性突破(通過自注意力機制替代循環結構)

  • 在深度學習領域,按數據類型與處理邏輯分類是最常見、最基礎的分類方式之一,因為它直接關聯數據的固有特性和模型的核心設計邏輯,也是初學者入門時最先接觸的分類框架。


(重點)一、按數據類型與處理邏輯分類

1. 序列數據(時序/順序相關)
  • 特點:數據元素之間存在時間或順序依賴(如文本、語音、股票價格)。

  • 代表模型

    • 循環神經網絡(RNN):基礎RNN、LSTM、GRU、Bi-RNN。
    • 自注意力模型:Transformer及其變體(BERT、GPT、T5等)。
    • 時序卷積網絡(TCN):用一維卷積處理序列數據,避免RNN的循環計算瓶頸。
2. 網格狀數據(空間相關)
  • 特點:數據具有二維(圖像)或三維(視頻、體素)空間結構。

  • 代表模型

    • 卷積神經網絡(CNN):LeNet、AlexNet、ResNet、U-Net。
    • 視覺Transformer(ViT):將圖像分塊后用自注意力機制處理。
    • 三維卷積網絡(3D CNN):用于視頻動作識別或醫學影像分析。
3. 圖結構數據(非歐幾里得結構)
  • 特點:數據由節點和邊組成(如社交網絡、分子結構、知識圖譜)。

  • 代表模型

    • 圖神經網絡(GNN):GCN(圖卷積網絡)、GAT(圖注意力網絡)、GraphSAGE。
    • 圖循環神經網絡(GRNN):結合RNN和圖結構的時序建模。
4. 其他特殊類型數據
  • 圖序列數據:如交通網絡的時序流量數據(需同時建模空間圖結構和時間序列),可使用時空圖神經網絡(ST-GNN)
  • 多模態數據:融合圖像、文本、語音等多種類型數據,如CLIP(圖像-文本跨模態模型)、AudioGPT(語音-文本模型)。

(重點)二、按模型功能與應用場景分類

領域判別式 AI(深度學習應用)生成式 AI(深度學習應用)
自然語言處理文本分類(BERT)、語音識別(RNN)文本生成(GPT)、機器翻譯(Transformer)
計算機視覺目標檢測(YOLO)、人臉識別(CNN)圖像生成(Diffusion 模型)、視頻預測
醫療領域癌癥病理圖像分類(CNN)醫學影像合成(VAE)、藥物分子設計(GAN)
自動駕駛路況識別(CNN+RNN)虛擬場景生成(模擬復雜路況,訓練自動駕駛模型)
1. 判別模型(分類/回歸)
  • 目標:對輸入數據進行分類或預測連續值。

  • 代表模型

    • 圖像分類:ResNet、EfficientNet。
    • 文本分類:TextCNN、FastText。
    • 回歸任務:基于CNN的圖像超分辨率模型、基于RNN的時序預測模型。
2. 生成模型
  • 目標:生成新的樣本數據(如圖像、文本、語音)。

  • 代表模型

    • 圖像生成:GAN(如StyleGAN)、擴散模型(如Stable Diffusion)。
    • 文本生成:GPT系列、LLaMA、PaLM。
    • 語音生成:WaveNet、Tacotron(語音合成)。
3. 強化學習模型
  • 目標:通過與環境交互學習最優行為策略。

  • 代表模型

    • Atari游戲AI:DQN(深度Q網絡)、Rainbow DQN。
    • 機器人控制:PPO(近端策略優化)、SAC(軟演員-評論家算法)。
    • 棋類游戲:AlphaGo(CNN+蒙特卡洛樹搜索)、AlphaZero(純神經網絡+強化學習)。
4. 無監督/自監督模型
  • 目標:從無標簽數據中學習特征表示。

  • 代表模型

    • 圖像特征學習:SimCLR(對比學習)、MoCo(動量對比)。
    • 文本預訓練:BERT(掩碼語言模型)、GPT(自回歸語言模型)。
    • 聚類模型:DeepCluster、DEC(深度嵌入聚類)。

三、按網絡結構與核心機制分類

1. 基于卷積的架構
  • 核心操作:卷積層(局部特征提取)+ 池化層(降維)。
  • 應用場景:圖像、音頻等網格狀數據。
  • 變種:空洞卷積、可變形卷積、分組卷積(如ResNeXt)。
2. 基于循環的架構
  • 核心操作:隱藏層狀態循環傳遞,捕捉序列依賴。
  • 應用場景:文本、語音等序列數據。
  • 變種:LSTM、GRU、雙向RNN。
3. 基于自注意力的架構
  • 核心操作:自注意力機制(全局依賴建模)。
  • 應用場景:序列數據(NLP)、圖像/視頻(CV)。
  • 代表模型:Transformer、ViT、Swin Transformer。
4. 基于膠囊的架構
  • 核心思想:用“膠囊”(向量神經元)替代傳統標量神經元,建模實體的姿態、位置等空間關系。
  • 代表模型:CapsNet(膠囊網絡),用于圖像識別中的姿態不變性建模。

四、按網絡規模與訓練方式分類

1. 小型輕量級模型
  • 特點:參數量少、計算效率高,適合邊緣設備或實時應用。
  • 代表模型:MobileNet(深度可分離卷積)、ShuffleNet(通道洗牌降參)、TinyBERT(模型蒸餾)。
2. 大型預訓練模型(大模型)
  • 特點:參數量巨大(數十億到萬億級),在海量數據上預訓練后微調。

  • 代表模型

    • NLP:GPT-4(1.8萬億參數)、PaLM 2、LLaMA 2。
    • CV:Swin Transformer V2、CLIP(40億參數)。
    • 多模態:GPT-4V(視覺-語言)、Gemini(文本-圖像-語音)。
3. 分布式訓練模型
  • 特點:單卡無法容納模型參數,需通過數據并行、模型并行、流水線并行等方式分布式訓練。
  • 技術挑戰:通信開銷、負載均衡、梯度同步(如DeepSpeed、Megatron-LM框架)。

(重點)五、按任務類型分類

1. 計算機視覺(CV)模型
  • 圖像分類、目標檢測、語義分割、圖像生成、視頻理解等。
  • 代表模型:YOLO(目標檢測)、Mask R-CNN(實例分割)、Stable Diffusion(圖像生成)。
2. 自然語言處理(NLP)模型
  • 文本分類、機器翻譯、問答系統、文本生成等。
  • 代表模型:BERT(雙向編碼)、GPT(自回歸生成)、T5(文本到文本遷移學習)。
3. 語音處理模型
  • 語音識別(ASR)、語音合成(TTS)、語音情感分析等。
  • 代表模型:DeepSpeech(語音轉文字)、Tacotron 2(文字轉語音)。
4. 跨領域模型
  • 多模態任務(如圖文檢索、視頻描述生成),如ALBEF(視覺-語言預訓練)、Flamingo(視頻-語言模型)。

六、總結:分類維度的交叉與融合

實際應用中,模型可能屬于多個分類維度的交叉領域,例如:

  • Transformer:既屬于“序列建模架構”(按數據類型),又屬于“基于自注意力的架構”(按核心機制),還可用于“生成模型”(如GPT)或“判別模型”(如BERT)。
  • ViT:屬于“網格狀數據架構”(處理圖像),但核心機制是自注意力,而非卷積。

這種多維分類方式體現了深度學習領域的靈活性和跨領域特性,不同維度的分類幫助研究者和工程師從數據特性、任務目標、技術原理等角度選擇或設計合適的模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/88950.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/88950.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/88950.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C語言---常見的字符函數和字符串函數介紹

目錄 前言 1 字符分類函數 2 字符轉換函數 3 strlen的使用和模擬實現 3.1 strlen的模擬實現 4 strcpy的使用和模擬實現 4.1 strcpy的模擬實現 5 strcat的使用和模擬實現 5.1 strcat的模擬實現 6 strcmp的使用和模擬實現 6.1 strcmp的模擬實現 7 strncpy函數的使用…

Minio入門+適配器模式(實戰教程)

一、安裝Minio 1.1 拉取鏡像 docker pull minio/minio docker images 1.2創建掛載目錄 1.2.1 創建數據目錄 mkdir -p /docker-minio/data 1.2.2 創建配置文件目錄 mkdir -p /docker-minio/config 1.2.3 設置權限 chmod -R 777 /docker-minio/data /docker-minio/config …

LLaMA-Factory 對 omnisql 進行 ppo dpo grpo nl2sql任務 實現難度 時間 全面對比

在LLaMA-Factory框架下,針對omnisql任務(自然語言到SQL生成)應用PPO、DPO、GRPO三種算法的實現難度、時間及全面對比如下: 一、實現難度對比 1. PPO(近端策略優化) 難度:★★☆☆☆&#xff…

Kingbase 數據庫中的 sys_guid() 函數報錯

解決 Kingbase 數據庫中的 sys_guid() 函數報錯問題 問題背景 Kingbase 數據庫在遷移或使用過程中,可能會遇到 select sys_guid() 函數報錯 , 提示函數不存在的情況,這通常是由于以下幾種原因造成的: 函數未正確安裝或未啟用函數參數不符合…

零基礎RT-thread第五節:電容按鍵(2)

上一章的電容按鍵完全使用的HAL庫的代碼,并沒有使用線程。這里嘗試使用線程來控制電容按鍵。 依舊是 F767 本來以為會很容易實現,沒想到嘗試了很久,電容按鍵一直沒有反應。 static rt_uint32_t measure_charge_time(void) {// 步驟1: 放電 …

華為云Flexus+DeepSeek征文|單機部署 與 CCE 高可用部署下 Dify 性能實測

引言 在當今的 AI 應用開發領域,選擇合適的部署方式對于應用的性能表現、資源利用和成本控制至關重要。華為云為開發者提供了多樣化的部署選擇,其中基于單機 Flexus 實例的基礎版部署和基于 CCE 容器的高可用版部署是兩種常見的方式。本文將深入對比這兩…

釘釘小程序框架:Pinia 狀態管理與持久化存儲封裝

上一篇文章完成了 Pinia 在釘釘小程序中的引入與基礎配置 文章地址:釘釘小程序框架引入 Pinia 狀態管理-CSDN博客 本文將深入探討如何通過Pinia 結合持久化存儲 實現用戶狀態 在上一章節中,我們已經完成了 Pinia 在釘釘小程序中的引入與基礎配置。本章將…

云計算產業鏈

一、云計算定義與分類體系 本質特征 按需服務模式:以網絡化方式提供可配置的計算資源共享池(網絡/服務器/存儲/應用)。核心能力:快速彈性擴容、資源池化共享、按使用量付費、低管理開銷。技術原理:通過分布式計算將大型…

git使用詳解和示例

什么是 Git? Git 是一個 分布式版本控制系統(DVCS),用于跟蹤文件的變化,協調多人協作開發。由 Linus Torvalds 開發,用于管理 Linux 內核代碼。 Git 的核心概念 名稱說明工作區 (Working Directory)你看到…

深度學習的引出

雖然我們的神經?絡給出了令?印象深刻的表現,但這樣的表現帶有?分神秘 ?絡中的權重和偏置是被?動發現的。這意味著我們不能?即解釋?絡怎么做的、做了什么。我們能否找 到?些?法來理解我們的?絡通過什么原理分類?寫數字?并且,在知道…

GEO(生成式引擎優化)—— 內容創作者與企業的生死新戰場

在搜索引擎優化(SEO)定義了互聯網信息獲取規則數十年后,一場由生成式人工智能(AIGC)驅動的風暴正悄然重塑整個格局。當ChatGPT、Claude、Gemini等AI助手能夠直接生成整合后的答案,而非僅僅提供鏈接列表時&a…

混合密度模型GMM的似然函數(二)

設 Θ { π k , θ k } k 1 K \varTheta \{ \pi_k, \boldsymbol {\theta}_k \}_{k1}^{K} Θ{πk?,θk?}k1K?為參數向量, X { x 1 , ? , x n } \mathcal {X} \{ {\bm x}_1, \cdots, {\bm x}_n \} X{x1?,?,xn?}為觀測數據,給定數據點的獨立性&a…

selenium元素定位

當我們可以打開瀏覽器后我們如果想要進行web測試我們自然要對網頁的一些功能進行單獨拿出來進行測試,但是我們要怎么才能拿到我們想要的元素,并且對其進行操作呢。 我們就以百度主頁的輸入框為例,如果我們想要王輸入框中輸入一些內容我們就需…

2025第十五屆上海生物發酵展:江蘇健達干燥盛裝赴會

2025 年 8 月 7 - 9 日,上海新國際博覽中心將迎來一場生物發酵行業的盛會 —— 第 15 屆上海國際生物發酵產品與技術裝備展覽會(BIOCHINA 2025)。作為國內干燥設備領域的領軍企業,江蘇健達干燥工程有限公司受邀盛裝參展&#xff0…

【效率工具】單機游戲修改方案:輕量管理器+全能平臺組合

大家好!今天我要給大家介紹兩款超級實用的軟件,專門為喜歡玩單機游戲的小伙伴們準備。 一、風靈月影管理器 不想滿網翻修改器?這個 27M 的小工具直接幫你一鍵搞定,這款軟件是由B站UP鴉無量 開發。 收錄上千款游戲補丁,…

七天學會SpringCloud分布式微服務——01——基礎概念

重點是復習體系,從今天6.24開始,確保轉化為自己的東西心平氣和,腳踏實地學習的是尚硅谷微服務 1、從單體架構到集群架構再到分布式架構 單體架構 就是 所有的功能(服務)模塊 都部署在同一臺服務器(一臺服…

三分鐘學會利用deepseek將復雜信息轉換成可視化圖表

數據可視化是傳達復雜信息的重要手段。通過將數據轉化為直觀的圖表、圖形和交互式界面,我們可以更高效地理解信息、發現趨勢并做出決策。對于普通人來說,要將數據可視化可謂千難萬難。但在AI工具飛速發展的今天,這個過程將會變得非常簡單。今天分享的內容就是如何使用生成式…

PDF處理控件Spire.PDF系列教程:Python中快速提取PDF文本、表格、圖像及文檔信息

在 Python 中讀取 PDF 文檔是實現文檔自動化、內容分析和數據提取的基礎操作之一。無論你處理的是合同、報告、發票,還是科研論文,能夠通過代碼訪問 PDF 內容,不僅能節省時間,還能帶來更高效的處理流程。 要在 Python 中準確提取…

微軟人工智能證書AI-102 | 如何快速通過?

微軟 AI-102 考試,全稱 “Designing and Implementing a Microsoft Azure AI Solution”,是微軟推出的用于驗證考生在 Azure 平臺上設計和實施 AI 解決方案核心能力的認證考試。以下是具體介紹: 考試描述: 考試主要衡量考生實施計…

github使用指南

1、生成SSH密鑰對 ssh-keygen -t ed25519 -C "你的github郵箱"然后根據提示保存路徑,設置密碼 2、將公鑰添加到github cat ~/.ssh/id_ed25519.pub復制輸出內容。 在gihub中點擊New SSH Key,添加密鑰 3、配置git使用SSH地址 git remote se…