近年來,隨著卷積神經網絡(CNN)等深度學習技術的飛速發展,人工智能迎來了第三次發展浪潮,AI技術在各行各業中的應用日益廣泛。
注意力機制:理解其在現代深度學習中的關鍵作用;
Transformer模型:深入剖析BERT、GPT(1/2/3/3.5/4)、DETR、ViT、Swin Transformer等經典模型的原理與應用;
生成式模型:探索變分自編碼器VAE、生成式對抗網絡GAN、擴散模型(Diffusion Model)等技術;
目標檢測算法:詳細講解R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD等算法的實現與優化;
圖神經網絡:深入研究GCN、GAT、GIN等圖神經網絡模型的應用;
強化學習:解析Q-Learning、DQN等經典強化學習算法;
深度學習模型可解釋性與可視化:介紹CAM、Grad-CAM、LIME、t-SNE等技術,提升模型的可理解性。
第一章、注意力(Attention)機制
1、注意力機制的背景和動機(為什么需要注意力機制?注意力機制的起源和發展里程碑)。
2、注意力機制的基本原理(什么是注意力機制?注意力機制的數學表達與基本公式、用機器翻譯任務帶你了解Attention機制、如何計算注意力權重?)
3、注意力機制的主要類型:鍵值對注意力機制(Key-Value Attention)、自注意力(Self-Attention)與多頭注意力(Multi-Head Attention)、Soft Attention 與 Hard Attention、全局(Global)與局部(Local)注意力
4、注意力機制的優化與變體:稀疏注意力(Sparse Attention)、自適應注意力(Adaptive Attention)、動態注意力機制(Dynamic Attention)、跨模態注意力機制(Cross-Modal Attention)
5、注意力機制的可解釋性與可視化技術:注意力權重的可視化(權重熱圖)
6、案例
第二章、自然語言處理(NLP)領域的Transformer模型
1、Transformer模型的提出背景(從RNN、LSTM到注意力機制的演進、Transformer模型的誕生背景及其在自然語言處理和計算視覺中的重要性)
2、Transformer模型的進化之路(RCTM→RNN Encoder-Decoder→Bahdanau Attention→Luong Attention→Self Attention)
3、Transformer模型拓撲結構(編碼器、解碼器、多頭自注意力機制、前饋神經網絡、層歸一化和殘差連接等)
4、Transformer模型工作原理(輸入數據的Embedding、位置編碼、層規范化、帶掩碼的自注意力層、編碼器到解碼器的多頭注意力層、編碼器的完整工作流程、解碼器的完整工作流程、Transformer模型的損失函數)
5、BERT模型的工作原理(輸入表示、多層Transformer編碼器、掩碼語言模型MLM、下一句預測NSP)
6、GPT系列模型(GPT-1 / GPT-2 / GPT-3 / GPT-3.5 / GPT-4)的工作原理(單向語言模型、預訓練、自回歸生成、Zero-shot Learning、上下文學習、RLHF人類反饋強化學習、多模態架構)
7、案例
第三章、計算視覺(CV)領域的Transformer模型
1、ViT模型(提出的背景、基本架構、與傳統CNN的比較、輸入圖像的分塊處理、位置編碼、Transformer編碼器、分類頭、ViT模型的訓練與優化、ViT模型的Python代碼實現)
2、Swin Transformer模型(提出的背景、基本架構、與ViT模型的比較、分層架構、窗口機制、位置編碼、Transformer編碼器、模型的訓練與優化、模型的Python代碼實現)
3、DETR模型(提出的背景、基本架構、與RCNN、YOLO系列模型的比較、雙向匹配損失與匈牙利匹配算法、匹配損失與框架損失、模型的訓練與優化、模型的Python代碼實現)
4、案例
第四章、時間序列建模與預測的大語言模型
1、時間序列建模的大語言模型技術細節(基于Transformer的時間序列預測原理、自注意力機制、編碼器-解碼器結構、位置編碼)
2、時間序列建模的大語言模型訓練
3、Time-LLM模型詳解(拓撲結構簡介、重新編程時間序列輸入、Prompt-as-Prefix (PaP)等)
4、基于TimeGPT的時間序列預測(TimeGPT工作原理詳解、TimeGPT庫的安裝與使用)
5、案例
第五章、目標檢測算法
1、目標檢測任務與圖像分類識別任務的區別與聯系。
2、兩階段(Two-stage)目標檢測算法:R-CNN、Fast R-CNN、Faster R-CNN(RCNN的工作原理、Fast R-CNN和Faster R-CNN的改進之處 )。
3、一階段(One-stage)目標檢測算法:YOLO模型、SDD模型(拓撲結構及工作原理)。
4、案例
第六章、目標檢測的大語言模型
1、基于大語言模型的目標檢測的工作原理(輸入圖像的特征提取、文本嵌入的生成、視覺和語言特征的融合、目標檢測與輸出)
2、目標檢測領域的大語言模型概述(Pix2Seq、Grounding DINO、Lenna等)
3、案例
第七章、語義分割的大語言模型
1、基于大語言模型的語義分割的工作原理(圖像特征提取、文本嵌入生成、跨模態融合、分割預測)
2、語義分割領域的大語言模型概述(ProLab、Segment Anything Model、CLIPSeg、Segment Everything Everywhere Model等)
3、案例
第八章、LLaVA多模態大語言模型
1、LLaVA的核心技術與工作原理(模型拓撲結構講解)
2、LLaVA與其他多模態模型的區別(LLaVA模型的優勢有哪些?)
3、LLaVA的架構與訓練(LLaVA的多模態輸入處理與特征表示、視覺編碼器與語言模型的結合、LLaVA的訓練數據與預訓練過程)
4、LLaVA的典型應用場景(圖像問答、圖像生成與描述等)
5、案例
第九章、物理信息神經網絡(PINN)
1、物理信息神經網絡的背景(物理信息神經網絡(PINNs)的概念及其在科學計算中的重要性、傳統數值模擬方法與PINNs的比較)
2、PINN工作原理:物理定律與方程的數學表達、如何將物理定律嵌入到神經網絡模型中?PINN的架構(輸入層、隱含層、輸出層的設計)、物理約束的形式化(如何將邊界條件等物理知識融入網絡?)損失函數的設計(數據驅動與物理驅動的損失項)
3、案例
第十章、生成式模型
1、變分自編碼器VAE(自編碼器的基本結構與工作原理、降噪自編碼器、掩碼自編碼器、變分推斷的基本概念及其與傳統貝葉斯推斷的區別、VAE的編碼器和解碼器結構及工作原理)。
2、生成式對抗網絡GAN(GAN提出的背景和動機、GAN的拓撲結構和工作原理、生成器與判別器的角色、GAN的目標函數、對抗樣本的構造方法)。
3、擴散模型Diffusion Model(擴散模型的核心概念?如何使用隨機過程模擬數據生成?擴散模型的工作原理)。
4、跨模態圖像生成DALL.E(什么是跨模態學習?DALL.E模型的基本架構、模型訓練過程)。
5、案例
第十一章、自監督學習模型
1、自監督學習的基本概念(自監督學習的發展背景、自監督學習定義、與有監督學習和無監督學習的區別)
2、經典的自監督學習模型的基本原理、模型架構及訓練過程(對比學習: SimCLR、MoCo;生成式方法:AutoEncoder、GPT;預文本任務:BERT掩碼語言模型)
3、自監督學習模型的Python代碼實現
4、案例
第十二章、圖神經網絡
1、圖神經網絡的背景和基礎知識(什么是圖神經網絡?圖神經網絡的發展歷程?為什么需要圖神經網絡?)
2、圖的基本概念和表示(圖的基本組成:節點、邊、屬性;圖的表示方法:鄰接矩陣;圖的類型:無向圖、有向圖、加權圖)。
3、圖神經網絡的工作原理(節點嵌入和特征傳播、聚合鄰居信息的方法、圖神經網絡的層次結構)。
4、圖卷積網絡(GCN)的工作原理。
5、圖神經網絡的變種和擴展:圖注意力網絡(GAT)、圖同構網絡(GIN)、圖自編碼器、圖生成網絡。
6、案例
第十三章、強化學習
1、強化學習的基本概念和背景(什么是強化學習?強化學習與其他機器學習方法的區別?強化學習的應用領域有哪些?
2、Q-Learning(馬爾可夫決策過程、Q-Learning的核心概念、什么是Q函數?Q-Learning的基本更新規則)。
3、深度Q網絡(DQN)(為什么傳統Q-Learning在高維或連續的狀態空間中不再適用?如何使用神經網絡代替Q表來估計Q值?目標網絡的作用及如何提高DQN的穩定性?)
4、案例
第十四章、深度學習模型可解釋性與可視化方法
1、什么是模型可解釋性?為什么需要對深度學習模型進行解釋?
2、可視化方法有哪些(特征圖可視化、卷積核可視化、類別激活可視化等)?
3、類激活映射CAM(Class Activation Mapping)、梯度類激活映射GRAD-CAM、局部可解釋模型-敏感LIME(Local Interpretable Model-agnostic Explanation)、等方法原理講解。
4、t-SNE的基本概念及使用t-SNE可視化深度學習模型的高維特征。
5、案例
第十五章、神經架構搜索(Neural Architecture Search, NAS)
1、NAS的背景和動機(傳統的神經網絡設計依賴經驗和直覺,既耗時又可能達不到最優效果。通過自動搜索,可以發現傳統方法難以設計的創新和高效架構。)
2、NAS的基本流程:搜索空間定義(確定搜索的網絡架構的元素,如層數、類型的層、激活函數等。)、搜索策略(隨機搜索、貝葉斯優化、進化算法、強化學習等)、性能評估
3、NAS的關鍵技術:進化算法(通過模擬生物進化過程,如變異、交叉和選擇,來迭代改進網絡架構)、強化學習(使用策略網絡來生成架構,通過獎勵信號來優化策略網絡)、貝葉斯優化(利用貝葉斯方法對搜索空間進行高效的全局搜索,平衡探索和利用)
4、案例