第28天
本節學習了Vision Transformer圖像分類
ViT則是自然語言處理和計算機視覺兩個領域的融合結晶。在不依賴卷積操作的情況下,依然可以在圖像分類任務上達到很好的效果。ViT模型的主體結構是基于Transformer模型的Encoder部分(部分結構順序有調整,如:Normalization的位置與標準Transformer不同)
實例步驟:
1.環境準備與數據讀取
2.模型解析
3.ViT模型的輸入
4.整體構建ViT
5.模型訓練與推理
5.1.模型訓練
5.2模型驗證
5.3模型推理