【DataWhale】快樂學習大模型

【DataWhale】快樂學習大模型 | 202507，Task01筆記

引言

我從2016年開始接觸matlab看別人做語音識別，再接觸tensorflow的神經網絡，2017年接觸語音合成，2020年做落地的醫院手寫數字識別。到2020年接觸pytorch做了計算機視覺圖像分類，到2021年做了目標檢測，2022年做了文本實體抽取，2023年做了Agent。收獲了很多獎項，感覺一直在人工智能新技術上探索，但總是浮于表面，要借這次機會好好學一學LLM，不能再讓Transformer還只停留在Attention和QKV上，爭取從底層實現一把。
說起來，到底多大才算大語言模型最開始挺有爭議的，現在0.3B的模型也開始出現了（如文心開源的 ERNIE-4.5-0.3B-PT），我的感覺是用了一定參數量的語言模型就能叫LLM，有用效果好就行。

人工智能發展歷程

感覺主要是這么一個發展流程，RNN主要走文本類，CNN主要走圖像類。（還有一些GAN、擴散模型等和圖片生成有關的，3D卷積等和視頻有關的，RL等游戲智能體相關的，ViT等Transformer和視覺結合的，圖里先不表現）

0.3B: 0.3 Bilion, 參數量為3億的模型
LLM: Large Language Model, 大語言模型
RNN: Recurrent Neural Network, 循環神經網絡，用于文本或語音
CNN: Convolutional Neural Network, 卷積神經網絡，用于視覺
GAN: Generative AdversarialNetwork, 生成對抗網絡，用于圖片生成
Vit: Vision Transformer, 用于視覺的Transformer
RL: Reinforcement Learning, 強化學習
LSTM: Long Short-Term Memory, 長短期記憶網絡
ResNet: 殘差網絡, 用于層數加深時信息的傳遞
YOLO: You Only Look Once, 用于目標檢測
Transformer: 用于增加注意力機制
BERT: Bidirectional Encoder Representations from Transformers, 用于文本分類、實體抽取
T5: Text-to-Text Transfer Transformer, 用于翻譯
GPT: Generative Pre-trained Transformer, 用于對話

章節概覽

參考資料

1、happy-llm/docs/前言.md

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/91054.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/91054.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/91054.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！