引言
我從2016年開始接觸matlab看別人做語音識別,再接觸tensorflow的神經網絡,2017年接觸語音合成,2020年做落地的醫院手寫數字識別。到2020年接觸pytorch做了計算機視覺圖像分類,到2021年做了目標檢測,2022年做了文本實體抽取,2023年做了Agent。收獲了很多獎項,感覺一直在人工智能新技術上探索,但總是浮于表面,要借這次機會好好學一學LLM,不能再讓Transformer還只停留在Attention和QKV上,爭取從底層實現一把。
說起來,到底多大才算大語言模型最開始挺有爭議的,現在0.3B的模型也開始出現了(如文心開源的 ERNIE-4.5-0.3B-PT),我的感覺是用了一定參數量的語言模型就能叫LLM,有用效果好就行。
人工智能發展歷程
感覺主要是這么一個發展流程,RNN主要走文本類,CNN主要走圖像類。(還有一些GAN、擴散模型等和圖片生成有關的,3D卷積等和視頻有關的,RL等游戲智能體相關的,ViT等Transformer和視覺結合的,圖里先不表現)
0.3B: 0.3 Bilion, 參數量為3億的模型
LLM: Large Language Model, 大語言模型
RNN: Recurrent Neural Network, 循環神經網絡,用于文本或語音
CNN: Convolutional Neural Network, 卷積神經網絡,用于視覺
GAN: Generative AdversarialNetwork, 生成對抗網絡,用于圖片生成
Vit: Vision Transformer, 用于視覺的Transformer
RL: Reinforcement Learning, 強化學習
LSTM: Long Short-Term Memory, 長短期記憶網絡
ResNet: 殘差網絡, 用于層數加深時信息的傳遞
YOLO: You Only Look Once, 用于目標檢測
Transformer: 用于增加注意力機制
BERT: Bidirectional Encoder Representations from Transformers, 用于文本分類、實體抽取
T5: Text-to-Text Transfer Transformer, 用于翻譯
GPT: Generative Pre-trained Transformer, 用于對話
章節概覽
參考資料
1、happy-llm/docs/前言.md