文章來自:大語言模型(LLM)小白入門自學項目-TiaoYu-1
GitHub - tiaoyu1122/TiaoYu-1: For People! For Freedom!For People! For Freedom! Contribute to tiaoyu1122/TiaoYu-1 development by creating an account on GitHub.https://github.com/tiaoyu1122/TiaoYu-1
項目優點:
- 行行代碼都有“中文注釋”,方便閱讀與理解。
- 覆蓋了?全部訓練流程,包括:預訓練、有監督微調(SFT)、人類反饋強化學習(ELHF)、LoRA微調、推理模型訓練(Reasoning)、知識蒸餾(KD)等。
- 配套有原理文檔。
閱讀順序推薦:
相關概念(文檔)?->?模型構建(文檔)?->?(粗讀)模型超參數(代碼)?->?(可選)預訓練數據下載(代碼)?->?(可選)預訓練數據處理(代碼)?->?分詞器(文檔)?->?分詞器(代碼)?->?(可選)分詞器模型(json文件)?->?LLM模型整體結構(代碼)?->?模型超參數(代碼)->?嵌入層(文檔)?->?正則化(文檔)?->?位置編碼(文檔)?->?位置編碼(代碼)?->?歸一化(文檔)?->?歸一化(代碼)?->?線性層(文檔)->?激活函數(文檔)?->?解碼器(文檔)?->?解碼器(代碼)?多頭掩碼自注意力機制(文檔)?->?多頭掩碼自注意力機制(代碼)?->Flash Attention(文檔)?->?MOE前饋神經網絡(文檔)?->?MOE前饋神經網絡(代碼)?->?輸出結果類(代碼)?->?預訓練數據加載(代碼)?->?交叉熵損失函數(文檔)?->?信息量、熵、交叉熵、KL散度等(文檔)?->?優化器(文檔)?->?(復習)模型構建(文檔)?->?預訓練(代碼)?->?SFT(代碼)?->?人類反饋強化學習(文檔)?->?人類反饋強化學習(代碼)?->?LoRA微調(代碼)?->?知識蒸餾(代碼)?->?推理模型訓練(代碼)?(可選)分類模型評價指標(文檔)?->?(可選)梯度消失與梯度爆炸(文檔)?->?(可選)非極大抑制算法(文檔)->?(可選)GPT和BERT(文檔)?->?(可選)Q-Former(文檔)