大模型訓練過程
數據清洗
- 擬人化描述:知識庫整理
預訓練
- 擬人化描述:知識學習
- 可以使用基于BERT預訓練模型進行訓練
指令微調
- 擬人化描述:實際工作技能學習
- 實際操作:讓大模型模仿具體的輸入輸出進行擬合,即模仿學習
強化學習
- 擬人化描述:價值觀學習
- 實際操作:通過獎勵算法(RLHF)來實現價值觀對齊
大模型拓展
為什么要拓展
大模型與小模型共同使用相同的神經網絡模型結構與預訓練方法,大模型展現出來的各種能力的指數級增長,其最大的原因就是因為參數規模拓展導致的,所以要探索如何做好規模拓展
拓展方式1:KM拓展法則
- 法則介紹:該法則描述了模型規模、數據規模、算力之間的關系,根據關系,可以進行資源的調整,以達到效率最優的模型訓練效果