1 vllm
1.1常用概念
1 vllm:是一種大模型推理的框架,使用了張量并行原理,把大型矩陣分割成低秩矩陣,分散到不同的GPU上運行。
2 模型推理與訓練:模型訓練是指利用pytorch進行對大模型進行預訓練。
模型推理是指用訓練好的模型對新的輸入生成輸出的過程
3 大模型一般的訓練過程:1 先對大模型進行無監督預訓練。2 對模型進行微調
4 張量:向量到二維矩陣、三維矩陣等。
2 lora和qlora的原理
1 lora 又名low rank adaptation,低秩矩陣自適應。特別適用于微調大規模語言預訓練模型。
2 優勢:直接對大規模語言模型進行全參數微調(full finetuning)計算量非常大。lora通過引入兩個低秩矩陣。具體來說是把非常大的權重矩陣,化為兩個維度低的矩陣
3 function call和ReAct
1 function call:模型主動調用在外部工具或者api的能力
2 ReAct:
4 agent
1 agent是什么
4 deepseek模型訓練步驟
第一步,進行大規模無監督預訓練學習。目的是讓模型學會語言的基本結構與模式
第二步,使用質量冷啟動數據(cot數據)對模型進行有監督微調。獲得基本的格式遵循和反思驗證能力
第三步,強化學習
?