003大模型基礎知識

大模型分類：
技術架構： Encoder Only Bert
Decoder Only 著名的大模型都是
Encoder - Decoder T5
是否開源：開源陣營： Llama DeepSeek Qwen
閉源陣營： ChatGpt Gemini Claude

語言模型發展階段：基于規則統計 n-gram：上下文比較短，數據稀疏，泛化能力差
神經網絡語言模型：泛化能力差（解決）數據稀疏（解決） RNN，LSTM
Transformer： Bert，GPT
LLM：參數以 10 億計
評估指標： BLEU 精準率，需要有參考答案
ROUGE 召回率需要有參考答案
PPL
大模型演進路線： Encoder-only 雙向注意力機制，完形填空，閱讀理解，Pre-train+下游任務fine-tuning
Decoder-only gpt：
gpt2：
gpt3：
Encoder-Decoder ： T5

在這里插入圖片描述

RLHF解決的是什么問題？對齊問題，訓練一個獎勵模型

在這里插入圖片描述
位置編碼：

總結：

強化學習：
ChatGPT SFT :人類價值觀對齊，
RLHF：訓練獎勵模型，人的參與是為了準備訓練獎勵模型的語料
強化學習：Agent，Environment，state，Policy，Reward
PPO：

不同大模型的差異：
位置編碼：傳統Transformer，相對位置編碼，旋轉位置編碼(用的最多)，ALiBi
注意力機制:
LN：層歸一化：
前饋神經網絡：MOE

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/89012.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/89012.shtml
英文地址，請注明出處：http://en.pswp.cn/web/89012.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！