大模型:
-
位置編碼有哪些?
-
介紹LoRA與QLoRA
-
RAG和微調的區別是什么?
-
哪些因素會導致LLM的偏見?
-
什么是思維鏈(CoT)提示?
-
Tokenizer的實現方法及原理
-
解釋一下大模型的涌現能力?
-
解釋langchainAgent的概念
-
langchain有哪些替代方案?
-
RLHF完整訓練過程是什么?為什么RLHF的效果這么好?RLHF使用的訓練數據是什么樣的?
-
RAG和微調的區別是什么?
-
有了解過什么是稀疏微調嗎?
-
簡述一下FlashAttention的原理
-
畫圖說明 Transformer 基本流程
-
LLM預訓練階段有哪幾個關鍵步驟?
-
RLHF模型為什么會表現比SFT更好?
-
LLaMA 模型為什么要用旋轉位置編碼?
-
DeepSpeed推理對算子融合做了哪些優化?
-
MHA,GQA,MQA三種注意力機制的區別是什么?
-
為什么現在的大模型大多是 decoder-only 的架構?
-
訓練后量化(PTQ)和量化感知訓練(QAT)與什么區別?
Attention:
1.什么是Attention? 為什么要用Attention?它有什么作用?
2.Attention的流程是什么樣的?
3.普通的Attention和Transformer的Self-attention之間有什么關系:
4.什么是Self-attention?
Transformer:
- transformer是什么,它的基本原理是什么?
- 自注意力(Self-Attention)的作用是什么?它有什么優勢?
- Multi-Head Attention是什么?它的作用是什么?
- 介紹Transformer的Encoder模塊
- 介紹Transformer的Decoder模塊
- Transformer中的Positional Encoding是做什么的?
- Transformer與傳統的RNN和CNN模型有何區別?
- 解釋Transformer的注意力權重?
- 介紹Transformer和ViT
- 介紹Transformer的QKV
- 介紹Layer Normalization
- Transformer訓練和部署技巧
- 介紹Transformer的位置編碼
- 介紹自注意力機制和數學公式
- Transformer和Mamba(SSM)的區別
- Transformer中的殘差結構以及意義
- 為什么Transformer適合多模態任務?
- Transformer的并行化體現在哪個地方?
- 為什么Transformer一般使用LayerNorm?
- Transformer為什么使用多頭注意力機制?
- Transformer訓練的Dropout是如何設定的?
BERT:
1.BERT是什么?全稱是什么?
2.BERT是如何進行預訓練的?
3.BERT的優點是什么?
4.BERT的輸入是什么?
5.BERT的預訓練過程中是否使用了位置編碼和注意力機制?
6.BERT的預訓練模型有多大?
7.BERT和傳統的Word2Vec、GloVe有什么區別?
8.BERT的訓練策略有哪些?
9.如何微調BERT?
10.BERT的應用場景有哪些?
11.BERT的改進和擴展有哪些?
Stable Diffusion:
1.你了解Stable Diffusion嗎?它是怎么訓練出來的?
2.Stable Diffusion的預測過程是什么樣的?
3. Stable Diffusion的diffusion是什么原理?
4.Stable Diffusion的各個模塊的作用是?
你了解stable Diffusion嗎?它是怎么訓練出來的?