大模型LLM面試常見算法題-包括Attention和Transformer常見面試題

大模型：

位置編碼有哪些？
介紹LoRA與QLoRA
RAG和微調的區別是什么？
哪些因素會導致LLM的偏見？
什么是思維鏈（CoT）提示？
Tokenizer的實現方法及原理
解釋一下大模型的涌現能力？
解釋langchainAgent的概念
langchain有哪些替代方案？
RLHF完整訓練過程是什么？為什么RLHF的效果這么好?RLHF使用的訓練數據是什么樣的?
RAG和微調的區別是什么？
有了解過什么是稀疏微調嗎？
簡述一下FlashAttention的原理
畫圖說明 Transformer 基本流程
LLM預訓練階段有哪幾個關鍵步驟？
RLHF模型為什么會表現比SFT更好？
LLaMA 模型為什么要用旋轉位置編碼？
DeepSpeed推理對算子融合做了哪些優化？
MHA，GQA，MQA三種注意力機制的區別是什么？
為什么現在的大模型大多是 decoder-only 的架構？
訓練后量化（PTQ）和量化感知訓練（QAT）與什么區別？

Attention：

1.什么是Attention? 為什么要用Attention?它有什么作用?
2.Attention的流程是什么樣的?
3.普通的Attention和Transformer的Self-attention之間有什么關系:
4.什么是Self-attention?

Transformer：

transformer是什么，它的基本原理是什么?
自注意力(Self-Attention)的作用是什么?它有什么優勢?
Multi-Head Attention是什么?它的作用是什么?
介紹Transformer的Encoder模塊
介紹Transformer的Decoder模塊
Transformer中的Positional Encoding是做什么的?
Transformer與傳統的RNN和CNN模型有何區別?
解釋Transformer的注意力權重?
介紹Transformer和ViT
介紹Transformer的QKV
介紹Layer Normalization
Transformer訓練和部署技巧
介紹Transformer的位置編碼
介紹自注意力機制和數學公式
Transformer和Mamba（SSM）的區別
Transformer中的殘差結構以及意義
為什么Transformer適合多模態任務？
Transformer的并行化體現在哪個地方？
為什么Transformer一般使用LayerNorm？
Transformer為什么使用多頭注意力機制？
Transformer訓練的Dropout是如何設定的？

BERT：

1.BERT是什么?全稱是什么?
2.BERT是如何進行預訓練的?
3.BERT的優點是什么?
4.BERT的輸入是什么?
5.BERT的預訓練過程中是否使用了位置編碼和注意力機制?
6.BERT的預訓練模型有多大?
7.BERT和傳統的Word2Vec、GloVe有什么區別?
8.BERT的訓練策略有哪些?
9.如何微調BERT?
10.BERT的應用場景有哪些?
11.BERT的改進和擴展有哪些?

Stable Diffusion：

1.你了解Stable Diffusion嗎?它是怎么訓練出來的?
2.Stable Diffusion的預測過程是什么樣的?
3. Stable Diffusion的diffusion是什么原理?
4.Stable Diffusion的各個模塊的作用是?
你了解stable Diffusion嗎?它是怎么訓練出來的?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/40323.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/40323.shtml
英文地址，請注明出處：http://en.pswp.cn/web/40323.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！