【大模型面試】大模型（LLMs）高頻面題全面整理（★2025年5月最新版★）

【大模型面試】大模型（LLMs）高頻面題全面整理（★2025年5月最新版★）

🌟 嗨，你好，我是青松！

🌈 自小刺頭深草里，而今漸覺出蓬蒿。

大模型（LLMs）面試筆記

一、大模型進階面

💯 大模型（LLMs）DeepSeek面

一、概念篇
- Deepseek-V3的主要特點有哪些？
- DeepSeek-V3在推理速度方面表現出色的原因有哪些？
二、模型結構篇
- MLA
  - 什么是多頭潛在注意力（MLA）？
  - MLA的計算流程是什么樣的？
  - 訓練時MLA需要配置哪些超參？
  - MLA相對于MHA有哪些改進？
- MoE
  - 什么是MoE？
  - DeepSeekMoE包含哪兩種專家類型？
  - Share 專家和Router 專家的作用是什么？
  - 講一下DeepSeekMoE的計算流程？
  - DeepSeekMoE是如何實現負載均衡的？
- MTP
  - 什么是Multi-Token Prediction（MTP）？
  - Multi-Token Prediction（MTP）有何作用？
  - 講一下Multi-Token Prediction（MTP）的預測流程？
三、預訓練篇
- Prefix-Suffix-Middle (PSM)數據格式是什么樣的？
- DeepSeek預訓練數據為何使用Prefix-Suffix-Middle (PSM)格式？
- 介紹一下Byte-level BPE？
- DeepSeek是如何進行長上下文擴展的？
- DeepSeek的使用YaRN進行長上下文擴展有哪兩個階段？
- DeepSeek預訓練追求極致的訓練效率的做法有哪些？
- 批量級負載均衡（Batch-Wise Load Balance）和順序級負載均衡（Sequence-Wise Load Balance）有何區別？
- 使用MTP為何在提高計算效率的同時還能提升效果？
**四、有監督微調篇
- DeepSeek的SFT有哪幾種數據？
- DeepSeek是如何構造Reasoning Data數據的？
- DeepSeek兩種不同類型的SFT數據，區別是什么？
- DeepSeek在SFT訓練時是如何加速訓練過程的？
五、強化學習篇
- DeepSeek有哪兩種獎勵模型？
- Rule-Based RM和Model-Based RM的區別是什么？
- Rule-Based RM用在什么地方？有何作用？
- Model-Based RM用在什么地方？有何作用？
- DeepSeek是如何降低獎勵欺詐風險的？
- DeepSeek為何使用Group Relative Policy Optimization（GRPO）？
- DeepSeek為何放棄Critic模型來估計狀態的價值？
- DeepSeek是如何進行Self-Rewarding的？
- DeepSeek-V3從DeepSeek-R1中蒸餾知識有哪些影響？

💯 大模型（LLMs）模型壓縮面

一、動因篇
- 💯 為什么需要對大模型進行壓縮和加速？
二、方法篇
- 低秩分解
  - 💯 什么是低秩分解？
  - 💯 什么是奇異值分解（SVD）？
- 權值共享
  - 💯 什么是權值共享？
  - 💯 權值共享為什么有效？
- 模型量化
  - 💯 什么是模型量化？
  - 💯 均勻量化和非均勻量化有什么區別？
  - 💯 大模型訓練后量化有什么優點？
  - 💯 什么是混合精度分解？
- 知識蒸餾
  - 💯 什么是蒸餾？
  - 💯 什么是基于反饋的知識蒸餾？
  - 💯 什么是基于特征的知識蒸餾？
  - 💯 什么是蒸餾損失？
  - 💯 什么是學生損失？
  - 💯 模型蒸餾的損失函數是什么？
- 剪枝
  - 💯 什么是剪枝？
  - 💯 描述一下剪枝的基本步驟？
  - 💯 結構化剪枝和非結構化剪枝有什么不同？

💯 大模型（LLMs）分布式訓練面

一、動因篇
- 分布式訓練主要解決大模型訓練中的哪些問題？
二、數據并行
- 數據并行主要為了解決什么問題？
- PS架構是如何進行梯度同步和更新的？
- Ring-AllReduce是如何進行梯度同步和更新的？
- PS架構和Ring-AllReduce架構有何不同？
三、模型并行和張量并行
- 模型并行主要為了解決什么問題？
- 什么是張量并行，如何使用集群計算超大矩陣？
- 基礎的流水線并行存在什么問題？
- 講一講谷歌的GPipe算法？
- 講一講微軟的PipeDream算法？
四、DeepSpeed ZeRO
- 如何計算大模型占用的顯存？
- ZeRO主要為了解決什么問題？
- ZeRO1、ZeRO2、ZeRO3分別做了哪些優化？
- 用DeepSpeed進行訓練時主要配置哪些參數？

💯 大模型（LLMs）模型編輯面

一、概念篇
- 什么是模型編輯（Model Editing）？
- 模型編輯（Model Editing）核心目標是什么？
- 對比重新預訓練和微調，模型編輯的優勢和適用場景是什么？
- 如何用模型編輯修正大語言模型中的知識錯誤？
二、性質篇
- 模型編輯的五大性質（準確性、泛化性、可遷移性、局部性、高效性）分別是什么？
- 如何量化評估模型編輯的五大性質？
- 若模型編輯后泛化性較差，可能的原因是什么？如何優化？
- 模型編輯局部性如何避免“牽一發而動全身”的問題？
三、方法篇
- 外部拓展法
  - 知識緩存法（如SERAC）的工作原理是什么？
  - 知識緩存法中的門控單元和推理模塊如何協作？
  - 附加參數法（如T-Patcher）如何在不改變原始模型架構的情況下實現編輯？
  - 知識緩存法和附加參數法的優缺點有何優缺點？
- 內部修改法
  - ROME方法如何通過因果跟蹤實驗定位知識存儲位置？
  - 阻斷實驗的作用是什么？
  - 元學習法（如MEND）如何實現“學習如何編輯”？
  - 元學習法的雙層優化框架如何設計？
  - 定位編輯法（如KN、ROME）如何通過修改全連接前饋層參數實現精準編輯？
四、對比篇
- SERAC、T-Patcher、ROME在準確性、泛化性、局部性上的表現有何差異？
- 為什么ROME的局部性表現優于T-Patcher？

二、大模型微調面

💯 大模型（LLMs）有監督微調（SFT）面

一、概念篇
- 💯 從零訓練一個大模型有哪幾個核心步驟？
- 💯 為什么要對LLM做有監督微調（SFT）？
- 💯 如何將一個基礎模型訓練成一個行業模型？
二、數據篇
- 💯 如何準備SFT階段的訓練數據？
- 💯 alpaca 格式是這么樣的？
- 💯 sharegpt 格式是什么樣的？
- 💯 alpaca 格式和sharegpt 格式分別適合什么微調場景？
- 💯 如何自動生成指令構建SFT的訓練數據？
- 💯 Self-instruct 數據生成步驟？
三、技巧篇
- 💯 什么是災難性遺忘？
- 💯 LM做有監督微調（SFT）變傻了怎么辦？
- 💯 如何避免災難性遺忘？
四、對比篇
- 💯 有監督微調（SFT）和人工偏好對齊（RLHF）有何區別？
- 💯 有監督微調（SFT）適用于什么場景？
- 💯 人工偏好對齊（RLHF）適用于什么場景？

💯 大模型（LLMs）高效微調面

一、概念篇
- 💯 什么是微調？
- 💯 全量微調與參數高效微調的區別是什么？
- 💯 為什么需要對大模型進行高效微調？
- 💯 對大模型高效微調有哪些常用方法？
二、輕度微調
- 💯 什么是輕度微調？
- 💯 輕度微調有哪些常用方法？
- 💯 什么是BitFit微調？
- 💯 什么是分層微調？
- 💯 分層微調如何設置學習率？
三、適配器微調
- 💯 什么是適配器微調？
- 💯 適配器微調有哪些優勢？
- 💯 講一講IA3微調？
四、提示學習（Prompting）
- 概念篇
  - 💯 什么是提示學習（Prompting）？
  - 💯 提示學習（Prompting）代表方法有哪些？
- 前綴微調（Prefix-tuning）
  - 💯 什么是前綴微調（Prefix-tining）？
  - 💯 前綴微調（Prefix-tining）的優點是什么？
  - 💯 前綴微調（Prefix-tining）的缺點是什么？
- 提示微調（Prompt-tuning）
  - 💯 什么是提示微調（Prompt-tuning）？
  - 💯 提示微調（Prompt-tuning）的核心思想？
  - 💯 提示微調（Prompt-tuning）的優點是什么？
  - 💯 提示微調（Prompt-tuning）的缺點是什么？
- P-tuning
  - 💯 P-tuning 動機是什么？
  - 💯 P-tuning v2 解決了什么問題？
  - 💯 P-tuning v2 進行了哪些改進？
五、指令微調
- 💯 為什么需要指令微調（Instruct-tuning）？
- 💯 指令微調（Instruct-tuning）是什么？
- 💯 指令微調（Instruct-tuning）的優點是什么？
- 💯 指令微調（Instruct-tuning）和提示學習（Prompting）的區別是什么？
六、LoRa微調
- 💯 什么是LoRA微調？
- 💯 為什么在參數高效微調中使用低秩矩陣分解？
- 💯 詳細說明LoRA的工作原理及其優勢？
- 💯 LoRA微調時有哪些可配置的參數？
- 💯 在配置LoRA時，如何設置參數r和alpha？
- 💯 LoRA存在低秩瓶頸問題，ReLoRA和AdaLoRA分別通過哪些方法改進？
- 💯 動態秩分配（如AdaLoRA）如何根據層的重要性調整秩？正交性約束的作用是什么？
- 💯 AdapterFusion如何實現多任務學習？
- 💯 如何利用LoRAHub實現跨任務泛化？其組合階段與適應階段的具體流程是什么？

💯 大模型（LLMs）提示學習面

一、概念篇
- 💯 什么是提示學習（Prompting）？
- 💯 提示學習（Prompting）代表方法有哪些？
二、方法篇
- 前綴微調（Prefix-tuning）
  - 💯 什么是前綴微調（Prefix-tining）？
  - 💯 前綴微調（Prefix-tining）的優點是什么？
  - 💯 前綴微調（Prefix-tining）的缺點是什么？
- 提示微調（Prompt-tuning）
  - 💯 什么是提示微調（Prompt-tuning）？
  - 💯 提示微調（Prompt-tuning）的核心思想？
  - 💯 提示微調（Prompt-tuning）的優點是什么？
  - 💯 提示微調（Prompt-tuning）的缺點是什么？
- P-tuning
  - 💯 P-tuning 動機是什么？
  - 💯 P-tuning v2 解決了什么問題？
  - 💯 P-tuning v2 進行了哪些改進？
三、對比篇
- 💯 提示微調（Prompt-tuning）與 Prefix-tuning 區別是什么？
- 💯 提示微調（Prompt-tuning）與 fine-tuning 區別是什么？

💯 大模型（LLMs）人類對齊訓練（RLHF）面

一、概念篇
- 💯 從零訓練一個大模型有哪幾個核心步驟？
- 💯 從零訓練大模型的三大階段（Pretrain/SFT/RLHF）分別解決什么問題？
- 💯 什么是人類偏好對齊訓練？
- 💯 為什么需要做人類偏好對齊訓練？
- 💯 RLHF有哪幾個核心流程？
- 💯 RLHF與SFT的本質區別是什么？為什么不能只用SFT？
- 💯 什么是人類偏好對齊中的"對齊稅"(Alignment Tax)？如何緩解？
- 💯 RLHF的三大核心模塊（獎勵模型訓練、策略優化、偏好數據收集）如何協同工作？
- 💯 為什么RLHF需要馬爾可夫決策過程（MDP）建模？對話場景如何設計MDP五元組？
二、方法篇
- 強化學習和馬爾可夫決策過程（MDP）
  - 💯 馬爾可夫決策過程的五元組是分別指什么？
  - 💯 狀態價值函數、優勢價值函數、動作價值函數分別表示什么意思？
  - 💯 在強化學習中，基于值函數的和基于策略的的優化方法有何區別？
  - 💯 基于值函數的方法在處理連續動作空間問題時的優缺點分別是什么？
  - 💯 基于策略的方法在處理連續動作空間問題時的優缺點分別是什么？
- PPO 算法
  - 什么是近端策略優化（PPO）？
  - RLHF中的PPO主要分哪些步驟？
  - 💯 PPO中的重要性采樣(Importance Sampling)如何修正策略差異？
  - 💯 Actor-Critic架構在RLHF中的雙網絡設計原理？
  - 💯 KL散度在RLHF中的雙重作用是什么？
  - PPO-Clip與PPO-Penalty的數學形式差異及適用場景？
- DPO 算法
  - 💯 DPO如何通過隱式獎勵建模規避強化學習階段？
  - Bradley-Terry模型與DPO目標函數的關系推導
  - DPO vs PPO：訓練效率與性能上限的對比分析
三、實踐篇
- 💯 RLHF訓練數據的格式是什么樣的？
- 💯 人類偏好數據收集的三大范式（人工標注/用戶隱式反饋/AI生成對比）？
- 💯 如何選擇人類偏好對齊訓練還是SFT？
- 💯 如何選擇人類偏好對齊訓練算法？
- 💯 如何理解人類偏好對齊訓練中的Reward指標？
- 💯 Reward Hack問題（獎勵模型過擬合）的檢測與緩解方案有哪些？

💯 大模型（LLMs）提示工程面

一、概念篇
- 什么是Prompt工程？
- 為什么需要Prompt工程？
二、技巧篇
- Prompt設計要素
  - 任務說明、上下文、問題和輸出格式的作用是什么？
  - 如何優化Prompt以提高模型性能？
  - 如何規范編寫Prompt？
- 上下文學習（In-Context Learning）
  - 什么是上下文學習？
  - 上下文學習三種形式（零樣本、單樣本、少樣本）的區別？
  - 如何選擇有效的演示示例？
  - 影響上下文學習性能的因素有哪些？
  - 如何通過預訓練數據分布和模型規模優化上下文學習效果？
  - 為什么提示中示例的順序和數量會影響模型性能？
- 思維鏈（Chain of Thought, CoT）
  - 思維鏈（CoT）的核心思想是什么？
  - 思維鏈（CoT）在解決哪些任務類型中效果顯著？
  - 思維鏈（CoT）有哪幾種常見的模式？
  - 按部就班（如 Zero-Shot CoT、Auto-CoT）、三思后行（如 ToT、GoT）、集思廣益（如 Self-Consistency）三種 CoT 模式有何異同？
  - 如何在不同任務中選擇和應用CoT？
  - CoT如何提升模型在復雜推理任務中的表現？
  - 為什么某些指令微調后的模型無需顯式 CoT 提示？
三、對比篇
- Prompt工程與傳統微調的區別是什么？

三、大模型（LLMs）基礎面

💯 大模型（LLMs）模型架構面

一、概念篇
- 💯 LLM架構對Transformer都有哪些優化？
二、組件篇
- 位置編碼
  - 💯 什么是正弦（Sinusoidal）位置編碼？
  - 💯 什么是旋轉位置編碼（RoPE）？
  - 💯 RoPE相對正弦位置編碼有哪些優勢？
- 長度外推
  - 💯 正弦編碼是否真的具備外推性？
  - 💯 RoPE如何進行外推？
  - 💯 如何進行位置線性內插（Position Interpolation）？
  - 💯 NTK-Aware Scaled RoPE 和位置線性內插的區別是什么？
  - 💯 NTK-Aware Scaled RoPE 為何要對高頻做外推，而對低頻做內插？
- 注意力機制
  - 💯 LLM為何使用GQA代替MHA？
  - 💯 GQA如何平衡計算效率與模型性能？
  - 💯 GQA與MQA（Multi-Query Attention）有何區別？各自適用場景是什么？
  - 💯 GQA是否會影響模型對不同注意力模式的捕捉能力？如何緩解？
- PreNorm和PostNorm
  - 💯 PreNorm和PostNorm有何不同？
  - 💯 為什么PreNorm通常能提升訓練穩定性？
  - 💯 PostNorm在何種場景下可能優于PreNorm？
  - 💯 如何通過殘差連接設計緩解PostNorm的優化問題？
- RMSNorm和LayerNorm
  - 💯 為何使用 RMSNorm 代替 LayerNorm？
  - 💯 RMSNorm與LayerNorm在數學公式上的核心區別是什么？
  - 💯 RMSNorm可能帶來哪些信息損失？如何補償？
  - 💯 RMSNorm是否適用于所有模態任務？
- 激活函數
  - 💯 LLM使用SwiGLU相對于ReLU有什么好處？
  - 💯 SwiGLU相比ReLU如何提升模型非線性表達能力？
  - 💯 為什么SwiGLU在預訓練任務中表現更佳？
  - 💯 SwiGLU的參數量是否會顯著增加？如何優化？

💯 大模型（LLMs）注意力機制（Attention）面

一、概念篇
- 💯 什么是 Attention？
- 💯 為什么要引入 Attention 機制？
- 💯 如何計算 Attention？
二、變體篇
- 💯 Soft Attention 是什么？
- 💯 Hard Attention 是什么？
- 💯 Global Attention 是什么？
- 💯 Local Attention 是什么？
- 💯 Self-Attention 是什么？
- 💯 多查詢注意力（Multi-Query Attention）是什么？
- 💯 分組查詢注意力（Grouped Query Attention）是什么？
- 💯 分頁注意力（Paged Attention）是什么？
- 💯 閃存注意力（Flash Attention）是什么？

💯 大模型（LLMs）Transformer面

一、模型結構篇
- 💯 Transformer 整體結構是怎么樣的？
- 💯 Transformer 編碼器有哪些子層？
- 💯 Transformer 解碼器有哪些子層？
二、核心機制篇
- 位置編碼
  - 💯 Transformer的輸入中為什么要添加位置編碼？
  - 💯 什么是正弦（Sinusoidal）位置編碼？
  - 💯 Transformer的位置編碼是如何計算的？
  - 💯 Position encoding為什么選擇相加而不是拼接呢？
- 多頭注意力
  - 💯 Self-Attention 是什么？
  - 💯 多頭注意力相對于單頭注意力有什么優勢？
  - 💯 Transformer中自注意力模塊的計算過程？
  - 💯 什么是縮放點積注意力，為什么要除以 $\sqrt{d_k}$ ？
- 殘差連接
  - 💯 Transformer為什么要使用殘差連接？
  - 💯 使用殘差連接有哪些好處？
- 層歸一化
  - 💯 為什么要做歸一化？
  - 💯 Layer Normalization 是什么？
  - 💯 Layer Normalization 有什么用？
  - 💯 批歸一化和層歸一化的區別？
  - 💯 Layer Normalization 有哪幾個可訓練參數？
- Mask 機制
  - 💯 解碼器中為什么要使用Mask？
  - 💯 Transformer 中有幾種 Mask？
  - 💯 Padding Mask 是如何實現的？
  - 💯 Sequence Mask 是如何實現的？
三、問題優化篇
- 💯 LLM為何使用GQA代替MHA？
- 💯 LLM為何使用 PreNorm 代替 PostNorm？
- 💯 LLM為何使用 RMSNorm 代替 LayerNorm？
- 💯 LLM使用SwiGLU相對于ReLU有什么好處？

四、NLP 任務實戰面

💯 大模型（LLMs）文本分類面

一、概念篇
- 什么是文本分類？
二、方法篇
- 主題建模法
  - 什么是主題建模任務？
  - 主題建模有哪些常用方法？
  - TF-IDF 算法是做什么的？
  - TF-IDF 有什么優缺點？適合哪些文本分類任務？
- 傳統分類法
  - 講一講 FastText 的分類過程？
  - 講一講 TextCNN 文本分類的過程?
  - 如何基于基于預訓練模型做文本分類？
- 檢索匹配法
  - 什么場景需要用檢索的方式做文本分類？
  - 如何用檢索的方式做文本分類？
  - 檢索的方法的訓練階段如何做？
  - 檢索的方法的預測階段如何做？
  - 用檢索的方式做文本分類有何優缺點？
- 大模型方法
  - 如何用Prompt的方式做文本分類？
  - 如何使用多提示學習提升文本分類效果？
  - 使用LLM做文本分類任務為何需要做標簽詞映射（Verbalizer）？
三、進階篇
- 文本分類任務中有哪些難點？
- 如何解決樣本不均衡的問題？
- 如何冷啟動文本分類項目？
- 如果類別會變化如何設計文本分類架構？
- 短文本如何進行分類？
- 長文本如何進行分類？

💯 大模型（LLMs）命名實體識別（NER）面

一、概念篇
- 什么是實體識別？
- 實體識別有哪些常用的解碼方式？
- NER的常用評價指標（精確率、召回率、F1）有何局限性？
- 預訓練模型（如BERT，LLM）如何改變傳統NER的范式？
二、方法篇
- 傳統方法
  - 如何用序列標注方法做NER任務？
  - 什么是 CRF?
  - CRF為什么比Softmax更適合NER？
  - 如何使用指針標注方式做NER任務？
  - 如何使用多頭標注方式做NER任務？
  - 如何使用片段排列方式做NER任務？
- 大模型方法
  - 如何將NER建模為生成任務（例如使用T5、GPT）？
  - 大模型做NER任務的解碼策略有何不同？
  - 如何設計模板提升NER任務少樣本效果？
- 對比篇
  - 序列標注方法有何優缺點？
  - 指針標注、多頭標注和片段排列有何優缺點，分別適用于哪些場景？
  - 大模型方法和傳統方法做NER任務分別有什么優缺點？
三、標注篇
- 實體識別的數據是如何進行標注的？
- BIO、BIOES、IOB2標注方案的區別與優缺點？
四、問題篇
- 實體識別中有哪些難點？
- 什么是實體嵌套？
- 如何解決實體嵌套問題？
- 如何解決超長實體識別問題？
- NER實體span過長怎么辦？
- 如何解決 NER 標注數據噪聲問題？
- 如何解決 NER 標注數據不均衡問題？

💯 大模型（LLMs）關系抽取面

一、概念篇
- 什么是關系抽取？
- 常見關系抽取流程的步驟是怎樣的？
二、句子級關系抽取篇
- 什么是模板匹配方法？
- 模板匹配方法的優點是什么？
- 模板匹配方法存在哪些局限性或缺點呢？
- 什么是關系重疊問題？
- 什么是復雜關系問題？
- 什么是聯合抽取？
- 介紹下基于共享參數的聯合抽取方法？
- 介紹下基于聯合解碼的聯合抽取方法？
- 關系抽取的端到端方法和流水線方法各有什么優缺點？
三、文檔級關系抽取篇
- 文檔級關系抽取與單句關系抽取有何區別？
- 在進行跨句子甚至跨段落的關系抽取時，會遇到哪些特有的挑戰？
- 文檔級關系抽取的方法有哪些？
- 文檔級關系抽取常見數據集有哪些以及其評估方法？

💯 大模型（LLMs）檢索增強生成（RAG）面

一、動因篇
- 為什么要做RAG系統？
- RAG和大模型微調的區別？
- RAG和大模型微調分別適用于什么場景？
- 講一下RAG的總體流程？
二、流程篇
- Query 理解
  - 用戶理解階段一般會做哪些處理？有何作用？
  - 用戶問題總是召回不準確，在用戶理解階段可以做哪些優化？
- Index 構建
  - 問答對問答中，如何構建索引，提升對用戶問題的泛化能力？
  - 文檔問答中，如何構建索引，提升對用戶問題的泛化能力？
  - 問題經常命中不到文本塊，如何在索引階段做優化？
- Retrieval 召回
  - 多路檢索如何實現？
  - 如何合并多路檢索的結果，對它們做排序？
  - BM25檢索器總是召回無關的知識，最可能的原因是什么？
  - 如何借助其他用戶的使用情況，提升總體的檢索性能？
- Reranker 精排
  - 為何要對檢索的結果做精排（重排）？
  - 如何構建重排序模型的微調數據？

五、NLP 基礎面

💯 大模型（LLMs）分詞（Tokenizer）面

💯 如何處理超出詞表的單詞（OVV）？
💯 BPE 分詞器是如何訓練的？
💯 WordPiece 分詞器是如何訓練的？
💯 Unigram 分詞器是如何訓練的？

💯 大模型（LLMs）詞嵌入（Word2Vec）面

一、動因篇
- 💯 什么是詞向量化技術？
- 💯 如何讓向量具有語義信息？
二、基于統計的方法
- 💯 如何基于計數的方法表示文本？
- 💯 上下文中的窗口大小是什么意思？
- 💯 如何統計語料的共現矩陣？
- 💯 基于計數的表示方法存在哪些問題？
三、基于推理的方法
- 💯 Word2Vec的兩種模型分別是什么？
- 💯 Word2Vec 中 CBOW 指什么？
- 💯 Word2Vec 中 Skip-gram 指什么？
- 💯 CBOW 和 Skip-gram 哪個模型的詞嵌入更好？
四、問題優化篇
- 💯 Word2Vec訓練中存在什么問題？
- 💯 Word2Vec如何優化從中間層到輸出層的計算？
  - 用負采樣優化中間層到輸出層的計算
  - 負采樣方法的關鍵思想
  - 負采樣的采樣方法
- 💯 為什么說Word2vec的詞向量是靜態的？
- 💯 Word2vec的詞向量存在哪些問題？

💯 大模型（LLMs）卷積神經網絡（CNN）面

一、動因篇
- 💯 卷積，池化的意義
二、模型篇
- 💯 為什么卷積核設計尺寸都是奇數
- 💯 卷積操作的特點
- 💯 為什么需要 Padding ？
- 💯 卷積中不同零填充的影響？
- 💯 1 1 卷積的作用？
- 💯 卷積核是否越大越好？
- 💯 CNN 特點
- 💯 為何較大的batch size 能夠提高 CNN 的泛化能力？
- 💯 如何減少卷積層參數量？
三、對比篇
- 💯 SAME 與 VALID 的區別
- 💯 CNN 優缺點
- 💯 你覺得 CNN 有什么不足？
- 💯 CNN 與 RNN 的優劣

💯 大模型（LLMs）循環神經網絡（RNN）面

一、RNN 概念篇
- 💯 RNN的作用是什么？
二、RNN 模型篇
- 💯 RNN的輸入輸出分別是什么？
- 💯 RNN是如何進行參數學習（反向傳播）的？
- 💯 Relu 能否作為RNN的激活函數
三、RNN 優化篇
- 💯 RNN不能很好學習長期依賴的原因是什么？
- 💯 RNN 中為何會出現梯度消失，梯度爆炸問題？
- 💯 為何 RNN 訓練時 loss 波動很大
- 💯 計算資源有限的情況下有沒有什么優化方法？
- 💯 推導一下 GRU
四、RNN 對比篇
- 💯 LSTM 相對 RNN 的主要改進有哪些？
- 💯 LSTM 與 GRU 之間的關系
- 💯 LSTM 與 GRU 區別

💯 大模型（LLMs）長短期記憶網絡（LSTM）面

一、動因篇
- 💯 RNN 梯度消失的原因？
- 💯 LSTM 如何緩解 RNN 梯度消失的問題?
- 💯 LSTM不會發生梯度消失的原因
二、模型篇
- 💯 LSTM 相對 RNN 的主要改進有哪些？
- 💯 門機制的作用
- 💯 LSTM的網絡結構是什么樣的？
- 💯 LSTM中記憶單元的作用是什么？
- 💯 LSTM中的tanh和sigmoid分別用在什么地方？
- 💯 LSTM有幾個門，分別起什么作用？
- 💯 LSTM 單元是如何進行前向計算的？
- 💯 LSTM的前向計算如何進行加速？
- 💯 LSTM 單元是如何進行反向傳播的？
三、應用篇
- 💯 LSTM在實際應用中的提升技巧有哪些？
- 為何多層LSTM疊加可以提升模型效果？
- 雙向LSTM為何更有效？
- LSTM中如何添加Dropout層？

💯 大模型（LLMs）BERT 模型面

一、動因概念篇
1. Bert 是什么?
2. 為什么說BERT是雙向的編碼語言模型？
3. BERT 是如何區分一詞多義的？
4. BERT為什么如此有效？
5. BERT存在哪些優缺點？
二、BERT 架構篇
1. BERT 是如何進行預訓練的？
2. BERT的輸入包含哪幾種嵌入？
3. 什么是分段嵌入？
4. BERT的三個Embedding直接相加會對語義有影響嗎？
5. 講一下BERT的WordPiece分詞器的原理？
6. 為什么BERT在第一句前會加一個【CLS】標志?
7. BERT-base 模型和 BERT-large 模型之間有什么區別？
8. 使用BERT預訓練模型為什么最多只能輸入512個詞？
9. BERT模型輸入長度超過512如何解決？
BERT 訓練篇
- Masked LM 任務
  1. BERT 為什么需要預訓練任務 Masked LM ？
  2. 掩碼語言模型是如何實現的？
  3. 為什么要采取Masked LM，而不直接應用Transformer Encoder？
  4. Bert 預訓練任務 Masked LM 存在問題？
  5. 什么是 80-10-10 規則,它解決了什么問題？
  6. bert為什么并不總是用實際的 masked token替換被“masked”的詞匯？
  7. 為什么BERT選擇mask掉15%這個比例的詞，可以是其他的比例嗎？
- Next Sentence Prediction 任務
  1. Bert 為什么需要預訓練任務 Next Sentence Prediction ？
  2. 下句預測任務是如何實現的？
BERT 微調篇
1. 對 Bert 做 fine-turning 有什么優勢？
2. Bert 如何針對不同類型的任務進行 fine-turning？
對比篇
1. BERT 嵌入與 Word2Vec 嵌入有何不同？
2. elmo、GPT和bert在單雙向語言模型處理上的不同之處？
3. word2vec 為什么解決不了多義詞問題？
4. 為什么 elmo、GPT、Bert能夠解決多義詞問題？

💯 大模型（LLMs）BERT 變體面

一、BERT變體篇
- 句序預測任務與下句預測任務有什么不同？
- ALBERT 使用的參數縮減技術是什么？
- 什么是跨層參數共享？
- RoBERTa 與 BERT 有什么不同？
- 在 ELECTRA 中，什么是替換標記檢測任務？
- 如何在 SpanBERT 中掩蓋標記？
- Transformer-XL怎么實現對長文本建模？
二、問題優化篇
- 針對BERT原生模型的缺點，后續的BERT系列模型是如何改進【生成任務】的？
- 針對BERT原生模型的缺點，后續的BERT系列模型是如何引入【知識】的？
- 針對BERT原生模型的缺點，后續的BERT系列模型是如何引入【多任務學習機制】的？
- 針對BERT原生模型的缺點，后續的BERT系列模型是如何改進【mask策略】的？
- 針對BERT原生模型的缺點，后續的BERT系列模型是如何進行【精細調參】的？

💯 大模型（LLMs）BERT 實戰面

一、場景篇
- BERT擅長處理哪些下游NLP任務？
- BERT為什么不適用于自然語言生成任務（NLG）？
- 如何使用預訓練的 BERT 模型？
- 在問答任務中，如何計算答案的起始索引？
- 在問答任務中，如何計算答案的結束索引？
- 如何將 BERT 應用于命名實體識別任務？
二、微調篇
- 什么是微調？
- 什么是繼續預訓練？
- 如何進行繼續預訓練？
三、問題篇
- 什么是 Bert 未登錄詞？
- Bert 未登錄詞如何處理？
- Bert 未登錄詞各種處理方法有哪些優缺點？
- BERT在輸入層如何引入額外特征？

六、深度學習面

💯 大模型（LLMs）激活函數面

一、動因篇
- 💯 為什么需要激活函數
- 💯 為什么激活函數需要非線性函數？
二、方法篇
- sigmoid
  - 💯 什么是 sigmoid 函數？
  - 💯 為什么選 sigmoid 函數作為激活函數？
  - 💯 sigmoid 函數有什么缺點？
- tanh
  - 💯 什么是 tanh 函數？
  - 💯 為什么選 tanh 函數作為激活函數？
  - 💯 tanh 函數作為激活函數有什么缺點？
- relu
  - 💯 什么是 relu 函數？
  - 💯 為什么選 relu 函數作為激活函數？
  - 💯 relu 函數有什么缺點？
  - 💯 為什么tanh收斂速度比sigmoid快？

💯 大模型（LLMs）優化器面

一、動因篇
- 💯 梯度下降法的思想是什么？
二、方法篇
- 💯 SGD是如何實現的？
- 💯 SGD有什么缺點？
- 💯 Momentum 是什么？
- 💯 Adagrad 是什么?
- 💯 RMSProp是什么？
- 💯 Adam 是什么?
三、對比篇
- 💯 批量梯度下降（BGD）、隨機梯度下降（SGD）與小批量隨機梯度下降（Mini-Batch GD）的區別？

💯 大模型（LLMs）正則化面

一、動因篇
- 💯 為什么要正則化？
- 💯 權重衰減的目的？
二、 $L n$ 正則化篇
- 💯 什么是 L1 正則化？
- 💯 什么是 L2 正則化？
- 💯 L1 與 L2 的異同
- 💯 為什么 L1 正則化可以產生稀疏值，而 L2 不會？
- 💯 為何只對權重進行正則懲罰，而不針對偏置？
- 💯 為何 L1 和 L2 正則化可以防止過擬合？
三、Dropout 篇
- 💯 什么是Dropout？
- 💯 為什么Dropout可以解決過擬合問題？
- 💯 Dropout 在訓練和測試階段的區別是什么？
- 💯 Dropout 的變體有哪些？
- 💯 如何選擇合適的 Dropout 率？
- 💯 Dropout 和其他正則化方法（如 L1、L2 正則化）有何不同？

💯 大模型（LLMs）歸一化面

一、動因篇
- 💯 為什么要做歸一化？
- 💯 為什么歸一化能提高求最優解速度？
二、方法篇
- 💯 主流的歸一化有哪些方法？
- Batch Normalization
  - 💯 Batch Normalization 是什么？
  - 💯 Batch Normalization 的有點有哪些？
  - 💯 BatchNorm 存在什么問題？
- Layer Normalization
  - 💯 Layer Normalization 是什么？
  - 💯 Layer Normalization 有什么用？
三、對比篇
- 💯 批歸一化和組歸一化的比較？
- 💯 批歸一化和權重歸一化的比較？
- 💯 批歸一化和層歸一化的比較？

💯 大模型（LLMs）參數初始化面

一、概念篇
- 💯 什么是內部協變量偏移？
- 💯 神經網絡參數初始化的目的？
- 💯 為什么不能將所有神經網絡參數初始化為0？
二、方法篇
- 💯 什么是Xavier初始化？
- 💯 什么是He初始化？

💯 大模型（LLMs）過擬合面

💯 過擬合與欠擬合的區別是什么?
💯 解決欠擬合的方法有哪些？
💯 防止過擬合的方法主要有哪些？
💯 什么是Dropout？
💯 為什么Dropout可以解決過擬合問題？

💯 大模型（LLMs）集成學習面

一、概念篇
- 集成學習的核心思想是什么？
- 集成學習與傳統單一模型相比有哪些本質區別？
- 從偏差-方差分解的角度，解釋集成學習為什么能提升模型性能？
- 集成學習有效性需要滿足哪些前提條件？
二、Boosting 篇
- 解釋一下 Boosting 的迭代優化過程
- Boosting 的基本思想是什么？
- Boosting 如何通過殘差擬合實現誤差修正？
- GBDT 是什么？
- XGBoost 是什么？
- GBDT與 XGBoost 的核心差異是什么？
- 為什么XGBoost要引入二階泰勒展開？對模型性能有何影響？
三、Bagging 篇
- 什么是 Bagging？
- Bagging 的基本思想是什么？
- Bagging的并行訓練機制如何提升模型穩定性？
- 隨機森林是什么？
- 隨機森林與孤立森林的本質區別是什么？
- 對比Bagging與Dropout在神經網絡中的異同？
四、Stacking 篇
- 什么是 Stacking ？
- Stacking 的基本思路是什么？
- Stacking中為什么要用K折預測生成元特征？
- 如何避免Stacking中信息泄露問題？
五、對比篇
- 對比Boosting/Bagging/Stacking三大范式的核心差異（目標、訓練方式、基學習器關系）？
- 集成學習中基學習器的"穩定性"如何影響算法選擇？
- Boosting、Bagging 與偏差、方差的關系？
- 為什么Bagging常用高方差模型？

💯 大模型（LLMs）評估指標面

一、概念篇
- 💯 混淆矩陣有何作用？
- 💯 分類任務中有哪幾個常規的指標？
二、F1-Score 篇
- 💯 什么是 F1-Score？
- 💯 對于多分類問題來說， F1 的計算有哪些計算方式？
- 💯 什么是 Macro F1？
- 💯 什么是 Micro F1？
- 💯 什么是 Weight F1？
三、對比篇
- 💯 Macro 和 Micro 有什么區別？
- 💯 什么是馬修斯相關系數（MCC）？
四、曲線篇
- 💯 ROC 曲線主要有什么作用？
- 💯 什么是 AUC（Area under Curve）？
- 💯 P-R 曲線有何作用？