【大模型面試】大模型(LLMs)高頻面題全面整理(★2025年5月最新版★)
🌟 嗨,你好,我是 青松 !
🌈 自小刺頭深草里,而今漸覺出蓬蒿。
本筆記適合大模型初學者和正在準備面試的小伙伴。**希望能幫助各位同學,縮短面試準備時間,迅速收獲心儀的Offer**🎉🎉🎉
大模型(LLMs)面試筆記
一、大模型進階面
💯 大模型(LLMs)DeepSeek面
-
一、概念篇
-
Deepseek-V3的主要特點有哪些?
-
DeepSeek-V3在推理速度方面表現出色的原因有哪些?
-
-
二、模型結構篇
-
MLA
-
什么是多頭潛在注意力(MLA)?
-
MLA的計算流程是什么樣的?
-
訓練時MLA需要配置哪些超參?
-
MLA相對于MHA有哪些改進?
-
-
MoE
-
什么是MoE?
-
DeepSeekMoE包含哪兩種專家類型?
-
Share 專家和Router 專家的作用是什么?
-
講一下DeepSeekMoE的計算流程?
-
DeepSeekMoE是如何實現負載均衡的?
-
-
MTP
-
什么是Multi-Token Prediction(MTP)?
-
Multi-Token Prediction(MTP)有何作用?
-
講一下Multi-Token Prediction(MTP)的預測流程?
-
-
-
三、預訓練篇
-
Prefix-Suffix-Middle (PSM)數據格式是什么樣的?
-
DeepSeek預訓練數據為何使用Prefix-Suffix-Middle (PSM)格式?
-
介紹一下Byte-level BPE?
-
DeepSeek是如何進行長上下文擴展的?
-
DeepSeek的使用YaRN進行長上下文擴展有哪兩個階段?
-
DeepSeek預訓練追求極致的訓練效率的做法有哪些?
-
批量級負載均衡(Batch-Wise Load Balance)和順序級負載均衡(Sequence-Wise Load Balance)有何區別?
-
使用MTP為何在提高計算效率的同時還能提升效果?
-
-
**四、有監督微調篇
-
DeepSeek的SFT有哪幾種數據?
-
DeepSeek是如何構造Reasoning Data數據的?
-
DeepSeek兩種不同類型的SFT數據,區別是什么?
-
DeepSeek在SFT訓練時是如何加速訓練過程的?
-
-
五、強化學習篇
-
DeepSeek有哪兩種獎勵模型?
-
Rule-Based RM和Model-Based RM的區別是什么?
-
Rule-Based RM用在什么地方?有何作用?
-
Model-Based RM用在什么地方?有何作用?
-
DeepSeek是如何降低獎勵欺詐風險的?
-
DeepSeek為何使用Group Relative Policy Optimization(GRPO)?
-
DeepSeek為何放棄Critic模型來估計狀態的價值?
-
DeepSeek是如何進行Self-Rewarding的?
-
DeepSeek-V3從DeepSeek-R1中蒸餾知識有哪些影響?
-
點擊查看答案
💯 大模型(LLMs)模型壓縮面
-
一、動因篇
- 💯 為什么需要對大模型進行壓縮和加速?
-
二、方法篇
-
低秩分解
-
💯 什么是低秩分解?
-
💯 什么是奇異值分解(SVD)?
-
-
權值共享
-
💯 什么是權值共享?
-
💯 權值共享為什么有效?
-
-
模型量化
-
💯 什么是模型量化?
-
💯 均勻量化和非均勻量化有什么區別?
-
💯 大模型訓練后量化有什么優點?
-
💯 什么是混合精度分解?
-
-
知識蒸餾
-
💯 什么是蒸餾?
-
💯 什么是基于反饋的知識蒸餾?
-
💯 什么是基于特征的知識蒸餾?
-
💯 什么是蒸餾損失?
-
💯 什么是學生損失?
-
💯 模型蒸餾的損失函數是什么?
-
-
剪枝
-
💯 什么是剪枝?
-
💯 描述一下剪枝的基本步驟?
-
💯 結構化剪枝和非結構化剪枝有什么不同?
-
-
點擊查看答案
💯 大模型(LLMs)分布式訓練面
-
一、動因篇
- 分布式訓練主要解決大模型訓練中的哪些問題?
-
二、數據并行
-
數據并行主要為了解決什么問題?
-
PS架構是如何進行梯度同步和更新的?
-
Ring-AllReduce是如何進行梯度同步和更新的?
-
PS架構和Ring-AllReduce架構有何不同?
-
-
三、模型并行和張量并行
-
模型并行主要為了解決什么問題?
-
什么是張量并行,如何使用集群計算超大矩陣?
-
基礎的流水線并行存在什么問題?
-
講一講谷歌的GPipe算法?
-
講一講微軟的PipeDream算法?
-
-
四、DeepSpeed ZeRO
-
如何計算大模型占用的顯存?
-
ZeRO主要為了解決什么問題?
-
ZeRO1、ZeRO2、ZeRO3分別做了哪些優化?
-
用DeepSpeed進行訓練時主要配置哪些參數?
-
點擊查看答案
💯 大模型(LLMs)模型編輯面
-
一、概念篇
-
什么是模型編輯(Model Editing)?
-
模型編輯(Model Editing)核心目標是什么?
-
對比重新預訓練和微調,模型編輯的優勢和適用場景是什么?
-
如何用模型編輯修正大語言模型中的知識錯誤?
-
-
二、性質篇
-
模型編輯的五大性質(準確性、泛化性、可遷移性、局部性、高效性)分別是什么?
-
如何量化評估模型編輯的五大性質?
-
若模型編輯后泛化性較差,可能的原因是什么?如何優化?
-
模型編輯局部性如何避免“牽一發而動全身”的問題?
-
-
三、方法篇
-
外部拓展法
-
知識緩存法(如SERAC)的工作原理是什么?
-
知識緩存法中的門控單元和推理模塊如何協作?
-
附加參數法(如T-Patcher)如何在不改變原始模型架構的情況下實現編輯?
-
知識緩存法和附加參數法的優缺點有何優缺點?
-
-
內部修改法
-
ROME方法如何通過因果跟蹤實驗定位知識存儲位置?
-
阻斷實驗的作用是什么?
-
元學習法(如MEND)如何實現“學習如何編輯”?
-
元學習法的雙層優化框架如何設計?
-
定位編輯法(如KN、ROME)如何通過修改全連接前饋層參數實現精準編輯?
-
-
-
四、對比篇
-
SERAC、T-Patcher、ROME在準確性、泛化性、局部性上的表現有何差異?
-
為什么ROME的局部性表現優于T-Patcher?
-
點擊查看答案
二、大模型微調面
💯 大模型(LLMs)有監督微調(SFT)面
-
一、概念篇
-
💯 從零訓練一個大模型有哪幾個核心步驟?
-
💯 為什么要對LLM做有監督微調(SFT)?
-
💯 如何將一個基礎模型訓練成一個行業模型?
-
-
二、數據篇
-
💯 如何準備SFT階段的訓練數據?
-
💯 alpaca 格式是這么樣的?
-
💯 sharegpt 格式是什么樣的?
-
💯 alpaca 格式和sharegpt 格式分別適合什么微調場景?
-
💯 如何自動生成指令構建SFT的訓練數據?
-
💯 Self-instruct 數據生成步驟?
-
-
三、技巧篇
-
💯 什么是災難性遺忘?
-
💯 LM做有監督微調(SFT)變傻了怎么辦?
-
💯 如何避免災難性遺忘?
-
-
四、對比篇
-
💯 有監督微調(SFT)和人工偏好對齊(RLHF)有何區別?
-
💯 有監督微調(SFT)適用于什么場景?
-
💯 人工偏好對齊(RLHF)適用于什么場景?
-
點擊查看答案
💯 大模型(LLMs)高效微調面
-
一、概念篇
-
💯 什么是微調?
-
💯 全量微調與參數高效微調的區別是什么?
-
💯 為什么需要對大模型進行高效微調?
-
💯 對大模型高效微調有哪些常用方法?
-
-
二、輕度微調
-
💯 什么是輕度微調?
-
💯 輕度微調有哪些常用方法?
-
💯 什么是BitFit微調?
-
💯 什么是分層微調?
-
💯 分層微調如何設置學習率?
-
-
三、適配器微調
-
💯 什么是適配器微調?
-
💯 適配器微調有哪些優勢?
-
💯 講一講IA3微調?
-
-
四、提示學習(Prompting)
-
概念篇
-
💯 什么是提示學習(Prompting)?
-
💯 提示學習(Prompting) 代表方法有哪些?
-
-
前綴微調(Prefix-tuning)
-
💯 什么是前綴微調(Prefix-tining)?
-
💯 前綴微調(Prefix-tining)的優點是什么?
-
💯 前綴微調(Prefix-tining)的缺點是什么?
-
-
提示微調(Prompt-tuning)
-
💯 什么是提示微調(Prompt-tuning)?
-
💯 提示微調(Prompt-tuning)的核心思想?
-
💯 提示微調(Prompt-tuning)的 優點是什么?
-
💯 提示微調(Prompt-tuning)的 缺點是什么?
-
-
P-tuning
-
💯 P-tuning 動機是什么?
-
💯 P-tuning v2 解決了什么問題?
-
💯 P-tuning v2 進行了哪些改進?
-
-
-
五、指令微調
-
💯 為什么需要 指令微調(Instruct-tuning)?
-
💯 指令微調(Instruct-tuning)是什么?
-
💯 指令微調(Instruct-tuning)的優點是什么?
-
💯 指令微調(Instruct-tuning) 和 提示學習(Prompting)的區別是什么?
-
-
六、LoRa微調
-
💯 什么是LoRA微調?
-
💯 為什么在參數高效微調中使用低秩矩陣分解?
-
💯 詳細說明LoRA的工作原理及其優勢?
-
💯 LoRA微調時有哪些可配置的參數?
-
💯 在配置LoRA時,如何設置參數r和alpha?
-
💯 LoRA存在低秩瓶頸問題,ReLoRA和AdaLoRA分別通過哪些方法改進?
-
💯 動態秩分配(如AdaLoRA)如何根據層的重要性調整秩?正交性約束的作用是什么?
-
💯 AdapterFusion如何實現多任務學習?
-
💯 如何利用LoRAHub實現跨任務泛化?其組合階段與適應階段的具體流程是什么?
-
點擊查看答案
💯 大模型(LLMs)提示學習面
-
一、概念篇
-
💯 什么是提示學習(Prompting)?
-
💯 提示學習(Prompting) 代表方法有哪些?
-
-
二、方法篇
-
前綴微調(Prefix-tuning)
-
💯 什么是前綴微調(Prefix-tining)?
-
💯 前綴微調(Prefix-tining)的優點是什么?
-
💯 前綴微調(Prefix-tining)的缺點是什么?
-
-
提示微調(Prompt-tuning)
-
💯 什么是提示微調(Prompt-tuning)?
-
💯 提示微調(Prompt-tuning)的核心思想?
-
💯 提示微調(Prompt-tuning)的 優點是什么?
-
💯 提示微調(Prompt-tuning)的 缺點是什么?
-
-
P-tuning
-
💯 P-tuning 動機是什么?
-
💯 P-tuning v2 解決了什么問題?
-
💯 P-tuning v2 進行了哪些改進?
-
-
-
三、對比篇
-
💯 提示微調(Prompt-tuning)與 Prefix-tuning 區別 是什么?
-
💯 提示微調(Prompt-tuning)與 fine-tuning 區別 是什么?
-
點擊查看答案
💯 大模型(LLMs)人類對齊訓練(RLHF)面
-
一、概念篇
-
💯 從零訓練一個大模型有哪幾個核心步驟?
-
💯 從零訓練大模型的三大階段(Pretrain/SFT/RLHF)分別解決什么問題?
-
💯 什么是人類偏好對齊訓練?
-
💯 為什么需要做人類偏好對齊訓練?
-
💯 RLHF有哪幾個核心流程?
-
💯 RLHF與SFT的本質區別是什么?為什么不能只用SFT?
-
💯 什么是人類偏好對齊中的"對齊稅"(Alignment Tax)?如何緩解?
-
💯 RLHF的三大核心模塊(獎勵模型訓練、策略優化、偏好數據收集)如何協同工作?
-
💯 為什么RLHF需要馬爾可夫決策過程(MDP)建模?對話場景如何設計MDP五元組?
-
-
二、方法篇
-
強化學習和馬爾可夫決策過程(MDP)
-
💯 馬爾可夫決策過程的五元組是分別指什么?
-
💯 狀態價值函數、優勢價值函數、動作價值函數分別表示什么意思?
-
💯 在強化學習中,基于值函數的和基于策略的的優化方法有何區別?
-
💯 基于值函數的方法在處理連續動作空間問題時的優缺點分別是什么?
-
💯 基于策略的方法在處理連續動作空間問題時的優缺點分別是什么?
-
-
PPO 算法
-
什么是近端策略優化(PPO)?
-
RLHF中的PPO主要分哪些步驟?
-
💯 PPO中的重要性采樣(Importance Sampling)如何修正策略差異?
-
💯 Actor-Critic架構在RLHF中的雙網絡設計原理?
-
💯 KL散度在RLHF中的雙重作用是什么?
-
PPO-Clip與PPO-Penalty的數學形式差異及適用場景?
-
-
DPO 算法
-
💯 DPO如何通過隱式獎勵建模規避強化學習階段?
-
Bradley-Terry模型與DPO目標函數的關系推導
-
DPO vs PPO:訓練效率與性能上限的對比分析
-
-
-
三、實踐篇
-
💯 RLHF訓練數據的格式是什么樣的?
-
💯 人類偏好數據收集的三大范式(人工標注/用戶隱式反饋/AI生成對比)?
-
💯 如何選擇人類偏好對齊訓練還是SFT?
-
💯 如何選擇人類偏好對齊訓練算法?
-
💯 如何理解人類偏好對齊訓練中的Reward指標?
-
💯 Reward Hack問題(獎勵模型過擬合)的檢測與緩解方案有哪些?
-
點擊查看答案
💯 大模型(LLMs)提示工程面
-
一、概念篇
-
什么是Prompt工程?
-
為什么需要Prompt工程?
-
-
二、技巧篇
-
Prompt設計要素
-
任務說明、上下文、問題和輸出格式的作用是什么?
-
如何優化Prompt以提高模型性能?
-
如何規范編寫Prompt?
-
-
上下文學習(In-Context Learning)
-
什么是上下文學習?
-
上下文學習三種形式(零樣本、單樣本、少樣本)的區別?
-
如何選擇有效的演示示例?
-
影響上下文學習性能的因素有哪些?
-
如何通過預訓練數據分布和模型規模優化上下文學習效果?
-
為什么提示中示例的順序和數量會影響模型性能?
-
-
思維鏈(Chain of Thought, CoT)
-
思維鏈(CoT)的核心思想是什么?
-
思維鏈(CoT)在解決哪些任務類型中效果顯著?
-
思維鏈(CoT)有哪幾種常見的模式?
-
按部就班(如 Zero-Shot CoT、Auto-CoT)、三思后行(如 ToT、GoT)、集思廣益(如 Self-Consistency)三種 CoT 模式有何異同?
-
如何在不同任務中選擇和應用CoT?
-
CoT如何提升模型在復雜推理任務中的表現?
-
為什么某些指令微調后的模型無需顯式 CoT 提示?
-
-
-
三、對比篇
- Prompt工程與傳統微調的區別是什么?
點擊查看答案
三、大模型(LLMs)基礎面
💯 大模型(LLMs)模型架構面
-
一、概念篇
- 💯 LLM架構對Transformer都有哪些優化?
-
二、組件篇
-
位置編碼
-
💯 什么是正弦(Sinusoidal)位置編碼?
-
💯 什么是旋轉位置編碼(RoPE)?
-
💯 RoPE相對正弦位置編碼有哪些優勢?
-
-
長度外推
-
💯 正弦編碼是否真的具備外推性?
-
💯 RoPE如何進行外推?
-
💯 如何進行位置線性內插(Position Interpolation)?
-
💯 NTK-Aware Scaled RoPE 和位置線性內插的區別是什么?
-
💯 NTK-Aware Scaled RoPE 為何要對高頻做外推,而對低頻做內插?
-
-
注意力機制
-
💯 LLM為何使用GQA代替MHA?
-
💯 GQA如何平衡計算效率與模型性能?
-
💯 GQA與MQA(Multi-Query Attention)有何區別?各自適用場景是什么?
-
💯 GQA是否會影響模型對不同注意力模式的捕捉能力?如何緩解?
-
-
PreNorm和PostNorm
-
💯 PreNorm和PostNorm有何不同?
-
💯 為什么PreNorm通常能提升訓練穩定性?
-
💯 PostNorm在何種場景下可能優于PreNorm?
-
💯 如何通過殘差連接設計緩解PostNorm的優化問題?
-
-
RMSNorm和LayerNorm
-
💯 為何使用 RMSNorm 代替 LayerNorm?
-
💯 RMSNorm與LayerNorm在數學公式上的核心區別是什么?
-
💯 RMSNorm可能帶來哪些信息損失?如何補償?
-
💯 RMSNorm是否適用于所有模態任務?
-
-
激活函數
-
💯 LLM使用SwiGLU相對于ReLU有什么好處?
-
💯 SwiGLU相比ReLU如何提升模型非線性表達能力?
-
💯 為什么SwiGLU在預訓練任務中表現更佳?
-
💯 SwiGLU的參數量是否會顯著增加?如何優化?
-
-
點擊查看答案
💯 大模型(LLMs)注意力機制(Attention)面
-
一、概念篇
-
💯 什么是 Attention?
-
💯 為什么要引入 Attention 機制?
-
💯 如何計算 Attention?
-
-
二、變體篇
-
💯 Soft Attention 是什么?
-
💯 Hard Attention 是什么?
-
💯 Global Attention 是什么?
-
💯 Local Attention 是什么?
-
💯 Self-Attention 是什么?
-
💯 多查詢注意力(Multi-Query Attention)是什么?
-
💯 分組查詢注意力(Grouped Query Attention)是什么?
-
💯 分頁注意力(Paged Attention)是什么?
-
💯 閃存注意力(Flash Attention)是什么?
-
點擊查看答案
💯 大模型(LLMs)Transformer面
-
一、模型結構篇
-
💯 Transformer 整體結構是怎么樣的?
-
💯 Transformer 編碼器有哪些子層?
-
💯 Transformer 解碼器有哪些子層?
-
-
二、核心機制篇
-
位置編碼
-
💯 Transformer的輸入中為什么要添加位置編碼?
-
💯 什么是正弦(Sinusoidal)位置編碼?
-
💯 Transformer的位置編碼是如何計算的?
-
💯 Position encoding為什么選擇相加而不是拼接呢?
-
-
多頭注意力
-
💯 Self-Attention 是什么?
-
💯 多頭注意力相對于單頭注意力有什么優勢?
-
💯 Transformer中自注意力模塊的計算過程?
-
💯 什么是縮放點積注意力,為什么要除以 d k \sqrt{d_k} dk?? ?
-
-
殘差連接
-
💯 Transformer為什么要使用殘差連接?
-
💯 使用殘差連接有哪些好處?
-
-
層歸一化
-
💯 為什么要做歸一化?
-
💯 Layer Normalization 是什么?
-
💯 Layer Normalization 有什么用?
-
💯 批歸一化和層歸一化的區別?
-
💯 Layer Normalization 有哪幾個可訓練參數?
-
-
Mask 機制
-
💯 解碼器中為什么要使用Mask?
-
💯 Transformer 中有幾種 Mask?
-
💯 Padding Mask 是如何實現的?
-
💯 Sequence Mask 是如何實現的?
-
-
-
三、問題優化篇
-
💯 LLM為何使用GQA代替MHA?
-
💯 LLM為何使用 PreNorm 代替 PostNorm?
-
💯 LLM為何使用 RMSNorm 代替 LayerNorm?
-
💯 LLM使用SwiGLU相對于ReLU有什么好處?
-
點擊查看答案
四、NLP 任務實戰面
💯 大模型(LLMs)文本分類面
-
一、概念篇
- 什么是文本分類?
-
二、方法篇
-
主題建模法
-
什么是主題建模任務?
-
主題建模有哪些常用方法?
-
TF-IDF 算法是做什么的?
-
TF-IDF 有什么優缺點?適合哪些文本分類任務?
-
-
傳統分類法
-
講一講 FastText 的分類過程?
-
講一講 TextCNN 文本分類的過程?
-
如何基于基于預訓練模型做文本分類?
-
-
檢索匹配法
-
什么場景需要用檢索的方式做文本分類?
-
如何用檢索的方式做文本分類?
-
檢索的方法 的 訓練階段 如何做?
-
檢索的方法 的 預測階段 如何做?
-
用檢索的方式做文本分類有何優缺點?
-
-
大模型方法
-
如何用Prompt的方式做文本分類?
-
如何使用多提示學習提升文本分類效果?
-
使用LLM做文本分類任務為何需要做標簽詞映射(Verbalizer)?
-
-
-
三、進階篇
-
文本分類任務中有哪些難點?
-
如何解決樣本不均衡的問題?
-
如何冷啟動文本分類項目?
-
如果類別會變化如何設計文本分類架構?
-
短文本如何進行分類?
-
長文本如何進行分類?
-
點擊查看答案
💯 大模型(LLMs)命名實體識別(NER)面
-
一、概念篇
-
什么是實體識別?
-
實體識別有哪些常用的解碼方式?
-
NER的常用評價指標(精確率、召回率、F1)有何局限性?
-
預訓練模型(如BERT,LLM)如何改變傳統NER的范式?
-
-
二、方法篇
-
傳統方法
-
如何用序列標注方法做NER任務?
-
什么是 CRF?
-
CRF為什么比Softmax更適合NER?
-
如何使用指針標注方式做NER任務?
-
如何使用多頭標注方式做NER任務?
-
如何使用片段排列方式做NER任務?
-
-
大模型方法
-
如何將NER建模為生成任務(例如使用T5、GPT)?
-
大模型做NER任務的解碼策略有何不同?
-
如何設計模板提升NER任務少樣本效果?
-
-
對比篇
-
序列標注方法有何優缺點?
-
指針標注、多頭標注和片段排列有何優缺點,分別適用于哪些場景?
-
大模型方法和傳統方法做NER任務分別有什么優缺點?
-
-
-
三、標注篇
-
實體識別的數據是如何進行標注的?
-
BIO、BIOES、IOB2標注方案的區別與優缺點?
-
-
四、問題篇
-
實體識別中有哪些難點?
-
什么是實體嵌套?
-
如何解決實體嵌套問題?
-
如何解決超長實體識別問題?
-
NER實體span過長怎么辦?
-
如何解決 NER 標注數據噪聲問題?
-
如何解決 NER 標注數據不均衡問題?
-
點擊查看答案
💯 大模型(LLMs)關系抽取面
-
一、概念篇
-
什么是關系抽取?
-
常見關系抽取流程的步驟是怎樣的?
-
-
二、句子級關系抽取篇
-
什么是模板匹配方法?
-
模板匹配方法的優點是什么?
-
模板匹配方法存在哪些局限性或缺點呢?
-
什么是關系重疊問題?
-
什么是復雜關系問題?
-
什么是聯合抽取?
-
介紹下基于共享參數的聯合抽取方法?
-
介紹下基于聯合解碼的聯合抽取方法?
-
關系抽取的端到端方法和流水線方法各有什么優缺點?
-
-
三、文檔級關系抽取篇
-
文檔級關系抽取與單句關系抽取有何區別?
-
在進行跨句子甚至跨段落的關系抽取時,會遇到哪些特有的挑戰?
-
文檔級關系抽取的方法有哪些?
-
文檔級關系抽取常見數據集有哪些以及其評估方法?
-
點擊查看答案
💯 大模型(LLMs)檢索增強生成(RAG)面
-
一、動因篇
-
為什么要做RAG系統?
-
RAG和大模型微調的區別?
-
RAG和大模型微調分別適用于什么場景?
-
講一下RAG的總體流程?
-
-
二、流程篇
-
Query 理解
-
用戶理解階段一般會做哪些處理?有何作用?
-
用戶問題總是召回不準確,在用戶理解階段可以做哪些優化?
-
-
Index 構建
-
問答對問答中,如何構建索引,提升對用戶問題的泛化能力?
-
文檔問答中,如何構建索引,提升對用戶問題的泛化能力?
-
問題經常命中不到文本塊,如何在索引階段做優化?
-
-
Retrieval 召回
-
多路檢索如何實現?
-
如何合并多路檢索的結果,對它們做排序?
-
BM25檢索器總是召回無關的知識,最可能的原因是什么?
-
如何借助其他用戶的使用情況,提升總體的檢索性能?
-
-
Reranker 精排
-
為何要對檢索的結果做精排(重排)?
-
如何構建重排序模型的微調數據?
-
-
點擊查看答案
五、NLP 基礎面
💯 大模型(LLMs)分詞(Tokenizer)面
-
💯 如何處理超出詞表的單詞(OVV)?
-
💯 BPE 分詞器是如何訓練的?
-
💯 WordPiece 分詞器是如何訓練的?
-
💯 Unigram 分詞器是如何訓練的?
點擊查看答案
💯 大模型(LLMs)詞嵌入(Word2Vec)面
-
一、動因篇
-
💯 什么是詞向量化技術?
-
💯 如何讓向量具有語義信息?
-
-
二、基于統計的方法
-
💯 如何基于計數的方法表示文本?
-
💯 上下文中的窗口大小是什么意思?
-
💯 如何統計語料的共現矩陣?
-
💯 基于計數的表示方法存在哪些問題?
-
-
三、基于推理的方法
-
💯 Word2Vec的兩種模型分別是什么?
-
💯 Word2Vec 中 CBOW 指什么?
-
💯 Word2Vec 中 Skip-gram 指什么?
-
💯 CBOW 和 Skip-gram 哪個模型的詞嵌入更好?
-
-
四、問題優化篇
-
💯 Word2Vec訓練中存在什么問題?
-
💯 Word2Vec如何優化從中間層到輸出層的計算?
-
用負采樣優化中間層到輸出層的計算
-
負采樣方法的關鍵思想
-
負采樣的采樣方法
-
-
💯 為什么說Word2vec的詞向量是靜態的?
-
💯 Word2vec的詞向量存在哪些問題?
-
點擊查看答案
💯 大模型(LLMs)卷積神經網絡(CNN)面
-
一、動因篇
- 💯 卷積,池化的意義
-
二、模型篇
-
💯 為什么卷積核設計尺寸都是奇數
-
💯 卷積操作的特點
-
💯 為什么需要 Padding ?
-
💯 卷積中不同零填充的影響?
-
💯 1 1 卷積的作用?
-
💯 卷積核是否越大越好?
-
💯 CNN 特點
-
💯 為何較大的batch size 能夠提高 CNN 的泛化能力?
-
💯 如何減少卷積層參數量?
-
-
三、對比篇
-
💯 SAME 與 VALID 的區別
-
💯 CNN 優缺點
-
💯 你覺得 CNN 有什么不足?
-
💯 CNN 與 RNN 的優劣
-
點擊查看答案
💯 大模型(LLMs)循環神經網絡(RNN)面
-
一、RNN 概念篇
- 💯 RNN的作用是什么?
-
二、RNN 模型篇
-
💯 RNN的輸入輸出分別是什么?
-
💯 RNN是如何進行參數學習(反向傳播)的?
-
💯 Relu 能否作為RNN的激活函數
-
-
三、RNN 優化篇
-
💯 RNN不能很好學習長期依賴的原因是什么?
-
💯 RNN 中為何會出現梯度消失,梯度爆炸問題?
-
💯 為何 RNN 訓練時 loss 波動很大
-
💯 計算資源有限的情況下有沒有什么優化方法?
-
💯 推導一下 GRU
-
-
四、RNN 對比篇
-
💯 LSTM 相對 RNN 的主要改進有哪些?
-
💯 LSTM 與 GRU 之間的關系
-
💯 LSTM 與 GRU 區別
-
點擊查看答案
💯 大模型(LLMs)長短期記憶網絡(LSTM)面
-
一、動因篇
-
💯 RNN 梯度消失的原因?
-
💯 LSTM 如何緩解 RNN 梯度消失的問題?
-
💯 LSTM不會發生梯度消失的原因
-
-
二、模型篇
-
💯 LSTM 相對 RNN 的主要改進有哪些?
-
💯 門機制的作用
-
💯 LSTM的網絡結構是什么樣的?
-
💯 LSTM中記憶單元的作用是什么?
-
💯 LSTM中的tanh和sigmoid分別用在什么地方?
-
💯 LSTM有幾個門,分別起什么作用?
-
💯 LSTM 單元是如何進行前向計算的?
-
💯 LSTM的前向計算如何進行加速?
-
💯 LSTM 單元是如何進行反向傳播的?
-
-
三、應用篇
-
💯 LSTM在實際應用中的提升技巧有哪些?
-
為何多層LSTM疊加可以提升模型效果?
-
雙向LSTM為何更有效?
-
LSTM中如何添加Dropout層?
-
點擊查看答案
💯 大模型(LLMs)BERT 模型面
-
一、動因概念篇
-
Bert 是什么?
-
為什么說BERT是雙向的編碼語言模型?
-
BERT 是如何區分一詞多義的?
-
BERT為什么如此有效?
-
BERT存在哪些優缺點?
-
-
二、BERT 架構篇
-
BERT 是如何進行預訓練的?
-
BERT的輸入包含哪幾種嵌入?
-
什么是分段嵌入?
-
BERT的三個Embedding直接相加會對語義有影響嗎?
-
講一下BERT的WordPiece分詞器的原理?
-
為什么BERT在第一句前會加一個【CLS】標志?
-
BERT-base 模型和 BERT-large 模型之間有什么區別?
-
使用BERT預訓練模型為什么最多只能輸入512個詞?
-
BERT模型輸入長度超過512如何解決?
-
-
BERT 訓練篇
-
Masked LM 任務
-
BERT 為什么需要預訓練任務 Masked LM ?
-
掩碼語言模型是如何實現的?
-
為什么要采取Masked LM,而不直接應用Transformer Encoder?
-
Bert 預訓練任務 Masked LM 存在問題?
-
什么是 80-10-10 規則,它解決了什么問題?
-
bert為什么并不總是用實際的 masked token替換被“masked”的詞匯?
-
為什么BERT選擇mask掉15%這個比例的詞,可以是其他的比例嗎?
-
-
Next Sentence Prediction 任務
-
Bert 為什么需要預訓練任務 Next Sentence Prediction ?
-
下句預測任務是如何實現的?
-
-
-
BERT 微調篇
-
對 Bert 做 fine-turning 有什么優勢?
-
Bert 如何針對不同類型的任務進行 fine-turning?
-
-
對比篇
-
BERT 嵌入與 Word2Vec 嵌入有何不同?
-
elmo、GPT和bert在單雙向語言模型處理上的不同之處?
-
word2vec 為什么解決不了多義詞問題?
-
為什么 elmo、GPT、Bert能夠解決多義詞問題?
-
點擊查看答案
💯 大模型(LLMs)BERT 變體面
-
一、BERT變體篇
-
句序預測任務與下句預測任務有什么不同?
-
ALBERT 使用的參數縮減技術是什么?
-
什么是跨層參數共享?
-
RoBERTa 與 BERT 有什么不同?
-
在 ELECTRA 中,什么是替換標記檢測任務?
-
如何在 SpanBERT 中掩蓋標記?
-
Transformer-XL怎么實現對長文本建模?
-
-
二、問題優化篇
-
針對BERT原生模型的缺點,后續的BERT系列模型是如何改進【生成任務】的?
-
針對BERT原生模型的缺點,后續的BERT系列模型是如何引入【知識】的?
-
針對BERT原生模型的缺點,后續的BERT系列模型是如何引入【多任務學習機制】的?
-
針對BERT原生模型的缺點,后續的BERT系列模型是如何改進【mask策略】的?
-
針對BERT原生模型的缺點,后續的BERT系列模型是如何進行【精細調參】的?
-
點擊查看答案
💯 大模型(LLMs)BERT 實戰面
-
一、場景篇
-
BERT擅長處理哪些下游NLP任務?
-
BERT為什么不適用于自然語言生成任務(NLG)?
-
如何使用預訓練的 BERT 模型?
-
在問答任務中,如何計算答案的起始索引?
-
在問答任務中,如何計算答案的結束索引?
-
如何將 BERT 應用于命名實體識別任務?
-
-
二、微調篇
-
什么是微調?
-
什么是繼續預訓練?
-
如何進行繼續預訓練?
-
-
三、問題篇
-
什么是 Bert 未登錄詞?
-
Bert 未登錄詞如何處理?
-
Bert 未登錄詞各種處理方法有哪些優缺點?
-
BERT在輸入層如何引入額外特征?
-
點擊查看答案
六、深度學習面
💯 大模型(LLMs)激活函數面
-
一、動因篇
-
💯 為什么需要激活函數
-
💯 為什么激活函數需要非線性函數?
-
-
二、方法篇
-
sigmoid
-
💯 什么是 sigmoid 函數?
-
💯 為什么選 sigmoid 函數 作為激活函數?
-
💯 sigmoid 函數有什么缺點?
-
-
tanh
-
💯 什么是 tanh 函數?
-
💯 為什么選 tanh 函數作為激活函數?
-
💯 tanh 函數作為激活函數有什么缺點?
-
-
relu
-
💯 什么是 relu 函數?
-
💯 為什么選 relu 函數作為激活函數?
-
💯 relu 函數有什么缺點?
-
💯 為什么tanh收斂速度比sigmoid快?
-
-
點擊查看答案
💯 大模型(LLMs)優化器面
-
一、動因篇
- 💯 梯度下降法的思想是什么?
-
二、方法篇
-
💯 SGD是如何實現的?
-
💯 SGD有什么缺點?
-
💯 Momentum 是什么?
-
💯 Adagrad 是什么?
-
💯 RMSProp是什么?
-
💯 Adam 是什么?
-
-
三、對比篇
- 💯 批量梯度下降(BGD)、隨機梯度下降(SGD)與小批量隨機梯度下降(Mini-Batch GD)的區別?
點擊查看答案
💯 大模型(LLMs)正則化面
-
一、動因篇
-
💯 為什么要正則化?
-
💯 權重衰減的目的?
-
-
二、 L n Ln Ln 正則化篇
-
💯 什么是 L1 正則化?
-
💯 什么是 L2 正則化?
-
💯 L1 與 L2 的異同
-
💯 為什么 L1 正則化 可以產生稀疏值,而 L2 不會?
-
💯 為何只對權重進行正則懲罰,而不針對偏置?
-
💯 為何 L1 和 L2 正則化可以防止過擬合?
-
-
三、Dropout 篇
-
💯 什么是Dropout?
-
💯 為什么Dropout可以解決過擬合問題?
-
💯 Dropout 在訓練和測試階段的區別是什么?
-
💯 Dropout 的變體有哪些?
-
💯 如何選擇合適的 Dropout 率?
-
💯 Dropout 和其他正則化方法(如 L1、L2 正則化)有何不同?
-
點擊查看答案
💯 大模型(LLMs)歸一化面
-
一、動因篇
-
💯 為什么要做歸一化?
-
💯 為什么歸一化能提高求最優解速度?
-
-
二、方法篇
-
💯 主流的歸一化有哪些方法?
-
Batch Normalization
-
💯 Batch Normalization 是什么?
-
💯 Batch Normalization 的有點有哪些?
-
💯 BatchNorm 存在什么問題?
-
-
Layer Normalization
-
💯 Layer Normalization 是什么?
-
💯 Layer Normalization 有什么用?
-
-
-
三、對比篇
-
💯 批歸一化和組歸一化的比較?
-
💯 批歸一化和權重歸一化的比較?
-
💯 批歸一化和層歸一化的比較?
-
點擊查看答案
💯 大模型(LLMs)參數初始化面
-
一、概念篇
-
💯 什么是內部協變量偏移?
-
💯 神經網絡參數初始化的目的?
-
💯 為什么不能將所有神經網絡參數初始化為0?
-
-
二、方法篇
-
💯 什么是Xavier初始化?
-
💯 什么是He初始化?
-
點擊查看答案
💯 大模型(LLMs)過擬合面
-
💯 過擬合與欠擬合的區別是什么?
-
💯 解決欠擬合的方法有哪些?
-
💯 防止過擬合的方法主要有哪些?
-
💯 什么是Dropout?
-
💯 為什么Dropout可以解決過擬合問題?
點擊查看答案
💯 大模型(LLMs)集成學習面
-
一、概念篇
-
集成學習的核心思想是什么?
-
集成學習與傳統單一模型相比有哪些本質區別?
-
從偏差-方差分解的角度,解釋集成學習為什么能提升模型性能?
-
集成學習有效性需要滿足哪些前提條件?
-
-
二、Boosting 篇
-
解釋一下 Boosting 的迭代優化過程
-
Boosting 的基本思想是什么?
-
Boosting 如何通過殘差擬合實現誤差修正?
-
GBDT 是什么?
-
XGBoost 是什么?
-
GBDT與 XGBoost 的核心差異是什么?
-
為什么XGBoost要引入二階泰勒展開?對模型性能有何影響?
-
-
三、Bagging 篇
-
什么是 Bagging?
-
Bagging 的基本思想是什么?
-
Bagging的并行訓練機制如何提升模型穩定性?
-
隨機森林 是什么?
-
隨機森林與孤立森林的本質區別是什么?
-
對比Bagging與Dropout在神經網絡中的異同?
-
-
四、Stacking 篇
-
什么是 Stacking ?
-
Stacking 的基本思路是什么?
-
Stacking中為什么要用K折預測生成元特征?
-
如何避免Stacking中信息泄露問題?
-
-
五、對比篇
-
對比Boosting/Bagging/Stacking三大范式的核心差異(目標、訓練方式、基學習器關系)?
-
集成學習中基學習器的"穩定性"如何影響算法選擇?
-
Boosting、Bagging 與 偏差、方差的關系?
-
為什么Bagging常用高方差模型?
-
點擊查看答案
💯 大模型(LLMs)評估指標面
-
一、概念篇
-
💯 混淆矩陣有何作用?
-
💯 分類任務中有哪幾個常規的指標?
-
-
二、F1-Score 篇
-
💯 什么是 F1-Score?
-
💯 對于多分類問題來說, F1 的計算有哪些計算方式?
-
💯 什么是 Macro F1?
-
💯 什么是 Micro F1?
-
💯 什么是 Weight F1?
-
-
三、對比篇
-
💯 Macro 和 Micro 有什么區別?
-
💯 什么是馬修斯相關系數(MCC)?
-
-
四、曲線篇
-
💯 ROC 曲線主要有什么作用?
-
💯 什么是 AUC(Area under Curve)?
-
💯 P-R 曲線有何作用?
-
點擊查看答案
七、面經分享
-
還愿!美團算法工程師面經分享
-
雙非研究生斬獲大廠offer(百度、阿里、順豐)
-
【211渣碩】 騰訊、阿里、攜程 詳細NLP算法實習 面經
-
【社招】1年工作經驗,字節跳動算法面經
-
六面!雙非本科終斬騰訊NLP offer
-
面試錦囊 – 復盤百度算法崗全三面(已OC)
-
阿里、騰訊 – 算法崗面試復盤
-
百度 – 一份遲來的機器學習面經
-
百度鳳巢算法面經
-
百度算法提前批 面試復盤
-
百度提前批算法工程師面筋!
-
百度自然語言處理算法秋招面經
-
超強整理,科班算法崗的秋招之路
-
超詳細!騰訊NLP算法崗面經(已offer)
-
達摩院+華為 – NLP博士的春招歷程
-
豪取BAT!超詳細暑期實習算法面經(https://dwz.cn/6ZVCnBOr)
-
美團、阿里、快手、百度 – NLP暑期算法實習復盤
-
美團、網易、陌陌 – NLP 算法面試復盤
-
美團算法 – NLP 三面復盤
-
秋招算法崗,面試復盤
-
秋招算法面經集合 – 華為、百度、騰訊、美團等
-
社招一年半 – 微軟、騰訊、網易算法崗熱乎面筋
-
暑期實習 – 百度NLP算法崗面試復盤
-
算法崗面試復盤 – 阿里、百度、作業幫、華為
-
算法崗通關寶典 – 社招一年經驗,字節5輪、阿里7輪
-
算法面試大亂斗
-
騰訊 WXG – 技術研究-NLP算法三面復盤
-
騰訊、頭條 – 算法崗詳細面經
-
頭條+騰訊 NLP 面經
-
字節 NLP – 三大部門七場面試,終拿字節AI NLP 算法offer
-
字節跳動算法 提前批offer復盤
-
字節跳動算法崗 – 四面 詳細面經
-
字節跳動AI-LAB – 算法三輪技術面分享
-
字節AI Lab – NLP算法面經
-
字節AI LAB NLP算法二面涼+被撈后通過
-
BATDK – 社招一年收割大廠算法offer
-
NLP面經集結 – 達摩院、騰訊、微軟、美團、百度
-
NLP面試復盤 – 阿里、騰訊、頭條、paypal、快手
-
NLP算法崗——秋招被虐經歷
-
NLP算法面經 – 騰訊 VS 美團
八、大廠AI實踐
8.1 阿里AI實踐
-
阿里小蜜智能服務技術實踐及場景探索
-
阿里云基于預訓練模型、智能運維的QA生成算法落地
-
情感計算在淘寶UGC的應用
-
AliceMind大規模預訓練實踐及AIGC在ModelScope中的應用
8.2 百度AI實踐
-
百度:大模型推動的人機交互對話
-
百度:基于異構互聯知識圖譜的多模內容創作技術
-
百度:如何從零樣本做中文文本知識標注與挖掘?
-
百度:文檔智能技術與應用
-
百度:文心PLATO開放域對話技術及其應用
-
百度:智能寫作如何為媒體內容創作賦能?
8.3 騰訊AI實踐
-
騰訊:可控、可靠的數據到文本生成技術
-
騰訊:微信搜一搜中的智能問答技術
-
騰訊:QQ瀏覽器搜索中的智能問答技術
-
騰訊:QQ音樂命名實體識別技術
8.4 美團AI實踐
-
美團:對話理解技術及實踐
-
美團:大眾點評信息流基于文本生成的創意優化實踐
-
美團:對話摘要技術在美團的探索(SIGIR)
-
美團:基于知識圖譜的問答在美團智能交互場景中的應用和演進
-
美團:美團搜索中查詢改寫技術的探索與實踐
-
美團:美團智能客服核心技術與實踐
-
美團:事件圖譜在美團智能客服問答中的應用(基于交互的推理)
-
美團:小樣本學習Prompt Learning+自訓練實戰
8.5 小米AI實踐
-
小米:音樂垂域的自然語言理解
-
小米:NLP技術在小米語音助手中的應用
8.6 其他AI實踐
-
58同城:智能客服系統“幫幫”技術揭秘
-
百分點:智能對話技術探索實踐
-
飛豬:POI 識別在飛豬搜索的探索與實踐
-
京東:基于知識圖譜的商品營銷文案自動生成實踐
-
微軟:基于預訓練的自然語言生成在搜索與廣告中的應用
-
清華:清華古典詩歌自動生成系統“九歌”的算法
-
閱文集團:NLP在網絡文學領域的應用
-
中科院:面向非結構化文本的信息抽取
-
中原銀行:AI 平臺建設實踐
-
OPPO:對話式 AI 助手小布的技術演進
-
OPPO:小布助手中的大規模知識圖譜