Deepseek-r1 面試寶典
原文地址:https://articles.zsxq.com/id_91kirfu15qxw.html
DeepSeek-R1 面試題匯總
-
DeepSeek-R1 面試題匯總
-
GRPO(Group Relative Policy Optimization)常見面試題匯總篇
-
DeepSeek-R1 DeepSeek-R1-Zero 常見面試題匯總篇
-
DeepSeek-R1 百問百搭-DeepSeek-R1 常見面試題匯總篇
-
DeepSeek-R1 論文解讀篇
-
...
-
GRPO(Group Relative Policy Optimization)常見面試題匯總篇
- GRPO(Group Relative Policy Optimization)篇
?🔥
-
GRPO(Group Relative Policy Optimization)算法的設計原理是什么?
-
GRPO(Group Relative Policy Optimization)算法與傳統RL方法有何不同?
-
...
-
-
答案
DeepSeek-R1 DeepSeek-R1-Zero 常見面試題匯總篇
- DeepSeek-R1-Zero 篇
?🔥
-
DeepSeek-R1-Zero 的基礎模型是什么?
-
DeepSeek-R1-Zero 如何通過純強化學習(RL)實現推理能力的突破?
-
...
-
-
DeepSeek-R1-Zero 篇答案
DeepSeek-R1 百問百搭-DeepSeek-R1 常見面試題匯總篇
- DeepSeek-R1 百問百搭-DeepSeek-R1篇
?🔥
-
冷啟動數據(cold-start data)篇
-
-
DeepSeek-R1 為什么要引入 冷啟動數據(cold-start data)?
-
...
-
-
?如何將長思維鏈(CoT)能力擴展到非STEM領域(如法律、藝術)?
-
-
DeepSeek-R1 冷啟動數據(cold-start data)核心優勢是什么?
-
冷啟動數據規模僅為數千條,如何保證訓練效果?
-
...
-
-
蒸餾技術篇
-
-
蒸餾技術的核心目標是什么?
-
為何小模型通過蒸餾能超越直接RL訓練?
-
...
-
-
推理導向的強化學習階段篇
-
-
論文提到“語言混合”(language mixing)問題,具體表現和解決思路是什么?
-
訓練數據中的多語言樣本如何處理?
-
...
-
-
-
DeepSeek-R1篇答案
DeepSeek-R1 論文解讀篇
- DeepSeek-R1 論文解讀
?🔥
- AiGC摩天大樓 —— 第一層 LLMs 之 DeepSeek R1系列——DeepSeek R1初體驗
?🔥
- AiGC摩天大樓 —— 第一層 LLMs 之 DeepSeek R1系列——如何使用 Ollama 在本地運行 DeepSeek R1?
?🔥
- AiGC摩天大樓 —— DeepSeek R1系列——如何使用 Ollama和DeepSeek R1搭建RAG系統??
🔥
-
DeepSeek-R1 復現 🔥
- AiGC摩天大樓 —— 第一層 LLMs 之 DeepSeek R1系列——QWen2.5 基礎模型 GRPO 訓練 復現Deepseek-R1
?🔥
-
介紹: 如何 QWen2.5 基礎模型 GRPO 訓練 復現Deepseek-R1。
- AiGC摩天大樓 —— 第一層 LLMs 之 DeepSeek R1系列——KTransformers 實戰篇—單卡RTX4090部署R1滿血版
?🔥
-
介紹:單卡RTX4090部署R1滿血版
- AiGC摩天大樓 —— 第一層 LLMs 之 DeepSeek R1系列——LLMs 之 DeepSeek-R1 復現:Logic-RL
?🔥
- AiGC摩天大樓 —— 第一層 LLMs 之 DeepSeek R1系列——LLMs 之 DeepSeek-R1 復現:TinyZero
?🔥
- AiGC摩天大樓 —— DeepSeek R1系列——LLMs 之 DeepSeek-R1 復現:Open R1
?🔥
-
DeepSeek-R1 復現——蒸餾篇 🔥
-
如何使用 蒸餾 DeepSeek-R1-Distill-Qwen-14B(一)
-
如何使用蒸餾 DeepSeek-R1-Distill-Qwen-14B (二)
-
如何利用 swift 蒸餾 中文DeepSeek-R1 小模型