DeepSeek是如何通過“蒸餾”技術打造自己的AI模型

1 引言：

最近，外媒對中國公司——DeepSeek進行了猛烈抨擊，指控其采用了所謂的“蒸餾”（Distillation）技術，涉嫌抄襲甚至作弊。那么，什么是“蒸餾”技術？

在人工智能領域，大型語言模型（LLM）無疑是近年來最耀眼的技術突破之一。然而，這些擁有數百億甚至上千億參數的龐然大物，雖然性能卓越，卻也因其高昂的計算成本和資源需求而難以普及。如何讓這些“巨無霸”級別的模型走進千家萬戶？答案就在于一種被稱為知識蒸餾的技術。

2 滿血的 DeepSeek 現在有多強

目前根據官方的說法，DeepSeek R1 模型的能力在無損的最大參數量模型（671B）下，與 O1 模型齊名，整體能力在開源模型中達到了非常優秀的效果。然而，由于是通過蒸餾的方式進行模型知識轉移，且模型本身參數量不大，因此在成本優化上確實能夠取得很好的效果。

可以看到我們基本是在第一梯隊了，很強 👍🏻。

目前大家可以在官網體驗這個優秀的模型，官網默認的對話模型已經升級為 DeepSeek-V3；勾選了深度思考的模型為新模型 DeepSeek-R1。

推薦大家在一些復雜的問題上多使用 深度思考 ，可以看到開啟深度思考后，DeepSeek在一些問題的思考方式和角度也是有很多學習的過程。

3 什么是蒸餾？

知識蒸餾是一種將復雜的大模型（教師模型）的知識遷移到小型高效模型（學生模型）的方法。通過這種方式，小模型不僅能夠繼承大模型的強大能力，還能以更低的成本、更快的速度運行。這就像是一位經驗豐富的老師將自己的智慧傳授給學生，使他們能夠在有限的時間內掌握核心技能。

3.1 蒸餾 ≠ 抄襲

很多人一聽到“蒸餾”就認為這是抄襲，但事實并非如此。蒸餾技術的核心在于知識的遷移，而不是照搬模型的架構或代碼。

老師模型：比如 OpenAI 的 GPT。
學生模型：DeepSeek 開發的新模型。

通過蒸餾，學生模型學習的是老師的“知識”，而不是老師的“長相”。這就像是你去上一門課，學到的是知識點，而不是老師的講課方式。

3.2 蒸餾的過程

蒸餾過程可以分為以下幾個步驟：

訓練教師模型：首先需要一個性能強大的大型模型作為“老師”，比如DeepSeek 671B大模型。這個模型通常經過海量數據的訓練，具備極高的準確率。
準備學生模型：接下來設計一個小巧靈活的學生模型，比如DeepSeek 1.5B小模型。這個模型結構簡單、參數少，但潛力巨大。
知識傳遞：學生模型通過模仿教師模型的輸出或中間特征來學習。例如，教師模型可能會生成一個包含多個可能性的概率分布（稱為“軟標簽”），而學生模型則嘗試復制這個分布。
優化調整：最后，通過一系列損失函數和訓練策略，確保學生模型盡可能接近教師模型的表現。

這個過程有點像你在學習一門新技能時，不斷向高手請教，然后自己練習改進的過程。

4 為什么我們需要知識蒸餾

盡管大模型性能優越，但它們存在明顯的局限性：

高計算成本：運行一次推理可能需要數十甚至上百個GPU，普通用戶根本無法負擔。
內存占用大：許多設備（如手機、嵌入式系統）根本沒有足夠的存儲空間支持這些模型。
實時性差：由于計算量龐大，大模型往往無法滿足實時響應的需求。

相比之下，經過蒸餾的小模型則可以輕松部署在各種場景中，無論是智能手機還是自動駕駛汽車，都能流暢運行。更重要的是，這些小模型還保留了大部分原始模型的能力，真正實現了“魚與熊掌兼得”。

5. DeepSeek做了什么特別的事

5.1 數據蒸餾與模型蒸餾結合——雙管齊下的創新

傳統的知識蒸餾主要關注模型層面的遷移，即學生模型模仿教師模型的輸出。然而，DeepSeek 另辟蹊徑，將數據蒸餾引入其中，形成了獨特的“雙軌制”蒸餾方法。

數據蒸餾的作用

數據蒸餾是指通過對訓練數據進行增強、偽標簽生成等操作，提升數據的質量和多樣性。例如，教師模型可以對原始圖像進行旋轉、裁剪等處理，從而生成更多樣化的樣本。這些高質量的數據為學生模型提供了更好的學習材料，使其能夠更快速地成長。

模型蒸餾的優化

與此同時，DeepSeek還在模型蒸餾方面進行了大量創新。例如，他們采用了一種叫做 監督微調（SFT） 的方法，用教師模型生成的80萬個推理數據樣本對學生模型進行微調。這種方法避免了傳統強化學習階段的冗長訓練，顯著提高了效率。

DeepSeek開源了基于不同大小的 Qwen 和 Llama 架構的幾個提煉模型。這些包括：

DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Llama-70B

我本地部署了一個 7B 的模型，感覺參數太少了，整體來說和官網的完整體相比差很多。

5.2 高效知識遷移策略——不只是模仿，還有創造

除了上述兩點，DeepSeek 還提出了一系列高效的知識遷移策略，包括基于特征的蒸餾和特定任務蒸餾。前者通過提取教師模型中間層的特征信息，幫助學生模型更好地理解數據的本質；后者則針對不同的應用場景（如文本生成、機器翻譯等）進行針對性優化。

這些策略使得 DeepSeek 的蒸餾模型在實際應用中表現出色。例如，DeepSeek-R1-Distill-Qwen-7B 在AIME 2024上實現了55.5%的 Pass@1 ，超越了 QwQ-32B-Preview （最先進的開源模型）。這樣的成績證明了蒸餾技術的巨大潛力。

6 蒸餾技術的社會意義——從教育到產業變革

6.1 “教會學生，餓死師傅”的悖論

有人擔心，知識蒸餾會導致技術壟斷者失去競爭優勢。但實際上，這種情況很難發生。因為即使模型開源，背后的數據、算法和硬件基礎設施仍然構成了難以逾越的壁壘。

更重要的是，蒸餾技術實際上促進了整個行業的進步。通過共享知識，更多的企業和個人得以參與到AI的研發中，從而推動了技術創新的加速。

6.2 AI普惠時代的到來

蒸餾技術的最大貢獻在于降低了AI的門檻。過去，只有少數科技巨頭才能承擔起研發和部署大模型的成本。而現在，任何一家初創公司甚至個人開發者都可以借助蒸餾技術構建自己的AI解決方案。

這種變化不僅僅局限于技術領域，還將深刻影響我們的日常生活。從智能家居到醫療診斷，從教育輔導到娛樂推薦，AI正以前所未有的速度滲透到各個角落。

知識蒸餾技術的出現標志著AI進入了一個全新的時代。在這個時代里，我們不再需要依賴昂貴的硬件和復雜的算法，就能享受到AI帶來的便利。

7 OpenAI 推出 o3-mini 應戰 DeepSeek

OpenAI 首席執行官奧特曼近日公開表示，將重新思考 OpenAI 的開源策略。他提到：“我個人認為我們在歷史上可能站在了錯誤的一邊，必須找到不同的開源策略。但并不是 OpenAI 的每個人都同意這種觀點，這也不是我們目前的首要任務。”

面對 DeepSeek 的橫空出世，OpenAI 相繼推出全新推理模型 o3-mini 和 Deep Resarch 應戰。

奧特曼在發文中強調，o3-mini 在測試中的結果已經超過了 R1。

簡而言之，DeepSeek 最核心的優勢在于其效率和優化能力。
拋開數據量和能耗談性能都是耍流氓？

8 參考文章

揭秘DeepSeek是如何通過“蒸餾”技術打造自己的AI模型？
DeepSeek懶人包｜MLA架構強在哪？什麼是知識蒸餾？6大QA解密DeepSeek效應
白話科普 | DeepSeek的蒸餾技術到底是什么？90%的人都沒搞懂，但西方卻抓著不放！
DeepSeek 開源圖片生成模型 Janus

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/895504.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/895504.shtml
英文地址，請注明出處：http://en.pswp.cn/news/895504.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！