1 引言:
最近,外媒對中國公司——DeepSeek進行了猛烈抨擊,指控其采用了所謂的“蒸餾”(Distillation)技術,涉嫌抄襲甚至作弊。那么,什么是“蒸餾”技術?
在人工智能領域,大型語言模型(LLM)無疑是近年來最耀眼的技術突破之一。然而,這些擁有數百億甚至上千億參數的龐然大物,雖然性能卓越,卻也因其高昂的計算成本和資源需求而難以普及。如何讓這些“巨無霸”級別的模型走進千家萬戶?答案就在于一種被稱為知識蒸餾的技術。
2 滿血的 DeepSeek 現在有多強
目前根據官方的說法,DeepSeek R1 模型的能力在無損的最大參數量模型(671B)下,與 O1 模型齊名,整體能力在開源模型中達到了非常優秀的效果。然而,由于是通過蒸餾的方式進行模型知識轉移,且模型本身參數量不大,因此在成本優化上確實能夠取得很好的效果。
可以看到我們基本是在第一梯隊了,很強 👍🏻。
目前大家可以在官網體驗這個優秀的模型,官網默認的對話模型已經升級為 DeepSeek-V3;勾選了深度思考的模型為新模型 DeepSeek-R1。
推薦大家在一些復雜的問題上多使用 深度思考 , 可以看到開啟深度思考后,DeepSeek在一些問題的思考方式和角度也是有很多學習的過程。
3 什么是蒸餾?
知識蒸餾是一種將復雜的大模型(教師模型)的知識遷移到小型高效模型(學生模型)的方法。通過這種方式,小模型不僅能夠繼承大模型的強大能力,還能以更低的成本、更快的速度運行。這就像是一位經驗豐富的老師將自己的智慧傳授給學生,使他們能夠在有限的時間內掌握核心技能。
3.1 蒸餾 ≠ 抄襲
很多人一聽到“蒸餾”就認為這是抄襲,但事實并非如此。蒸餾技術的核心在于知識的遷移,而不是照搬模型的架構或代碼。
- 老師模型:比如 OpenAI 的 GPT。
- 學生模型:DeepSeek 開發的新模型。
通過蒸餾,學生模型學習的是老師的“知識”,而不是老師的“長相”。這就像是你去上一門課,學到的是知識點,而不是老師的講課方式。
3.2 蒸餾的過程
蒸餾過程可以分為以下幾個步驟:
- 訓練教師模型:首先需要一個性能強大的大型模型作為“老師”,比如DeepSeek 671B大模型。這個模型通常經過海量數據的訓練,具備極高的準確率。
- 準備學生模型:接下來設計一個小巧靈活的學生模型,比如DeepSeek 1.5B小模型。這個模型結構簡單、參數少,但潛力巨大。
- 知識傳遞:學生模型通過模仿教師模型的輸出或中間特征來學習。例如,教師模型可能會生成一個包含多個可能性的概率分布(稱為“軟標簽”),而學生模型則嘗試復制這個分布。
- 優化調整:最后,通過一系列損失函數和訓練策略,確保學生模型盡可能接近教師模型的表現。
這個過程有點像你在學習一門新技能時,不斷向高手請教,然后自己練習改進的過程。
4 為什么我們需要知識蒸餾
盡管大模型性能優越,但它們存在明顯的局限性:
- 高計算成本:運行一次推理可能需要數十甚至上百個GPU,普通用戶根本無法負擔。
- 內存占用大:許多設備(如手機、嵌入式系統)根本沒有足夠的存儲空間支持這些模型。
- 實時性差:由于計算量龐大,大模型往往無法滿足實時響應的需求。
相比之下,經過蒸餾的小模型則可以輕松部署在各種場景中,無論是智能手機還是自動駕駛汽車,都能流暢運行。更重要的是,這些小模型還保留了大部分原始模型的能力,真正實現了“魚與熊掌兼得”。
5. DeepSeek做了什么特別的事
5.1 數據蒸餾與模型蒸餾結合——雙管齊下的創新
傳統的知識蒸餾主要關注模型層面的遷移,即學生模型模仿教師模型的輸出。然而,DeepSeek 另辟蹊徑,將數據蒸餾引入其中,形成了獨特的“雙軌制”蒸餾方法。
數據蒸餾的作用
數據蒸餾是指通過對訓練數據進行增強、偽標簽生成等操作,提升數據的質量和多樣性。例如,教師模型可以對原始圖像進行旋轉、裁剪等處理,從而生成更多樣化的樣本。這些高質量的數據為學生模型提供了更好的學習材料,使其能夠更快速地成長。
模型蒸餾的優化
與此同時,DeepSeek還在模型蒸餾方面進行了大量創新。例如,他們采用了一種叫做 監督微調(SFT) 的方法,用教師模型生成的80萬個推理數據樣本對學生模型進行微調。這種方法避免了傳統強化學習階段的冗長訓練,顯著提高了效率。
DeepSeek開源了基于不同大小的 Qwen
和 Llama
架構的幾個提煉模型。這些包括:
- DeepSeek-R1-Distill-Qwen-1.5B
- DeepSeek-R1-Distill-Qwen-7B
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Qwen-32B
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-R1-Distill-Llama-70B
我本地部署了一個 7B 的模型,感覺參數太少了,整體來說和官網的完整體相比差很多。
5.2 高效知識遷移策略——不只是模仿,還有創造
除了上述兩點,DeepSeek 還提出了一系列高效的知識遷移策略,包括基于特征的蒸餾和特定任務蒸餾。前者通過提取教師模型中間層的特征信息,幫助學生模型更好地理解數據的本質;后者則針對不同的應用場景(如文本生成、機器翻譯等)進行針對性優化。
這些策略使得 DeepSeek 的蒸餾模型在實際應用中表現出色。例如,DeepSeek-R1-Distill-Qwen-7B
在AIME 2024上實現了55.5%的 Pass@1
,超越了 QwQ-32B-Preview
(最先進的開源模型)。這樣的成績證明了蒸餾技術的巨大潛力。
6 蒸餾技術的社會意義——從教育到產業變革
6.1 “教會學生,餓死師傅”的悖論
有人擔心,知識蒸餾會導致技術壟斷者失去競爭優勢。但實際上,這種情況很難發生。因為即使模型開源,背后的數據、算法和硬件基礎設施仍然構成了難以逾越的壁壘。
更重要的是,蒸餾技術實際上促進了整個行業的進步。通過共享知識,更多的企業和個人得以參與到AI的研發中,從而推動了技術創新的加速。
6.2 AI普惠時代的到來
蒸餾技術的最大貢獻在于降低了AI的門檻。過去,只有少數科技巨頭才能承擔起研發和部署大模型的成本。而現在,任何一家初創公司甚至個人開發者都可以借助蒸餾技術構建自己的AI解決方案。
這種變化不僅僅局限于技術領域,還將深刻影響我們的日常生活。從智能家居到醫療診斷,從教育輔導到娛樂推薦,AI正以前所未有的速度滲透到各個角落。
知識蒸餾技術的出現標志著AI進入了一個全新的時代。在這個時代里,我們不再需要依賴昂貴的硬件和復雜的算法,就能享受到AI帶來的便利。
7 OpenAI 推出 o3-mini 應戰 DeepSeek
OpenAI 首席執行官奧特曼近日公開表示,將重新思考 OpenAI 的開源策略。他提到:“我個人認為我們在歷史上可能站在了錯誤的一邊,必須找到不同的開源策略。但并不是 OpenAI 的每個人都同意這種觀點,這也不是我們目前的首要任務。”
面對 DeepSeek
的橫空出世,OpenAI 相繼推出全新推理模型 o3-mini
和 Deep Resarch
應戰。
奧特曼在發文中強調,o3-mini 在測試中的結果已經超過了 R1。
簡而言之,DeepSeek 最核心的優勢在于其效率和優化能力。
拋開數據量和能耗談性能都是耍流氓?
8 參考文章
- 揭秘DeepSeek是如何通過“蒸餾”技術打造自己的AI模型?
- DeepSeek懶人包|MLA架構強在哪?什麼是知識蒸餾?6大QA解密DeepSeek效應
- 白話科普 | DeepSeek的蒸餾技術到底是什么?90%的人都沒搞懂,但西方卻抓著不放!
- DeepSeek 開源圖片生成模型 Janus