DeepSeek是如何通過“蒸餾”技術打造自己的AI模型

1 引言:

最近,外媒對中國公司——DeepSeek進行了猛烈抨擊,指控其采用了所謂的“蒸餾”(Distillation)技術,涉嫌抄襲甚至作弊。那么,什么是“蒸餾”技術?

在人工智能領域,大型語言模型(LLM)無疑是近年來最耀眼的技術突破之一。然而,這些擁有數百億甚至上千億參數的龐然大物,雖然性能卓越,卻也因其高昂的計算成本和資源需求而難以普及。如何讓這些“巨無霸”級別的模型走進千家萬戶?答案就在于一種被稱為知識蒸餾的技術。

2 滿血的 DeepSeek 現在有多強

目前根據官方的說法,DeepSeek R1 模型的能力在無損的最大參數量模型(671B)下,與 O1 模型齊名,整體能力在開源模型中達到了非常優秀的效果。然而,由于是通過蒸餾的方式進行模型知識轉移,且模型本身參數量不大,因此在成本優化上確實能夠取得很好的效果。

可以看到我們基本是在第一梯隊了,很強 👍🏻。

目前大家可以在官網體驗這個優秀的模型,官網默認的對話模型已經升級為 DeepSeek-V3;勾選了深度思考的模型為新模型 DeepSeek-R1

推薦大家在一些復雜的問題上多使用 深度思考 , 可以看到開啟深度思考后,DeepSeek在一些問題的思考方式和角度也是有很多學習的過程。

3 什么是蒸餾?

知識蒸餾是一種將復雜的大模型(教師模型)的知識遷移到小型高效模型(學生模型)的方法。通過這種方式,小模型不僅能夠繼承大模型的強大能力,還能以更低的成本更快的速度運行。這就像是一位經驗豐富的老師將自己的智慧傳授給學生,使他們能夠在有限的時間內掌握核心技能。

3.1 蒸餾 ≠ 抄襲

很多人一聽到“蒸餾”就認為這是抄襲,但事實并非如此。蒸餾技術的核心在于知識的遷移,而不是照搬模型的架構或代碼。

  • 老師模型:比如 OpenAI 的 GPT。
  • 學生模型:DeepSeek 開發的新模型。

通過蒸餾,學生模型學習的是老師的“知識”,而不是老師的“長相”。這就像是你去上一門課,學到的是知識點,而不是老師的講課方式。

3.2 蒸餾的過程

蒸餾過程可以分為以下幾個步驟:

  1. 訓練教師模型:首先需要一個性能強大的大型模型作為“老師”,比如DeepSeek 671B大模型。這個模型通常經過海量數據的訓練,具備極高的準確率。
  2. 準備學生模型:接下來設計一個小巧靈活的學生模型,比如DeepSeek 1.5B小模型。這個模型結構簡單、參數少,但潛力巨大。
  3. 知識傳遞:學生模型通過模仿教師模型的輸出或中間特征來學習。例如,教師模型可能會生成一個包含多個可能性的概率分布(稱為“軟標簽”),而學生模型則嘗試復制這個分布。
  4. 優化調整:最后,通過一系列損失函數和訓練策略,確保學生模型盡可能接近教師模型的表現。

這個過程有點像你在學習一門新技能時,不斷向高手請教,然后自己練習改進的過程。

4 為什么我們需要知識蒸餾

盡管大模型性能優越,但它們存在明顯的局限性:

  • 高計算成本:運行一次推理可能需要數十甚至上百個GPU,普通用戶根本無法負擔。
  • 內存占用大:許多設備(如手機、嵌入式系統)根本沒有足夠的存儲空間支持這些模型。
  • 實時性差:由于計算量龐大,大模型往往無法滿足實時響應的需求。

相比之下,經過蒸餾的小模型則可以輕松部署在各種場景中,無論是智能手機還是自動駕駛汽車,都能流暢運行。更重要的是,這些小模型還保留了大部分原始模型的能力,真正實現了“魚與熊掌兼得”。

5. DeepSeek做了什么特別的事

5.1 數據蒸餾與模型蒸餾結合——雙管齊下的創新

傳統的知識蒸餾主要關注模型層面的遷移,即學生模型模仿教師模型的輸出。然而,DeepSeek 另辟蹊徑,將數據蒸餾引入其中,形成了獨特的“雙軌制”蒸餾方法。

數據蒸餾的作用

數據蒸餾是指通過對訓練數據進行增強、偽標簽生成等操作,提升數據的質量和多樣性。例如,教師模型可以對原始圖像進行旋轉、裁剪等處理,從而生成更多樣化的樣本。這些高質量的數據為學生模型提供了更好的學習材料,使其能夠更快速地成長。

模型蒸餾的優化

與此同時,DeepSeek還在模型蒸餾方面進行了大量創新。例如,他們采用了一種叫做 監督微調(SFT) 的方法,用教師模型生成的80萬個推理數據樣本對學生模型進行微調。這種方法避免了傳統強化學習階段的冗長訓練,顯著提高了效率。

DeepSeek開源了基于不同大小的 QwenLlama 架構的幾個提煉模型。這些包括:

  • DeepSeek-R1-Distill-Qwen-1.5B
  • DeepSeek-R1-Distill-Qwen-7B
  • DeepSeek-R1-Distill-Qwen-14B
  • DeepSeek-R1-Distill-Qwen-32B
  • DeepSeek-R1-Distill-Llama-8B
  • DeepSeek-R1-Distill-Llama-70B

我本地部署了一個 7B 的模型,感覺參數太少了,整體來說和官網的完整體相比差很多。

5.2 高效知識遷移策略——不只是模仿,還有創造

除了上述兩點,DeepSeek 還提出了一系列高效的知識遷移策略,包括基于特征的蒸餾和特定任務蒸餾。前者通過提取教師模型中間層的特征信息,幫助學生模型更好地理解數據的本質;后者則針對不同的應用場景(如文本生成、機器翻譯等)進行針對性優化。

這些策略使得 DeepSeek 的蒸餾模型在實際應用中表現出色。例如,DeepSeek-R1-Distill-Qwen-7B 在AIME 2024上實現了55.5%的 Pass@1 ,超越了 QwQ-32B-Preview (最先進的開源模型)。這樣的成績證明了蒸餾技術的巨大潛力。

6 蒸餾技術的社會意義——從教育到產業變革

6.1 “教會學生,餓死師傅”的悖論

有人擔心,知識蒸餾會導致技術壟斷者失去競爭優勢。但實際上,這種情況很難發生。因為即使模型開源,背后的數據、算法和硬件基礎設施仍然構成了難以逾越的壁壘。

更重要的是,蒸餾技術實際上促進了整個行業的進步。通過共享知識,更多的企業和個人得以參與到AI的研發中,從而推動了技術創新的加速。

6.2 AI普惠時代的到來

蒸餾技術的最大貢獻在于降低了AI的門檻。過去,只有少數科技巨頭才能承擔起研發和部署大模型的成本。而現在,任何一家初創公司甚至個人開發者都可以借助蒸餾技術構建自己的AI解決方案。

這種變化不僅僅局限于技術領域,還將深刻影響我們的日常生活。從智能家居到醫療診斷,從教育輔導到娛樂推薦,AI正以前所未有的速度滲透到各個角落。

知識蒸餾技術的出現標志著AI進入了一個全新的時代。在這個時代里,我們不再需要依賴昂貴的硬件和復雜的算法,就能享受到AI帶來的便利。

7 OpenAI 推出 o3-mini 應戰 DeepSeek

OpenAI 首席執行官奧特曼近日公開表示,將重新思考 OpenAI 的開源策略。他提到:“我個人認為我們在歷史上可能站在了錯誤的一邊,必須找到不同的開源策略。但并不是 OpenAI 的每個人都同意這種觀點,這也不是我們目前的首要任務。”

面對 DeepSeek 的橫空出世,OpenAI 相繼推出全新推理模型 o3-miniDeep Resarch 應戰。

奧特曼在發文中強調,o3-mini 在測試中的結果已經超過了 R1。

簡而言之,DeepSeek 最核心的優勢在于其效率和優化能力。
拋開數據量和能耗談性能都是耍流氓?

8 參考文章

  • 揭秘DeepSeek是如何通過“蒸餾”技術打造自己的AI模型?
  • DeepSeek懶人包|MLA架構強在哪?什麼是知識蒸餾?6大QA解密DeepSeek效應
  • 白話科普 | DeepSeek的蒸餾技術到底是什么?90%的人都沒搞懂,但西方卻抓著不放!
  • DeepSeek 開源圖片生成模型 Janus

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/895504.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/895504.shtml
英文地址,請注明出處:http://en.pswp.cn/news/895504.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【廣州大學主辦,發表有保障 | IEEE出版,穩定EI檢索,往屆見刊后快至1個月檢索】第二屆電氣技術與自動化工程國際學術會議 (ETAE 2025)

第二屆電氣技術與自動化工程國際學術會議 (ETAE 2025) The 2nd International Conference on Electrical Technology and Automation Engineering 大會官網:http://www.icetae.com/【更多詳情】 會議時間:2025年4月25-27日 會議地點&#xff1a…

伯克利 CS61A 課堂筆記 08 —— Strings and Dictionaries

本系列為加州伯克利大學著名 Python 基礎課程 CS61A 的課堂筆記整理,全英文內容,文末附詞匯解釋。 目錄 01 Strings 字符串 Ⅰ Strings are An Abstraction. Ⅱ Strings Literals have Three Forms Ⅲ String are Sequences 02 Dictionaries 字典 …

基于 GEE 計算研究區年均地表溫度數據

目錄 1 代碼解析 2 完整代碼 3 運行結果 1 代碼解析 (1)定義研究區: // 研究區的范圍需要自己提前上傳 var dataset table;// 將研究區顯示在中心,后面的數字為縮放等級,范圍從1 - 24 Map.centerObject(dataset,…

docker compose快速部署kafka-connect集群

先部署kafka集群,啟動 參考:docker compose部署kafka集群-CSDN博客 創建timezone文件,內容填寫Asia/Shanghai 再部署kafka-connect集群 networks: net: external: true services: kafka-connect1: restart: always image:…

Hutool - BloomFilter:便捷的布隆過濾器實現

1. 布隆過濾器簡介 布隆過濾器(Bloom Filter)是一種空間效率極高的概率型數據結構,用于判斷一個元素是否存在于一個集合中。它的優點是空間效率和查詢時間都遠遠超過一般的算法,但缺點是有一定的誤判率,即判斷元素存在…

日常知識點之遺留問題梳理(定時器/時間輪定時器)

1:簡單基礎 定時器的核心知識點,對我來說就是獲取當前時間和設置回調函數。 簡單練習: ? c語言通過gettimeofday 獲取當前時間并進行處理 ? 回調函數的定義(函數參數有必要適當存儲) typedef void(Timerfunc)(vo…

Python + WhisperX:解鎖語音識別的高效新姿勢

大家好,我是烤鴨: 最近在嘗試做視頻的質量分析,打算利用asr針對聲音判斷是否有人聲,以及識別出來的文本進行進一步操作。asr看了幾個開源的,最終選擇了openai的whisper,后來發現性能不行,又換了…

$ npx electron-forge import 一直報權限問題 resource busy or locked,

jackLAPTOP-7DHDAAL0 MINGW64 /e/project/celetron-project/my-electron-app (master) $ npx electron-forge import > Checking your system > Checking git exists > Checking node version > Checking packageManager version √ Found node22.14.0 √ Found gi…

mapbox 從入門到精通 - 目錄

👨??? 主頁: gis分享者 👨??? 感謝各位大佬 點贊👍 收藏? 留言📝 加關注?! 👨??? 收錄于專欄:mapbox 從入門到精通 文章目錄 一、🍀總目錄1.1 ?? mapbox基礎1.2 ??…

Kotlin 2.1.0 入門教程(十五)繼承、重寫、派生類初始化順序

繼承 所有類都有一個共同的超類 Any,對于沒有聲明超類型的類來說,Any 是其默認的超類: // 隱式繼承自 Any。 class ExampleAny 有三個方法:equals()、hashCode() 和 toString()。因此,所有類都定義了這些方法。 默認…

sqlilabs--小實驗

一、先盲注判斷 ?id1 and sleep(2)-- 如果發現頁面存在注點,使用時間盲注腳本進行注入 import requestsdef inject_database(url):name for i in range(1, 20): # 假設數據庫名稱長度不超過20low 48 # 0high 122 # zmiddle (low high) // 2while low &l…

【數字】異步FIFO面試的幾個小問題與跨時鐘域時序約束

入門數字設計的時候,跨時鐘域的數據處理是繞不開的課題,特別是多比特數據跨時鐘域時,都會采用異步FIFO的方法。 異步FIFO中涉及較多的考點這里記錄幾個以供大家參考。 1. 異步FIFO的空滿判斷分別在哪個域? 根據異步FIFO的結構&…

淺談Java Spring Boot 框架分析和理解

Spring Boot是一個簡化Spring開發的框架,它遵循“約定優于配置”的原則,通過內嵌的Tomcat、Jetty或Undertow等容器,使得開發者能夠快速構建獨立運行的、生產級別的基于Spring框架的應用程序。Spring Boot包含了大量的自動配置功能&#xff0c…

算法06-回溯算法

一、回溯算法詳解 回溯算法是一種通過逐步構建解決方案來解決問題的算法。它通常用于解決組合問題、排列問題、子集問題等。回溯算法的核心思想是“試錯”,即在每一步嘗試所有可能的選項,如果發現當前選擇無法達到目標,就回退到上一步&#…

RabbitMQ學習—day2—安裝

目錄 普通Linux安裝 安裝RabbitMQ 1、下載 2、安裝 3. Web管理界面及授權操作 Docker 安裝 強力推薦學docker,使用docker安裝 普通Linux安裝 安裝RabbitMQ 1、下載 官網下載地址:https://www.rabbitmq.com/download.html(opens new window) 這…

降本增效 - VGF 構建輕量高性能日志管理平臺

VFG 技術架構 Filebeat 接收Syslog ,并進行日志分段,VictoriaLogs 持久化存儲日志 ,Grafana 可視化、數據查詢、告警、數據導出。 為什么要用VictoriaLogs ? 與Elasticsearch /Grafana Loki相比幾十倍的CPU/內存/存儲資源占用的…

初識camel智能體(一)

同目錄下配置環境變量.env,內容如下, apikey從魔搭社區獲取 QWEN_API_KEY4ff3ac8f-aebc******** 先上干貨代碼,主代碼如下: from colorama import Forefrom camel.societies import RolePlaying from camel.utils import prin…

介紹 Liquibase、Flyway、Talend 和 Apache NiFi:選擇適合的工具

在現代軟件開發中,尤其是在數據庫管理和數據集成方面,選擇合適的工具至關重要。本文將介紹四個流行的工具:Liquibase、Flyway、Talend 和 Apache NiFi,分析它們的應用、依賴以及如何選擇適合的工具。 1. Liquibase 簡介&#xff…

Docker使用指南與Dockerfile文件詳解:從入門到實戰

Docker使用指南與Dockerfile文件詳解:從入門到實戰 文章目錄 **Docker使用指南與Dockerfile文件詳解:從入門到實戰****引言****第一部分:Docker 核心概念速覽****1. Docker 基礎架構****2. Docker 核心命令****第二部分:Dockerfile 文件深度解析****1. Dockerfile 是什么?…

Qt工作總結03 <qSort按某一屬性進行排序>

1. 代碼樣例 QList<QGraphicsTextItem *> Lst;qSort(Lst.begin(),Lst.end(),[](const QGraphicsTextItem *itemA,const QGraphicsTextItem *itemB) {return itemA->toPlainText().toDouble() < itemB->toPlainText().toDouble(); }); 2. 參考 QList 按結構體…