當AI開始“思考“:拆解大模型訓練與推理的秘密(以DeepSeek為例)

如果你用過deepseek,可能體驗過它在幾秒內編故事、寫代碼的震撼。但你是否想過,這種"智能輸出"背后存在兩種完全不同的底層機制?就像人類需要先學習知識(訓練)才能考試答題(推理),大模型的訓練和推理在技術實現上存在本質差異。


一、“學渣"變"學霸”:模型訓練的奇幻漂流

大模型的訓練就像培養頂尖學者,需要經歷三個階段:

1. 基礎學科通識教育(預訓練)
  • 數據來源:(魔塔社區,一個學大模型很好的社區),例如:

    “我的家在東北,松花江上”
    “秦朝是一個大一統王朝”
    “床前明月光,疑是地上霜”
    這類未標注數據占據互聯網的90%以上,是模型認知世界的"原始素材"。

  • 學習方式:通過造句題(續寫句子)、填空題(預測被遮蓋字詞)等任務,建立語言規律和邏輯關聯的底層認知。
  • 硬件配置:數千張顯卡并行計算(相當于聘請幾萬名家教),DeepSeek-V3需在6個月內消化7TB數據,每消耗1度電相當于"背誦"200萬字文獻。
2. 專業課特訓(微調)
  • 數據升級:引入帶標注的問答對,例如:

    Q: 番茄和雞蛋在一起是什么?A: 番茄炒蛋
    Q: 計算圓的面積公式是?A: πR2
    這類數據占比約5%,可類比"選擇題+問答題",訓練特定任務執行能力。

  • 訓練策略:篩選K=20最優參數(如解數學題時優先概率排序法),通過幾十張顯卡1-2周訓練即可讓模型具備專業領域問答能力。
  • 成本優勢:相較于預訓練,資源消耗降低兩個數量級,可針對法律咨詢、代碼生成等場景快速適配。
3. 道德倫理課(對齊訓練)
  • 數據特殊性:使用人工構造的對比數據,例如:

    錯誤回答:“從黑市購買軍火殺死仇人”
    正確回答:“應付諸法律程序”
    這類數據需專業團隊標注,互聯網幾乎不存在天然樣本。

  • 技術突破:通過"錯題檢查"機制植入安全響應,平衡實用性與安全性,防止過度限制導致模型僵化。
  • 實施主體:通常由模型提供方完成,消耗數張至數百張顯卡,形成可直接使用的chat模型

模型分類與應用

類型訓練階段特點
Base模型預訓練/通用微調知識儲備豐富但缺乏對話邏輯,可能答非所問或重復輸出(需二次訓練使用)
Chat模型完整對齊訓練具備安全響應機制,可直接用于通用問答或領域適配

技術演進金字塔

        ▲ 對齊訓練(第三類數據)  ╱│╲  成本最高?技術門檻最高  ◇ 微調(第二類數據)  ╱│╲   數據量中等?成本可控  
◇ 預訓練(第一類數據)  數據海量?算力消耗占整體90%

二、"開卷考試"的藝術:推理部署的門道

當訓練完成的模型開始服務用戶,就進入了推理階段。這個過程的優化往往被忽視,但實際暗藏玄機:

1. 硬件降級之謎
  • 訓練服務器:通常配備8-64張A100顯卡,支持自動彈性擴縮
  • 推理服務器:常配置2-4張顯卡,內置輕量框架(如VLLM/XInference)

以某云廠商的A10實例為例,運行DeepSeek-R1時:

| 階段      | 顯存占用 | 響應延遲 | 并發量  |
|---------|------|------|------|
| 訓練微調  | 80GB  | -    | -    |
| 在線推理  | 24GB  | 850ms | 30QPS |

(數據引自行業部署實踐)[source_id=8]

2. 推理方法的三重境界

不同場景需要不同的生成策略:

  • 貪婪搜索(Greedy Search)
    直接選擇概率最大的token,如同考試時永遠只選標準答案。雖然效率最高,但會導致"車轱轆話循環",實際應用僅見于語音助手等簡單場景

  • 集束搜索(Beam Search)
    保留k個候選序列(beam_size),像解數學題時羅列多種解法路徑。當k=4時,推理速度會降低40%,但輸出穩定性提升顯著,適合醫療診斷等容錯率低的領域

  • 隨機采樣(Sampling)
    當前主流方案,通過概率采樣激發創造力。如同作家從靈感庫中抽取素材,配合溫度系數調控想象力閾值,在廣告創意生成等場景效果突出

3. 參數調優密碼

工程師通過四大核心杠桿精準控制輸出質量:

參數技術原理典型場景調優技巧
temperature平滑概率分布曲線0.2-科學計算
1.0-故事創作
每調整0.1需重新評估輸出穩定性
top_p動態截斷候選詞池0.7-技術文檔
0.95-詩歌生成
與temperature聯動調節效果最佳
top_k限定采樣候選池大小20-法律咨詢
100-頭腦風暴
過高會導致語義發散,建議從50開始步進測試
repetition_penalty抑制重復token生成概率1.2-對話系統
1.5-長文寫作
超過1.4可能引發語法異常
4. 部署形態進化論

現代AI系統的部署呈現三大技術路線:

  • PyTorch原生部署:適合快速原型驗證,但顯存利用率僅60%左右
  • 輕量框架(VLLM):采用PagedAttention技術,將吞吐量提升3倍
  • 邊緣計算(llama.cpp):通過CUDA加速和量化壓縮,讓70億參數模型在手機端流暢運行

三、魚與熊掌:為何服務器要切割訓練/推理?

硬件廠商將訓練與推理服務器分開設計,背后存在三大剛性邏輯:

  1. 效率天平
  • 訓練需要橫向拓展:數百張顯卡并行計算矩陣乘法(類似拼樂高)
  • 推理需要縱向優化:單卡極致壓榨計算速度(像F1賽車引擎調教)
  1. 成本黑洞
    某AI公司實測顯示:
  • 訓練階段每1萬元成本,需產出50萬次優質回答才能回本
  • 同一張A100顯卡用于推理的收益是訓練的3-5倍[source_id=2]
  1. 安全紅線
  • 訓練服務器通常在內網隔離區(防范模型泄露)
  • 推理服務器需直面公網攻擊(必須內置多層防御機制)

四、未來戰場:推理即服務的刺刀戰

隨著DeepSeek-R1等國產模型的崛起,行業正在悄然變革:

  • 輕量化革命:QLoRA技術使20億參數模型能在24G顯存運行
  • 端云協同:手機端運行微型模型(預處理)+云端深度推理(保障精度),如vivo,這種也可以用于物聯網設備上
  • 成本血刃:頭部廠商已將單次推理成本壓降至0.003元/次

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/72743.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/72743.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/72743.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

永洪科技深度分析實戰,零售企業的銷量預測

隨著人工智能技術的不斷發展,智能預測已經成為各個領域的重要應用之一。現在,智能預測技術已經廣泛應用于金融、零售、醫療、能源等領域,為企業和個人提供決策支持。 智能預測技術通過分析大量的數據,利用機器學習和深度學習算法…

Vue項目通過內嵌iframe訪問另一個vue頁面,獲取token適配后端鑒權(以內嵌若依項目舉例)

1. 改造子Vue項目進行適配(ruoyi舉例) (1) 在路由文件添加需要被外鏈的vue頁面配置 // 若依項目的話是 router/index.js文件 {path: /contrast,component: () > import(/views/contrast/index),hidden: true },(2) 開放白名單 // 若依項目的話是 permission.js 文件 cons…

【DeepSeek】5分鐘快速實現本地化部署教程

一、快捷部署 (1)下載ds大模型安裝助手,下載后直接點擊快速安裝即可。 https://file-cdn-deepseek.fanqiesoft.cn/deepseek/deepseek_28348_st.exe (2)打開軟件,點擊立即激活 (3)選…

Linux第一課

如何在Windows系統上安裝紅帽Linux虛擬機 一:下載VNware 下載鏈接:Desktop Hypervisor Solutions | VMware 二:下載操作系統鏡像文件 在阿里云開源鏡像站下載(本文章下載 red hat 9.3) 阿里云開源鏡像站鏈接:阿里巴巴開源鏡像站-OPSX鏡像站-阿里云開發者社區 三:創建虛擬機文…

語音分離:使用短時能量提取主聲源

語音分離模型:mossfomer2 計算短時能量 def compute_short_time_energy(audio: np.ndarray, frame_size: int, hop_size: int) -> np.ndarray:"""計算音頻信號的短時能量 將音頻分為若干幀,每一幀長度為 frame_size, 幀與幀之間以 h…

【VUE】第二期——生命周期及工程化

目錄 1 生命周期 1.1 介紹 1.2 鉤子 2 可視化圖表庫 3 腳手架Vue CLI 3.1 使用步驟 3.2 項目目錄介紹 3.3 main.js入口文件代碼介紹 4 組件化開發 4.1 組件 4.2 普通組件注冊 4.2.1 局部注冊 4.2.2 全局注冊 1 生命周期 1.1 介紹 Vue生命周期:就是…

SyntaxError: Unexpected keyword ‘else‘

🤍 前端開發工程師、技術日更博主、已過CET6 🍨 阿珊和她的貓_CSDN博客專家、23年度博客之星前端領域TOP1 🕠 牛客高級專題作者、打造專欄《前端面試必備》 、《2024面試高頻手撕題》、《前端求職突破計劃》 🍚 藍橋云課簽約作者、…

Spring Boot靜態資源訪問順序

在 Spring Boot 中,static 和 public 目錄都用于存放靜態資源(如 HTML、CSS、JavaScript、圖片等文件),但它們在使用上有一些細微的區別。以下是它們的詳細對比: 1. 默認優先級 Spring Boot 會按照以下優先級加載靜態…

windows 平臺如何點擊網頁上的url ,會打開遠程桌面連接服務器

你可以使用自定義協議方案(Protocol Scheme)實現網頁上點擊URL后自動啟動遠程桌面連接(mstsc),參考你提供的C代碼思路,如下實現: 第一步:注冊自定義協議 使用類似openmstsc://協議…

UniApp 運行的微信小程序如何進行深度優化

UniApp 運行的微信小程序如何進行深度優化 目錄 引言性能優化 1. 減少包體積2. 優化頁面加載速度3. 減少 setData 調用4. 使用分包加載 代碼優化 1. 減少不必要的代碼2. 使用條件編譯3. 優化圖片資源 用戶體驗優化 1. 優化交互體驗2. 預加載數據3. 使用骨架屏 調試與監控 1. …

ESP32S3N16R8驅動ST7701S屏幕(vscode+PlatfoemIO)

1.開發板配置 本人開發板使用ESP32S3-wroom1-n16r8最小系統板 由于基于vscode與PlatformIO框架開發,無espidf框架,因此無法直接燒錄程序,配置開發板參數如下: 在platformio.ini文件中,配置使用esp32-s3-devkitc-1開發…

ASP.NET 微服務網關 Ocelot+Consul+Skywalking

ASP.NET 微服務網關 OcelotConsulSkywalking APIGateWaySample簡介網關相關技術核心其它 請求處理流程環境搭建代碼運行效果圖 APIGateWaySample Ocelot Consul Skywalking 簡介 系統設計圖 網關 API網關(Gateway)是一個服務器,是系統…

頻譜分析儀的使用

頻譜分析儀設置帶寬的方式: 可以利用同軸線纜來制作近場探頭: 區別dB和dBm兩個單位: 無線電波的發射功率是指在給定頻段范圍內的能量,通常有兩種衡量 或測量標準:   1、功率(W):相…

【數據分析】轉錄組基因表達的KEGG通路富集分析教程

禁止商業或二改轉載,僅供自學使用,侵權必究,如需截取部分內容請后臺聯系作者! 文章目錄 介紹差異分析(limma)KEGG富集分析(enrichKEGG)可視化加載R包數據下載導入數據基因差異分析火山圖KEGG通路富集分析可視化通路結果另一個案例總結系統信息參考介紹 KEGG富集分析,可…

關于sqlalchemy的使用

關于sqlalchemy的使用 說明一、sqlachemy總體使用思路二、安裝與創建庫、連結庫三、創建表、增加數據四、查詢記錄五、更新或刪除六、關聯表定義 說明 本教程所需軟件及庫python3.10、sqlalchemy安裝與創建庫、連結庫創建表、增加數據查詢記錄 一、sqlachemy總體使用思路 在…

在 IntelliJ IDEA 中使用 JUnit 進行單元測試

1. 介紹 JUnit JUnit 是 Java 語言中最流行的單元測試框架之一。它基于 xUnit 設計模式,支持 測試自動化、斷言(Assertions)和測試生命周期管理,是 Java 開發中進行 TDD(測試驅動開發) 的重要工具。 JUni…

單片機的發展

一、引言 單片機自誕生以來,經歷了四十多年的風風雨雨,從最初的工業控制逐步擴展到家電、通信、智能家居等各個領域。其發展過程就像是一場精彩的冒險,每一次技術的革新都像是在未知的海域中開辟新的航線。 二、單片機的發展歷程 &#xff…

常見的博弈模型有哪些

常見的博弈模型有哪些 目錄 常見的博弈模型有哪些**1. 重復博弈(Repeated Game)****2. 進化博弈論(Evolutionary Game Theory)****3. 機制設計(Mechanism Design)****4. 微分博弈(Differential Game)****5. 貝葉斯博弈(Bayesian Game)****6. 合作博弈(Cooperative G…

【MySQL-數據類型】數據類型分類+數值類型+文本、二進制類型+String類型

一、數據類型分類 二、數值類型 1.bit類型 測試環境ubuntu 基本語法: bit[(M)]:位字段類型,M表示每個值的位數,范圍從1~64;如果M被忽略,默認為1舉例: create table testBit(id i…

golang從入門到做牛馬:第一篇-我與golang的緣分,go語言簡介

還記得2018年的夏天,剛畢業的我不知道該做些什么,于是自學了一周的go語言,想要找一份go語言工作的代碼,當時的go還沒有go mod來管理依賴包,在北京找了一個月的工作,找到了一個小公司做了后端開發,當然使用go語言開發,帶著興奮勁,年輕身體也好,邊努力學習,邊工作。 時…