阿里云一鍵部署DeepSeek-V3、DeepSeek-R1模型

目錄

支持的模型列表

模型部署

模型調用

WebUI使用

在線調試

API調用

關于成本

FAQ

點擊部署后服務長時間等待

服務部署成功后,調用API返回404

請求太長導致EAS網關超時

部署完成后,如何在EAS的在線調試頁面調試

模型部署之后沒有“聯網搜索”功能

模型服務如何集成到AI應用(以Dify為例)


DeepSeek-V3是由深度求索公司推出的一款擁有6710億參數的專家混合(MoE)大語言模型,DeepSeek-R1是基于DeepSeek-V3-Base訓練的高性能推理模型。Model Gallery提供了BladeLLM、SGLang和vLLM加速部署功能,幫助您一鍵部署DeepSeek-V3和DeepSeek-R1系列模型。

支持的模型列表

說明

DeepSeek-R1、DeepSeek-V3滿血版模型的參數量較大(671B),所需配置和成本較高(8卡96G顯存以上)。建議您選擇蒸餾版模型(機器資源較充足、部署成本較低)。

根據測試,DeepSeek-R1-Distill-Qwen-32B模型的效果和成本較優,適合云上部署,可嘗試作為DeepSeek-R1的替代模型。您也可以選擇7B、8B、14B等其他蒸餾模型部署,Model Gallery還提供了模型評測功能,可以評測模型實際效果(評測入口在模型詳情頁右上角)。

表中給出的是最低所需配置機型,在Model Gallery的部署頁面的資源規格選擇列表中系統已自動過濾出模型可用的公共資源規格。

模型

最低配置

支持的最大Token數

部署方式為BladeLLM加速(推薦)

部署方式為SGLang加速(推薦)

部署方式為vLLM加速

部署方式為標準部署

DeepSeek-R1

8卡GU120(8 * 96 GB顯存)

不支持

163840

4096

不支持

DeepSeek-V3

8卡GU120(8 * 96 GB顯存)

不支持

163840

4096

2000

DeepSeek-R1-Distill-Qwen-1.5B

1卡A10(24 GB顯存)

131072

不支持

131072

131072

DeepSeek-R1-Distill-Qwen-7B

1卡A10(24 GB顯存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Llama-8B

1卡A10(24 GB顯存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Qwen-14B

1卡GPU L(48 GB顯存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Qwen-32B

2卡GPU L(2 * 48 GB顯存)

131072

不支持

32768

131072

DeepSeek-R1-Distill-Llama-70B

2卡GU120(2 * 96 GB顯存)

131072

不支持

32768

131072

部署方式說明:

  • BladeLLM 加速部署:BladeLLM是阿里云 PAI 自研的高性能推理框架。

  • SGLang 加速部署:SGLang是一個適用于大型語言模型和視覺語言模型的快速服務框架。

  • vLLM 加速部署:vLLM是一個業界流行的用于LLM推理加速的庫。

  • 標準部署:不使用任何推理加速的標準部署。

推薦使用加速部署(BladeLLM、SGLang),性能和支持的最大Token數都會更優。

加速部署僅支持API調用方式,標準部署支持API調用方式及WebUI chat界面。

模型部署

  1. 進入Model Gallery頁面。

    1. 登錄PAI控制臺。

    2. 在頂部左上角根據實際情況選擇地域。

    3. 在左側導航欄選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間。

    4. 在左側導航欄選擇快速開始?>?Model Gallery

  2. 在Model Gallery頁面右側的模型列表中,找到需要部署的模型卡片,例如DeepSeek-R1-Distill-Qwen-32B模型,單擊進入模型詳情頁面。

  3. 單擊右上角部署,選擇部署方式和部署資源后,即可一鍵部署,生成一個 PAI-EAS 服務。

說明

如果部署DeepSeek-R1或DeepSeek-V3模型,您可以選擇的機型包括:

  • ml.gu8v.c192m1024.8-gu120、ecs.gn8v-8x.48xlarge(公共資源,庫存可能較緊張)

  • ecs.ebmgn8v.48xlarge(無法通過公共資源使用,請購買EAS專屬資源)

?

模型調用

您可以通過下表了解不同部署方式支持的模型調用方式。

BladeLLM部署

SGLang部署

vLLM部署

標準部署

WebUI

不支持,需本地啟動WebUI。詳情請參見WebUI使用。

支持

在線調試

支持。詳情請參見在線調試。

API調用

所有部署方式都支持通過以下接口發送HTTP POST請求調用模型。

  • completions 接口:<EAS_ENDPOINT>/v1/completions

  • chat 接口:<EAS_ENDPOINT>/v1/chat/completions

注意,標準部署還支持Endpoint后面不添加任何內容直接調用。詳情請參見API調用。

重要

使用BladeLLM加速部署方式,如果不指定max_tokens參數,默認會按照max_tokens=16進行截斷。建議您根據實際需要調整請求參數max_tokens。

WebUI使用

如果是標準部署,支持Web應用。在PAI-Model Gallery?>?任務管理?>?部署任務中單擊已部署的服務名稱,在服務詳情頁面右上角單擊查看WEB應用,即可通過ChatLLM WebUI進行實時交互。

image

非標準部署,可下載Web UI代碼,在本地啟動一個Web UI。

注意:BladeLLM和vLLM、SGLang部署使用的Web UI代碼不同。

  • BladeLLM:BladeLLM_github、?BladeLLM_oss

  • vLLM、SGLang:vLLM_github、vLLM_oss

python webui_client.py --eas_endpoint "<EAS API Endpoint>" --eas_token "<EAS API Token>"

?

在線調試

PAI-Model Gallery?>?任務管理?>?部署任務中單擊已部署的服務名稱,在在線測試模塊中找到EAS在線調試的入口,使用如下示例數據測試接口。

注意:在線調試中已經填充的路徑是以下示例中的<EAS_ENDPOINT>

單擊查看請求數據示例

API調用

  1. PAI-Model Gallery?>?任務管理?>?部署任務中單擊已部署的服務名稱,進入服務詳情頁。

  2. 單擊查看調用信息獲取調用的 Endpoint 和 Token。

  3. 單擊預訓練模型跳轉到Model Gallery的模型介紹頁查看API調用方式的詳細說明。

    image

    image

關于成本

  • 由于DeepSeek-V3和DeepSeek-R1模型較大,模型部署費用較高,建議用于正式生產環境。

  • 您還可以選擇部署經過知識蒸餾的輕量級模型,這些模型的參數量顯著減少,從而大幅降低部署成本。

  • 如果您從未使用過EAS,可以前往阿里云試用中心領取PAI-EAS試用資源。領取成功后,可以在Model Gallery選擇最低配置為 A10 的模型(如DeepSeek-R1-Distill-Qwen-7B)進行部署,并在部署時修改資源規格為試用活動中的機型。

  • 對于長期使用的模型,您可以采用公共資源組搭配節省計劃的方式,或者購買預付費EAS資源組來節約成本。

  • 如果是非生產環境使用,可以在部署時打開競價模式,但需滿足一定條件才能競價成功,且有資源不穩定的風險。

FAQ

點擊部署后服務長時間等待

可能的原因:

  • 當前地域下機器資源不足。

  • 由于模型較大,模型加載耗時較長(對于DeepSeek-R1、DeepSeek-V3這樣的大模型,需要20-30min)。

您可以耐心等待觀察一段時間,如果服務仍長時間無法正常啟動運行,建議嘗試以下步驟:

  1. 進入任務管理-部署任務,查看部署任務詳情頁。在頁面右上角單擊更多?>?更多信息,跳轉到PAI-EAS的模型服務詳情,查看服務實例狀態。

    EAS實例狀態

  2. 關閉當前服務,并在控制臺左上角切換到其他地域重新部署服務。

    說明

    對于DeepSeek-R1、DeepSeek-V3這樣的超大參數量模型,需要8卡GPU才能啟動服務(資源庫存較緊張),您可以選擇部署DeepSeek-R1-Distill-Qwen-7B等蒸餾小模型(資源庫存較富裕)。

服務部署成功后,調用API返回404

請檢查調用的URL是否加上了OpenAI的API后綴,例如v1/chat/completions。詳情可以參考模型主頁調用方式介紹。

請求太長導致EAS網關超時

EAS默認網關的請求超時時間是180秒,如果需要延長超時時間,可以配置EAS專屬網關,并提交工單調整專屬網關的請求超時時間,最大可以調整到600秒。

部署完成后,如何在EAS的在線調試頁面調試

詳情請參見如何在線調試已部署的模型?

模型部署之后沒有“聯網搜索”功能

“聯網搜索”功能并不是僅通過直接部署一個模型服務就能實現的,而是需要基于該模型服務自行構建一個AI應用(Agent)來完成。

通過PAI的大模型應用開發平臺LangStudio,可以構建一個聯網搜索的AI應用,詳情請參考Chat With Web Search應用流。

模型服務如何集成到AI應用(以Dify為例)

以DeepSeek-R1-Distill-Qwen-7B模型為例,建議采用vLLM加速部署。

  1. 在Dify中編輯“模型供應商”,添加更多模型供應商“OpenAI-API-compatible”:

    image

  2. 模型名稱填寫“DeepSeek-R1-Distill-Qwen-7B”,API Key填寫EAS服務Token,API endpoint URL填寫EAS服務endpoint(注意末尾加上/v1)。EAS服務Token和endpoint獲取方式:進入Model Gallery的任務管理-部署任務,在部署任務詳情頁面單擊查看調用信息

    image

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/70097.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/70097.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/70097.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Win10環境借助DockerDesktop部署大數據時序數據庫Apache Druid

Win10環境借助DockerDesktop部署最新版大數據時序數據庫Apache Druid32.0.0 前言 大數據分析中&#xff0c;有一種常見的場景&#xff0c;那就是時序數據&#xff0c;簡言之&#xff0c;數據一旦產生絕對不會修改&#xff0c;隨著時間流逝&#xff0c;每個時間點都會有個新的…

【第13章:自監督學習與少樣本學習—13.1 自監督學習最新進展與實現方法】

凌晨三點的實驗室,博士生小王盯著屏幕里正在"自娛自樂"的神經網絡——這個沒有吃過一張標注圖片的模型,正在通過旋轉、拼圖、填色等游戲任務,悄悄掌握著理解世界的秘訣。這種魔法般的修煉方式,正是當今AI領域最炙手可熱的技術:自監督學習。 一、打破數據枷鎖:自…

數據庫報錯1045-Access denied for user ‘root‘@‘localhost‘ (using password: YES)解決方式

MySQL 報錯 1045 表示用戶root從localhost連接時被拒絕訪問&#xff0c;通常是因為密碼錯誤、權限問題或配置問題。以下是解決該問題的常見方法&#xff1a; 方法一&#xff1a;檢查用戶名和密碼 ? 確認用戶名和密碼是否正確&#xff1a; 確保輸入的用戶名和密碼完全正確&am…

八大排序——簡單選擇排序

目錄 1.1基本操作&#xff1a; 1.2動態圖&#xff1a; 1.3代碼&#xff1a; 代碼解釋 1. main 方法 2. selectSort 方法 示例運行過程 初始數組 每輪排序后的數組 最終排序結果 代碼總結 1.1基本操作&#xff1a; 選擇排序&#xff08;select sorting&#xff09;也…

與傳統光伏相比 城電科技的光伏太陽花有什么優勢?

相比于傳統光伏&#xff0c;城電科技的光伏太陽花有以下優勢&#xff1a; 一、發電效率方面 智能追蹤技術&#xff1a;光伏太陽花通過內置的智能追蹤系統&#xff0c;采用全球定位跟蹤算法&#xff0c;能夠實時調整花瓣&#xff08;即光伏板&#xff09;的角度&#xff0c;確…

FPGA的星辰大海

編者按 時下風頭正盛的DeepSeek,正值喜好宏大敘事的米國大統領二次上崗就業,OpenAI、軟銀、甲骨文等宣布投資高達5000億美元“星際之門”之際,對比尤為強烈。 某種程度上,,是低成本創新理念的直接落地。 包括來自開源社區的諸多贊譽是,并非體現技術有多“超越”,而是…

Elasticsearch:15 年來致力于索引一切,找到重要內容

作者&#xff1a;來自 Elastic Shay Banon 及 Philipp Krenn Elasticsearch 剛剛 15 歲了&#xff01;回顧過去 15 年的索引和搜索&#xff0c;并展望未來 15 年的相關內容。 Elasticsearch 剛剛成立 15 周年。一切始于 2010 年 2 月的一篇公告博客文章&#xff08;帶有標志性的…

嵌入式軟件、系統、RTOS(高軟23)

系列文章目錄 4.2嵌入式軟件、系統、RTOS 文章目錄 系列文章目錄前言一、嵌入式軟件二、嵌入式系統三、嵌入式系統分類四、真題總結 前言 本節講明嵌入式相關知識&#xff0c;包括軟件、系統。 一、嵌入式軟件 二、嵌入式系統 三、嵌入式系統分類 四、真題 總結 就是高軟筆記…

數據結構 day02

3. 線性表 3.1. 順序表 3.1.3. 順序表編程實現 操作&#xff1a;增刪改查 .h 文件 #ifndef __SEQLIST_H__ #define __SEQLIST_H__ #define N 10 typedef struct seqlist {int data[N];int last; //代表數組中最后一個有效元素的下標 } seqlist_t;//1.創建一個空的順序表 seq…

數據恢復-01-機械硬盤的物理與邏輯結構

磁盤存儲原理 磁盤存儲數據的原理&#xff1a; 磁盤存儲數據的原理是利用磁性材料在磁場作用下的磁化性質&#xff0c;通過在磁盤表面上劃分成許多小區域&#xff0c;根據不同的磁化方向來表示0和1的二進制數據&#xff0c;通過讀寫磁頭在磁盤上的移動&#xff0c;可以實現數據…

wordpress get_footer();與wp_footer();的區別的關系

在WordPress中&#xff0c;get_footer() 和 wp_footer() 是兩個不同的函數&#xff0c;它們在主題開發中扮演著不同的角色&#xff0c;但都與頁面的“頁腳”部分有關。以下是它們的區別和關系&#xff1a; 1. get_footer() get_footer() 是一個用于加載頁腳模板的函數。它的主…

DeepSeek 通過 API 對接第三方客戶端 告別“服務器繁忙”

本文首發于只抄博客&#xff0c;歡迎點擊原文鏈接了解更多內容。 前言 上一期分享了如何在本地部署 DeepSeek R1 模型&#xff0c;但通過命令行運行的本地模型&#xff0c;問答的交互也要使用命令行&#xff0c;體驗并不是很好。這期分享幾個第三方客戶端&#xff0c;涵蓋了桌…

跟著李沐老師學習深度學習(十一)

經典的卷積神經網絡 在本次筆記中主要介紹一些經典的卷積神經網絡模型&#xff0c;主要包含以下&#xff1a; LeNet&#xff1a;最早發布的卷積神經網絡之一&#xff0c;目的是識別圖像中的手寫數字&#xff1b;AlexNet&#xff1a; 是第一個在大規模視覺競賽中擊敗傳統計算機…

使用JavaScript實現深淺拷貝

1. 拷貝的基本概念和必要性 在 JavaScript 中&#xff0c;數據類型分為基本數據類型&#xff08;如 Number、String、Boolean、Null、Undefined、Symbol&#xff09;和引用數據類型&#xff08;如 Object、Array&#xff09;。基本數據類型存儲的是值本身&#xff0c;而引用數…

解析瀏覽器中JavaScript與Native交互原理:以WebGPU為例

引言 隨著Web應用復雜度的提升&#xff0c;開發者對瀏覽器訪問本地硬件能力的需求日益增長。然而&#xff0c;瀏覽器必須在開放性與安全性之間找到平衡——既不能放任JavaScript&#xff08;JS&#xff09;隨意操作系統資源&#xff0c;又要為高性能計算、圖形渲染等場景提供支…

T-Sql 打印所有用戶表的建表腳本

-- 聲明一個變量用于存儲表名 DECLARE TableName NVARCHAR(128); -- 聲明一個游標&#xff0c;用于遍歷所有用戶表 DECLARE TableCursor CURSOR FOR SELECT name FROM sys.tables WHERE type U; -- 打開游標 OPEN TableCursor; -- 從游標中獲取第一行數據 FETCH NEXT FROM Ta…

25/2/16 <算法筆記> MiDas原理

MiDaS&#xff08;Monocular Depth Sensing&#xff09;是一種基于單目深度估計的技術&#xff0c;它通過深度學習方法使用單張RGB圖像&#xff08;普通2D圖像&#xff09;來估算場景的深度圖&#xff08;Depth Map&#xff09;。相比于傳統的依賴專用深度傳感器&#xff08;如…

python+halcon 解讀labelme標注生成marksimage

這一段代碼封裝了一個類&#xff0c;需要傳統一個圖片和標注后json文件所在的地址&#xff0c;標注的選項是polygon&#xff0c;主要是用于unet深度學習網絡 在初始化時需要輸入文件&#xff08;imagejeson&#xff09;路徑&#xff0c;多分類任務的label_list。會在項目目錄下…

從技術債務到架構升級,滴滴國際化外賣的變革

背 景 商家營銷簡述 在外賣平臺的運營中&#xff0c;我們致力于通過靈活的補貼策略激勵商家&#xff0c;與商家共同打造良好的合作關系&#xff0c;也會提供多樣化的營銷活動&#xff0c;幫助商家吸引更多用戶下單。通過這些活動&#xff0c;不僅能夠提高商家的銷量&#xff0c…

英語—四級CET4考試—技巧篇—選詞填空—實操教學—2014 年 6 月大學英語四級考試真題(第 2 套)

&#x1f3e0;個人主頁&#xff1a;fo安方的博客? &#x1f482;個人簡歷&#xff1a;大家好&#xff0c;我是fo安方&#xff0c;目前中南大學MBA在讀&#xff0c;也考取過HCIE Cloud Computing、CCIE Security、PMP、CISP、RHCE、CCNP RS、PEST 3等證書。&#x1f433; &…