目錄
支持的模型列表
模型部署
模型調用
WebUI使用
在線調試
API調用
關于成本
FAQ
點擊部署后服務長時間等待
服務部署成功后,調用API返回404
請求太長導致EAS網關超時
部署完成后,如何在EAS的在線調試頁面調試
模型部署之后沒有“聯網搜索”功能
模型服務如何集成到AI應用(以Dify為例)
DeepSeek-V3是由深度求索公司推出的一款擁有6710億參數的專家混合(MoE)大語言模型,DeepSeek-R1是基于DeepSeek-V3-Base訓練的高性能推理模型。Model Gallery提供了BladeLLM、SGLang和vLLM加速部署功能,幫助您一鍵部署DeepSeek-V3和DeepSeek-R1系列模型。
支持的模型列表
說明
DeepSeek-R1、DeepSeek-V3滿血版模型的參數量較大(671B),所需配置和成本較高(8卡96G顯存以上)。建議您選擇蒸餾版模型(機器資源較充足、部署成本較低)。
根據測試,DeepSeek-R1-Distill-Qwen-32B模型的效果和成本較優,適合云上部署,可嘗試作為DeepSeek-R1的替代模型。您也可以選擇7B、8B、14B等其他蒸餾模型部署,Model Gallery還提供了模型評測功能,可以評測模型實際效果(評測入口在模型詳情頁右上角)。
表中給出的是最低所需配置機型,在Model Gallery的部署頁面的資源規格選擇列表中系統已自動過濾出模型可用的公共資源規格。
模型 | 最低配置 | 支持的最大Token數 | |||
部署方式為BladeLLM加速(推薦) | 部署方式為SGLang加速(推薦) | 部署方式為vLLM加速 | 部署方式為標準部署 | ||
DeepSeek-R1 | 8卡GU120(8 * 96 GB顯存) | 不支持 | 163840 | 4096 | 不支持 |
DeepSeek-V3 | 8卡GU120(8 * 96 GB顯存) | 不支持 | 163840 | 4096 | 2000 |
DeepSeek-R1-Distill-Qwen-1.5B | 1卡A10(24 GB顯存) | 131072 | 不支持 | 131072 | 131072 |
DeepSeek-R1-Distill-Qwen-7B | 1卡A10(24 GB顯存) | 131072 | 不支持 | 32768 | 131072 |
DeepSeek-R1-Distill-Llama-8B | 1卡A10(24 GB顯存) | 131072 | 不支持 | 32768 | 131072 |
DeepSeek-R1-Distill-Qwen-14B | 1卡GPU L(48 GB顯存) | 131072 | 不支持 | 32768 | 131072 |
DeepSeek-R1-Distill-Qwen-32B | 2卡GPU L(2 * 48 GB顯存) | 131072 | 不支持 | 32768 | 131072 |
DeepSeek-R1-Distill-Llama-70B | 2卡GU120(2 * 96 GB顯存) | 131072 | 不支持 | 32768 | 131072 |
部署方式說明:
-
BladeLLM 加速部署:BladeLLM是阿里云 PAI 自研的高性能推理框架。
-
SGLang 加速部署:SGLang是一個適用于大型語言模型和視覺語言模型的快速服務框架。
-
vLLM 加速部署:vLLM是一個業界流行的用于LLM推理加速的庫。
-
標準部署:不使用任何推理加速的標準部署。
推薦使用加速部署(BladeLLM、SGLang),性能和支持的最大Token數都會更優。
加速部署僅支持API調用方式,標準部署支持API調用方式及WebUI chat界面。
模型部署
-
進入Model Gallery頁面。
-
登錄PAI控制臺。
-
在頂部左上角根據實際情況選擇地域。
-
在左側導航欄選擇工作空間列表,單擊指定工作空間名稱,進入對應工作空間。
-
在左側導航欄選擇快速開始?>?Model Gallery。
-
-
在Model Gallery頁面右側的模型列表中,找到需要部署的模型卡片,例如DeepSeek-R1-Distill-Qwen-32B模型,單擊進入模型詳情頁面。
-
單擊右上角部署,選擇部署方式和部署資源后,即可一鍵部署,生成一個 PAI-EAS 服務。
說明
如果部署DeepSeek-R1或DeepSeek-V3模型,您可以選擇的機型包括:
ml.gu8v.c192m1024.8-gu120、ecs.gn8v-8x.48xlarge(公共資源,庫存可能較緊張)
ecs.ebmgn8v.48xlarge(無法通過公共資源使用,請購買EAS專屬資源)
?
模型調用
您可以通過下表了解不同部署方式支持的模型調用方式。
BladeLLM部署 | SGLang部署 | vLLM部署 | 標準部署 | |
WebUI | 不支持,需本地啟動WebUI。詳情請參見WebUI使用。 | 支持 | ||
在線調試 | 支持。詳情請參見在線調試。 | |||
API調用 | 所有部署方式都支持通過以下接口發送HTTP POST請求調用模型。
注意,標準部署還支持Endpoint后面不添加任何內容直接調用。詳情請參見API調用。 |
重要
使用BladeLLM加速部署方式,如果不指定max_tokens參數,默認會按照max_tokens=16進行截斷。建議您根據實際需要調整請求參數max_tokens。
WebUI使用
如果是標準部署,支持Web應用。在PAI-Model Gallery?>?任務管理?>?部署任務中單擊已部署的服務名稱,在服務詳情頁面右上角單擊查看WEB應用,即可通過ChatLLM WebUI進行實時交互。
非標準部署,可下載Web UI代碼,在本地啟動一個Web UI。
注意:BladeLLM和vLLM、SGLang部署使用的Web UI代碼不同。
-
BladeLLM:BladeLLM_github、?BladeLLM_oss
-
vLLM、SGLang:vLLM_github、vLLM_oss
python webui_client.py --eas_endpoint "<EAS API Endpoint>" --eas_token "<EAS API Token>"
?
在線調試
在PAI-Model Gallery?>?任務管理?>?部署任務中單擊已部署的服務名稱,在在線測試模塊中找到EAS在線調試的入口,使用如下示例數據測試接口。
注意:在線調試中已經填充的路徑是以下示例中的<EAS_ENDPOINT>
。
單擊查看請求數據示例
API調用
-
在PAI-Model Gallery?>?任務管理?>?部署任務中單擊已部署的服務名稱,進入服務詳情頁。
-
單擊查看調用信息獲取調用的 Endpoint 和 Token。
-
單擊預訓練模型跳轉到Model Gallery的模型介紹頁查看API調用方式的詳細說明。
關于成本
-
由于DeepSeek-V3和DeepSeek-R1模型較大,模型部署費用較高,建議用于正式生產環境。
-
您還可以選擇部署經過知識蒸餾的輕量級模型,這些模型的參數量顯著減少,從而大幅降低部署成本。
-
如果您從未使用過EAS,可以前往阿里云試用中心領取PAI-EAS試用資源。領取成功后,可以在Model Gallery選擇最低配置為 A10 的模型(如DeepSeek-R1-Distill-Qwen-7B)進行部署,并在部署時修改資源規格為試用活動中的機型。
-
對于長期使用的模型,您可以采用公共資源組搭配節省計劃的方式,或者購買預付費EAS資源組來節約成本。
-
如果是非生產環境使用,可以在部署時打開競價模式,但需滿足一定條件才能競價成功,且有資源不穩定的風險。
FAQ
點擊部署后服務長時間等待
可能的原因:
-
當前地域下機器資源不足。
-
由于模型較大,模型加載耗時較長(對于DeepSeek-R1、DeepSeek-V3這樣的大模型,需要20-30min)。
您可以耐心等待觀察一段時間,如果服務仍長時間無法正常啟動運行,建議嘗試以下步驟:
-
進入任務管理-部署任務,查看部署任務詳情頁。在頁面右上角單擊更多?>?更多信息,跳轉到PAI-EAS的模型服務詳情,查看服務實例狀態。
-
關閉當前服務,并在控制臺左上角切換到其他地域重新部署服務。
說明
對于DeepSeek-R1、DeepSeek-V3這樣的超大參數量模型,需要8卡GPU才能啟動服務(資源庫存較緊張),您可以選擇部署DeepSeek-R1-Distill-Qwen-7B等蒸餾小模型(資源庫存較富裕)。
服務部署成功后,調用API返回404
請檢查調用的URL是否加上了OpenAI的API后綴,例如v1/chat/completions。詳情可以參考模型主頁調用方式介紹。
請求太長導致EAS網關超時
EAS默認網關的請求超時時間是180秒,如果需要延長超時時間,可以配置EAS專屬網關,并提交工單調整專屬網關的請求超時時間,最大可以調整到600秒。
部署完成后,如何在EAS的在線調試頁面調試
詳情請參見如何在線調試已部署的模型?
模型部署之后沒有“聯網搜索”功能
“聯網搜索”功能并不是僅通過直接部署一個模型服務就能實現的,而是需要基于該模型服務自行構建一個AI應用(Agent)來完成。
通過PAI的大模型應用開發平臺LangStudio,可以構建一個聯網搜索的AI應用,詳情請參考Chat With Web Search應用流。
模型服務如何集成到AI應用(以Dify為例)
以DeepSeek-R1-Distill-Qwen-7B模型為例,建議采用vLLM加速部署。
-
在Dify中編輯“模型供應商”,添加更多模型供應商“OpenAI-API-compatible”:
-
模型名稱填寫“DeepSeek-R1-Distill-Qwen-7B”,API Key填寫EAS服務Token,API endpoint URL填寫EAS服務endpoint(注意末尾加上/v1)。EAS服務Token和endpoint獲取方式:進入Model Gallery的任務管理-部署任務,在部署任務詳情頁面單擊查看調用信息。
?