SGLang + 分布式推理部署DeepSeek671B滿血版

部署設備:2×8×A100 80G,兩臺機器,每臺機器8張A100。

模型:deepseek-671B-int8

模型下載地址:https://huggingface.co/meituan/DeepSeek-R1-Block-INT8
模型參考:

1、SGLang Docker部署

github地址:sgl-project/sglang:SGLang 是一個用于大型語言模型和視覺語言模型的快速服務框架。

下載 SGLang的docker鏡像包,地址:lmsysorg/sglang Tags | Docker Hub,我用的0.4.7這個版本。

docker pull lmsysorg/sglang:v0.4.7-cu124

如果是內網機器,可以將docker鏡像打包成.tar文件,傳入服務器進行加載即可。

sudo docker load -i sglang_v0.4.7-cu124.tar

2、運行docker鏡像

網口號查詢,我的設置為ens...p0,大概是這樣的。

IP -4 aexport | grep -i socket

在master機器上運行(請將模型放在兩臺機器的同一位置)

# master
docker run --gpus all \-d \-e GLOO_SOCKET_IFNAME=網口號-e TP_SOCKET_IFNAME=網口號-e NCCL_SOCKET_IFNAME=網口號--shm-size 32g \--network=host \-p 30000:30000 \-v 本地模型地址:/root/.cache/huggingface/deepseek \--name sglang-1 \--it--ipc=host \lmsysorg/sglang:v0.4.7-cu124 \

在cluster機器上運行

#cluster
docker run --gpus all \-d \-e GLOO_SOCKET_IFNAME=網口號-e TP_SOCKET_IFNAME=網口號-e NCCL_SOCKET_IFNAME=網口號--shm-size 32g \--network=host \-p 30000:30000 \-v 本地模型地址:/root/.cache/huggingface/deepseek \--name sglang-2 \--it--ipc=host \lmsysorg/sglang:v0.4.7-cu124 \

3、運行sglang服務

查看docker容器

sudo docker ps -a

在master機器上運行

sudo docker exec -it sglang-1 bash

在cluster機器上運行

sudo docker exec -it sglang-2 bash

在master機器上的docker中運行,記得替換master的IP,如果端口被占用就換個端口:

#master
python3 -m sglang.launch_server \--model /root/.cache/huggingface/deepseek --tp 16 --dist-init-addr \MASTER_IP:5000 --nnodes 2 --node-rank 0 --trust-remote-code --enable-torch-compile --torch-compile-max-bs 8

在cluster機器上的docker中運行,記得替換master的IP,如果端口被占用就換個端口:

#cluster
python3 -m sglang.launch_server \--model /root/.cache/huggingface/deepseek --tp 16 --dist-init-addr \MASTER_IP:5000 --nnodes 2 --node-rank 1 --trust-remote-code --enable-torch-compile --torch-compile-max-bs 8

這樣就可以正常運行起來了,一定要注意參數是否正確。

docker額外操作

暫停所有運行的docker

sudo docker stop $(sudo docker ps -q)

刪除docker容器

sudo docker rm -f 容器ID

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/90265.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/90265.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/90265.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

PCL 間接平差擬合球

目錄 一、算法原理 1、計算流程 2、參考文獻 二、代碼實現 三、結果展示 本文由CSDN點云俠原創,首發于2025年7月24日。博客長期更新,本文最新更新時間為:2025年7月24日。 一、算法原理 1、計算流程 空間球方程: ( x ? a ) 2 + ( y ? b ) 2 + ( z ? c ) 2 = R 2 (1) (…

基于 HAProxy 搭建 EMQ X 集群

負載均衡器(LB)負責分發設備的 MQTT 連接與消息到 EMQ X 集群,采用 LB 可以提高 EMQ X 集群可用性、實現負載平衡以及動態擴容。 HAProxy簡介 HAProxy 是一款高性能的 開源負載均衡器 和 反向代理服務器,主要用于在多個服務器之…

RISC-V基金會Datacenter SIG月會圓滿舉辦,探討RAS、PMU性能分析實踐和經驗

一直以來,龍蜥社區在 RISC-V 生態建設中持續投入,并積極貢獻上游社區。多位龍蜥社區成員在 RISC-V 國際基金會擔任主席/副主席角色,與來自阿里云、阿里達摩院、中興通訊、浪潮信息、中科院軟件所、字節跳動、Google、 MIT、Akeana 等企業的專…

CloudComPy使用PyInstaller打包后報錯解決方案

情況描述 筆者在spec文件中,datas變量設置如下。如果你的報錯類似于“找不到cloudComPy”,先嘗試如下的設置。 datas[(CloudCompare,cloudComPy)], 筆者在打包完成后,打開軟件發現報錯: from cloudComPy import* ModuleNotFoun…

node.js中的path模塊

在 Node.js 中,path 模塊提供了處理和操作文件路徑的功能,其中 path.join 和 path.resolve 是兩個常用的方法。它們在處理路徑時有不同的行為和用途: 功能概述 path.join(): 該方法主要用于將多個路徑片段拼接成一個完整的路徑字符串。它會正…

將Scrapy項目容器化:Docker鏡像構建的工程實踐

引言:爬蟲容器化的戰略意義在云原生與微服務架構主導的時代,??容器化技術??已成為爬蟲項目交付的黃金標準。據2023年分布式系統調查報告顯示:92%的生產爬蟲系統采用容器化部署容器化使爬蟲環境配置時間??減少87%??Docker化爬蟲的故障…

Unity × RTMP × 頭顯設備:打造沉浸式工業遠控視頻系統的完整方案

結合工業現場需求,探索如何通過大牛直播SDK打造可在 Pico、Quest 等頭顯設備中運行的 RTMP 低延遲播放器,助力構建沉浸式遠程操控系統。 一、背景:沉浸式遠程操控的新趨勢 隨著工業自動化、5G 專網、XR 技術的發展,遠程操控正在從…

HTTPS如何保障安全?詳解證書體系與加密通信流程

HTTP協議本身是明文傳輸的,安全性較低,因此現代互聯網普遍采用 HTTPS(HTTP over TLS/SSL) 來實現加密通信。HTTPS的核心是 TLS/SSL證書體系 和 加密通信流程。一、HTTPS 證書體系HTTPS依賴 公鑰基礎設施(PKI, Public K…

數據的評估與清洗篇---清洗數據

處理前的準備 檢查索引與列名 在處理內容之前,需要先看看索引或列名是否有意義,若索引和列名都是亂七八糟的,應該對他們進行重命名或者重新排序,以便我們理解數據。 清洗數據 清洗數據原則 針對數據內容,一般先解決結構性問題,再處理內容性問題。整潔數據的特點是: …

Ubuntu apt和apt-get的區別

好的,這是一個非常經典且重要的問題。apt install 和 apt-get install 的區別是很多 Ubuntu/Debian 新手都會遇到的困惑。 簡單來說,它們的功能非常相似,但設計目標和用戶體驗不同。 一句話總結 apt 是 apt-get 的一個更新、更友好、更現代化…

多端適配災難現場:可視化界面在PC/平板/大屏端的響應式布局實戰

摘要精心設計的可視化大屏,在平板上顯示時圖表擠成一團,在PC端操作按鈕小到難以點擊,某企業的可視化項目曾因多端適配失敗淪為“災難現場”,不僅用戶差評如潮,還被競爭對手嘲諷技術落后。多端適配真的只能靠“反復試錯…

Vulnhub Web-Machine-N7靶機攻略(附VB安裝教程)

1.VB安裝 安裝地址:https://download.virtualbox.org/virtualbox/7.1.12/VirtualBox-7.1.12-169651-Win.exe 下載好后直接打開即可開始安裝。安裝前先打開任務管理器(搜索框直接搜索即可)查看性能里面的虛擬化是否打開。 開始安裝。 這里顯…

vite搭建react-ts項目,@別名配置

vite搭建react-ts項目,別名配置一、配置別名二、輸入/能索引文件三、解決找不到模塊“/pages/home”或其相應的類型聲明一、配置別名 vite.config.ts文件 import { defineConfig, loadEnv, type ConfigEnv, type UserConfig } from "vite"; import reac…

AWS OpenSearch 搜索排序常見用法

背景介紹 AWS OpenSearch是AWS的一個檢索分析服務&#xff0c;是基于開源的Elasticsearch 7.x分支fork出來的獨立的一個代碼倉庫&#xff0c;做了獨立的維護&#xff0c;加入了一些自己的優化&#xff0c;本文在這里主要介紹是常見的基礎用法 引入相關依賴<dependency>&l…

深度分析Java內存結構

Java內存結構是JVM的核心機制&#xff0c;直接關系到程序性能、并發能力和穩定性。下面從規范、實現到實踐進行深度分析&#xff1a;一、JVM規范定義的內存區域 1. 程序計數器&#xff08;Program Counter Register&#xff09; 作用&#xff1a;存儲當前線程執行的字節碼指令地…

vs2019 創建MFC ActiveX的詳細步驟

第一步 創建1個MFC ActiveX控件工程 添加方法 輸入方法名稱選擇返回類型點擊 添加參數&#xff0c;最后點擊確認&#xff0c;如下圖 添加的Add方法 注意&#xff0c;如需要添加1個指針類型的參數&#xff0c;需要手動輸入* 最后編譯&#xff0c;如編譯出現下圖錯誤&#xf…

pyarmor加密源代碼

使用低版本python 避免出現加密限制&#xff0c;無法加密情況 環境&#xff1a;python3.9.9 安裝 pyinsatller 及 pyarmor pip install pyinsatller pyarmor添加 其它pyinstaller 打包參數 一定在下邊正式打包命令運行前執行 具體參考 https://pyarmor.readthedocs.io/zh/stabl…

MACOS安裝配置Gradle

一、概述 gradle的運行高度依賴jvm版本&#xff0c;所以在安裝之前一定要先安裝jdk&#xff0c;同時gradle版本必須與jdk版本對應&#xff0c;不然在項目編譯的時候會報版本不兼容導致編譯不成功的問題。 官方說明地址 以下是官方列出關系對應版本的關系列表&#xff1a; 本文…

1.1.2 建筑構造要求

1、建筑構造的影響因素1&#xff09;荷載因素&#xff08;受力&#xff09;&#xff1a;結構自重、活荷載、風荷載、雪荷載、地震作用2&#xff09;環境因素&#xff1a;自然因素&#xff08;風吹、日曬、雨淋、積雪、冰凍、地下水、地震等&#xff09;、人為因素&#xff08;火…

gig-gitignore工具實戰開發(一):項目愿景與藍圖規劃

文章目錄gig-gitignore工具實戰開發&#xff08;一&#xff09;&#xff1a;項目愿景與藍圖規劃 &#x1f680;&#x1f631; 一、痛點&#xff1a;被忽視的.gitignore&#x1f3af; 二、愿景&#xff1a;.gitignore的全生命周期管理&#x1f6e0;? 三、核心功能規劃&#x1f…