共享內存簡介及docker容器的shm設置與修改
共享內存簡介
共享內存指 (shared memory)在多處理器的計算機系統中,可以被不同中央處理器(CPU)訪問的大容量內存。由于多個CPU需要快速訪問存儲器,這樣就要對存儲器進行緩存(Cache)。任何一個緩存的數據被更新后,由于其他處理器也可能要存取,共享內存就需要立即更新,否則不同的處理器可能用到不同的數據。共享內存是 Unix下的多進程之間的通信方法 ,這種方法通常用于一個程序的多進程間通信,實際上多個程序間也可以通過共享內存來傳遞信息。
實際上,共享內存區是最快的IPC形式。一旦這樣的內存映射到共享它的進程的地址空間,這些進程間數據傳遞不再涉及到內核,換句話說是進程不再通過執行進入內核的系統調用來傳遞彼此的數據。
docker容器shm的設置與修改
問題
我們在 docker 容器來跑我們的 PyTorch 模型訓練任務時如果設置不當,會遇到類似這樣的報錯:
RuntimeError: DataLoader worker (pid 1229) is killed by signal: Bus error.
It is possible that dataloader's workers are out of shared memory.
Please try to raise your shared memory limit.
可以看到,這是 DataLoader 的保存,我們在設置 DataLoader 時通常會給一個 num_workers 的值(該值推薦設置為本機的 CPU 核心數),但是在 docker 容器中訓練任務時,或許我們的宿主機有很大內存空閑,但是卻會報上面的共享內存不足的問題。
這就是由于我們在創建 docker 容器時沒有給足夠的共享內存(默認為 64MB)。共享內存的大小我們可以在容器內通過以下命令查看:
df -lh | grep shm
# 輸出:
shm 64M 0 64M 0% /dev/shm
或者:
ipcs -al
# 輸出:
------ Messages Limits --------
max queues system wide = 32000
max size of message (bytes) = 8192
default max size of queue (bytes) = 16384------ Shared Memory Limits --------
max number of segments = 4096
max seg size (kbytes) = 18014398509465599
max total shared memory (kbytes) = 18014398509481980
min seg size (bytes) = 1------ Semaphore Limits --------
max number of arrays = 32000
max semaphores per array = 32000
max semaphores system wide = 1024000000
max ops per semop call = 500
semaphore max value = 32767
這種情況有三種解決方法。
解決方法
方法一
方法一就是直接不要設置 num_workers 了,讓它為默認值 0,這時就不需要很大的共享內存了,任務可以正常跑起來。
該方法的問題是:我們跑訓練任務時肯定是需要很大的 num_workers 的,不然數據運輸太慢會導致 GPU 利用率很低。
因此該方法僅適用于我們在容器內 debug 訓練代碼時,此時不需要很大的 num_workers,只要保證代碼無誤,然后在正式開始跑訓練時正常設置共享內存和 num_workers 即可。
方法二
那么,應該怎樣正確設置共享內存的大小呢?其實很簡單,只需要我們在啟動容器時加一個參數 --shm-size
即可,如:
docker run -it \--gpus '"device=0,1"' \--shm-size 32g \--mount type=bind,source=/ssd1t/song/Datasets/coco,target=/master_data \adenialzz/bilibili-projects:tch-mmdet-py38-tch19
即可將共享內存設置為 32g。
但是,有時我們在容器內已經做了一些事情,不想新建容器,而就是想改變當前容器的共享內存該怎么辦呢?
方法三
這種情況稍微麻煩一點,但也是可以實現的,步驟如下:
-
首先關閉 docker 服務:
service docker stop
-
查看當前容器的 id:
docker ps -a
找到我們要修改的容器的 CONTAINER ID,就是第一列,長得像這樣:
685d249a0965
的一個序列,通常顯示的是簡短的版本(即完整 ID 的開頭幾個字符),實際這個 ID 很長。 -
找到該容器配置文件所在目錄
cd /var/lib/docker/containers ls cd 685d249a096569335605747977dcb3d705947b1049259de2e259dc4b9a7da3fa
這時會顯示出幾個以當前存在的容器 ID 為名的目錄,找到我們要修改共享內存的那個(開頭匹配我們剛才記下的 CONTAINER ID),進入目錄。
-
修改宿主機中的 host 配置文件(此步通常需要 root 權限)
vim hostconfig.json
然后會看到一堆東西,找到
"ShmSize":67108864
,可以看到,現在就是 67108864 字節,即64MB,我們就是要修改該值,比如在后面填倆零就是擴大了一百倍,自己算一下需要的共享內存大小,按需擴大,保存退出。 -
重啟 docker 服務
// 停止docker服務 systemctl stop docker // 再開啟 systemctl start docker //或者 systemctl restatrt docker//或者 service docker stop service docker start
-
再打開容器,進去看一下吧
Ref:
https://blog.csdn.net/gg864461719/article/details/112466585