文章目錄
- GPFS簡介
- 核心特性
- 存儲環境介紹
- 存儲軟件版本
- 客戶端存儲RoCE
- GPFS 管理(GUI)
- 1. 創建 CSI 用戶
- 2. 檢查GUI與k8s通信
- 文件系統配置
- 1. 開啟配額
- 2. 啟用filesetdf文件系統
- 3. 驗證文件系統配置
- 4. 啟用自動inode擴展
- 存儲集群配置
- 1. 啟用對根文件集(root fileset)配額
- 2. ignoreReplicationForQuota參數
- 3. ignoreReplicationOnStatfs參數
- 4. ignoreReplicaSpaceOnStat參數
- 部署 GPFS CSI-Operator
- 1. YAML下載
- 2. 創建csi-operator
- 3. 創建 CSI 用戶秘鑰
- 4. CSI 標簽應用秘鑰
- 5. 修改 CR
- 存儲單集群
- 存儲遠程集群
- 存儲節點名稱獲取
- 6. k8s 節點打標簽
- 7. 創建 CSI cr 驅動
- 8. 檢查 csiScaleOperator 狀態
- 9. 檢查 CSI Pod 狀態
- 創建 Storage Class
- 1. 不同存儲類的區別
- 2. 創建基于文件集的卷的存儲類
- 獨立文件集存儲類
- 3. 申請 PVC
- 4. check pv & pvc
- 5. 修改PVC Inode
- 6. 測試驗證
- GPFS存儲性能測試
- 1. 編排測試Pod Manifest
- 2. 編寫vdb壓測腳本
- 3. 壓測用例
- 4. 性能測試結果
- 報告總結
- 分布式訓練
- 分布式訓練中的數據訪問優化
- 加速大模型訓練的具體機制
- GPFS運維常用命令
- 參考
GPFS簡介
GPFS(General Parallel File System,通用并行文件系統)是由 IBM 開發的高性能分布式文件系統,最初設計于 1990 年代,用于滿足高性能計算(HPC)環境對大規模數據存儲和訪問的需求。GPFS 現已廣泛應用于企業級存儲、云計算、大數據分析、人工智能和媒體處理等領域。它以其高性能、可擴展性和可靠性著稱,能夠支持從小型集群到超大規模系統的各種部署場景。
核心特性
- 并行數據訪問:GPFS允許多個節點同時讀寫同一文件或文件的不同部分,利用分布式鎖和字節范圍鎖(byte-range locking)實現高效的并發訪問。這對于分布式訓練中多個工作節點并行讀取訓練數據尤為重要。
- 高吞吐量和低延遲:GPFS通過將數據分布在多個存儲節點上,并支持高帶寬網絡(如InfiniBand),提供極高的I/O吞吐量和低延遲,滿足大模型訓練對大規模數據集的快速訪問需求。
- 分布式元數據管理:與傳統的集中式元數據服務器不同,GPFS將元數據分布在多個節點上,避免單點瓶頸,特別適合處理包含數百萬小文件的AI訓練數據集。
- 可擴展性:GPFS支持動態擴展存儲容量和計算節點,能夠輕