需求分析
現代仿真(如CFD流體動力學、FEA結構分析、電磁仿真、氣候模擬、自動駕駛場景仿真、芯片設計等)會產生PB級甚至EB級的數據。海量數據的生成、處理和存儲,主要體現在以下幾個關鍵方面:
數據量爆炸式增長:高分辨率網格、復雜物理模型、長時間步長、多變量輸出、多次迭代。
檢查點/重啟:頻繁的檢查點操作(將計算狀態保存到存儲以防故障)對寫入延遲敏感,高延遲會增加檢查點開銷,降低有效計算時間。
大文件與小文件混合:checkpoint文件(大文件)與參數配置文件(小文件)并存。
順序讀寫主導:仿真計算通常按時間步迭代生成數據,順序讀寫占比高。
計算節點并行寫入:成百上千甚至數萬個計算核心同時向存儲寫入結果數據。
元數據密集操作:小文件(如參數集)的頻繁創建/刪除可能成為瓶頸。
數據生命周期管理:活躍數據需高性能存儲,歷史數據需歸檔至低成本介質。
解決方
采用100G高速RoCE網絡,實現計算節點與存儲節點間的互聯。選用統一存儲架構的混閃存儲,NVMe SDD介質提供所需的高IOPS、高帶寬和低延時的高性能存力支撐;SATA SSD介質存儲中等活躍度數據;HDD介質提供數據長期保存和歸檔的支持。
?邏輯架構圖
未完待續......?