管理 IBM Spectrum LSF
了解如何管理 IBM? Spectrum LSF 集群,控制守護程序,更改集群配置以及使用主機和隊列。 管理 LSF 作業和作業調度策略。 查看作業信息和控制作業。 了解如何配置資源并將其分配給 LSF 作業。 了解如何在 LSF 集群中提交,監視和控制高吞吐量和并行工作負載。 了解 LSF 錯誤和事件日志記錄以及 LSF 如何處理作業異常。 調整 LSF 集群的性能和可伸縮性。
IBM Spectrum LSF 集群管理要點
了解如何管理 LSF 集群,控制守護程序,更改集群配置以及使用主機,隊列和用戶。
- 使用集群
了解 LSF 目錄和文件,用于查看集群信息的命令,控制工作負載守護程序以及如何配置集群。 - 使用主機
檢查集群中主機的狀態,查看有關主機的信息,控制主機。 在集群中添加和除去主機。 - 作業目錄和數據
作業將臨時目錄用于工作文件和臨時輸出。 缺省情況下, IBM Spectrum LSF 使用缺省操作系統臨時目錄。 使用 LSF 當前工作目錄 (CWD) 功能部件可根據配置參數以及路徑中包含的任何動態模式來動態創建和管理作業 CWD。 使用靈活的作業輸出目錄來根據配置參數動態創建和管理作業輸出目錄。 - 作業通知
缺省情況下,當批處理作業完成或退出時, LSF 會通過電子郵件向提交用戶帳戶發送作業報告。
監視 IBM Spectrum LSF 集群操作和運行狀況
了解如何監視集群性能,作業資源使用情況以及有關隊列,作業和用戶的其他信息。
- 監視集群性能
使用 badmin perfmon 來監視集群性能。 使用 badmin diagnose 對集群問題進行故障診斷。 - 監視作業信息
使用 bjobs 和 bhist 來監視作業和作業陣列的當前和過去狀態。 bjdepinfo 命令顯示作業具有的任何依賴關系,這些依賴關系可以是依賴于作業的作業,也可以是依賴于作業的作業。 使用 bhosts -l 和 bqueues -l查看暫掛條件。 運行 bjobs -lp 以查看暫掛作業的原因。 運行 bjobs -l 以查看控制何時恢復作業的調度閾值。 - 使用外部腳本監視應用程序
使用看守程序功能來定期運行外部腳本,以檢查應用程序信息并將作業信息作為通知傳遞。 - 查看有關資源的信息
使用 bhosts 命令可查看有關主機上的共享資源和主機上的裝入的信息。 使用 bjobs 命令可查看作業資源使用情況。 使用 lsinfo 命令可查看總體集群資源,使用 lshosts 命令可查看基于主機的資源和按資源劃分的主機負載。 - 查看用戶和用戶組信息
使用 busers 和 bugroup 命令可顯示有關 LSF 用戶和用戶組的信息。 - 查看隊列信息
bqueues 命令顯示有關隊列的信息。 bqueues -l 選項還提供有關特定隊列中的作業的當前統計信息,例如隊列中的作業總數,正在運行的作業數和已暫掛的作業數。
管理 IBM Spectrum LSF 作業執行
了解如何管理 LSF 作業和作業調度策略。 查看作業信息,控制作業以及管理作業依賴關系,作業優先級,作業數組,交互式作業,作業執行前和執行后以及作業啟動者。
- 管理作業執行
了解 LSF 作業狀態,如何查看有關作業的信息,以及通過暫掛,恢復,停止和發送信號來控制作業執行。 - 作業文件假脫機
LSF 通過創建用于緩沖作業輸入和輸出的目錄和文件來啟用作業輸入,輸出和命令文件的假脫機。 當作業完成時, LSF 將除去這些文件。 - 作業數據管理
LSF 提供了不同的選項來管理作業數據。 - 作業調度和分派
了解如何調度作業并將其分派給主機以供執行。 - 控制作業執行
使用資源使用限制來控制運行作業可耗用的資源量。 根據執行主機上的裝入條件自動暫掛作業。 在作業完成之前和之后,使用執行前和執行后處理在執行主機上運行命令。 使用作業啟動程序為作業設置運行時環境。 作業提交和執行控件使用特定于站點的外部可執行文件來驗證,修改和拒絕作業,傳輸數據以及修改作業執行環境。 - 交互式作業和遠程任務
使用 bsub -I, bsub -Is和 bsub -Ip 命令運行交互式作業,以利用資源密集型作業的批處理調度策略和主機選擇功能。 使用非批處理實用程序 (例如 lsrun 和 lsgrun) 以交互方式遠程運行任務。
配置和共享 IBM Spectrum LSF 作業資源
了解如何配置資源并將其分配給 LSF 作業。 在用戶和項目之間公平共享計算資源。 將資源分配限制應用于作業,管理主機和用戶組,保留資源以及指定作業的資源需求。
- 關于 LSF 資源
LSF 系統使用內置和配置的資源來跟蹤作業資源需求,并根據各個主機上的可用資源來調度作業。 - 在 LSF 中表示作業資源
了解如何在 LSF中表示作業資源。 - 基于計劃的調度和預留
基于計劃的調度極大地改進了 LSF中的原始調度和預留功能。 調度程序可以在不久的將來規劃作業布置,而不是僅查看當前資源可用性。 然后,將根據這些計劃的分配進行預留。 基于計劃的調度旨在替代舊的 LSF 預留策略。 啟用 ALLOCATION_PLANNER 時,將忽略與舊預留功能部件相關的參數。 - 將作業資源分發給 LSF 中的用戶
了解用戶如何通過 LSF共享作業資源。 - 全局資源
全局資源是在所有已連接集群之間共享的資源。
GPU 資源
了解如何為 LSF 作業配置和使用 GPU 資源。
NVIDIA GPU 資源在 x64 和 IBM Power LE (Little Endian) 平臺上受支持。
AMD GPU 資源在 x64 平臺上受支持。
- 啟用 GPU 功能部件
了解如何在 IBM Spectrum LSF中啟用 GPU 功能部件。 - 監視 GPU 資源
了解如何在 IBM Spectrum LSF中監視 GPU 資源。 - 提交和監視 GPU 作業
了解如何在 IBM Spectrum LSF中提交和監視使用 GPU 資源的作業。 - 舊的-使用 ELIM 的 GPU 功能
了解如何手動使用舊的 ELIM 來使用 IBM Spectrum LSF中的 GPU 功能。
使用 LSF 配置容器
針對容器配置和使用 LSF 集成。
容器是基于 Linux 控制組 (cgroups) 和名稱空間的輕量級操作系統級別虛擬化。 容器高效運行,并根據預定義的映像啟動。 您可以打包應用程序并將其作為容器映像發布。 容器是可移植的,可以在任何映像的任何 Linux 發行版上運行。 LSF 支持 Docker,奇異性和 Shifter 容器運行時。
與 LSF GPU 調度配合使用時, LSF 可以使用 nvidia-docker 運行時使分配的 GPU 在容器中工作以實現應用程序加速。 LSF 為作業啟動基于作業的容器,并且該容器的生命周期與作業的生命周期相同。 對于并行作業, LSF 將為作業啟動一組容器。 作業完成后, LSF 將銷毀所有容器。
LSF 在應用程序概要文件中配置容器運行時控件。 LSF 管理員負責在應用程序概要文件中配置容器運行時,最終用戶無需考慮將哪些容器用于其作業。 最終用戶將其作業提交到應用程序概要文件, LSF 會自動管理容器運行時控件。
- IBM Spectrum LSF with Docker
配置并使用 LSF 以根據需要在 Docker 容器中運行作業。 LSF 管理在容器中作為公共作業運行的作業的整個生命周期。 - IBM Spectrum LSF with Shifter
配置并使用 LSF 根據需要在 Shifter 容器中運行作業。 LSF 管理在容器中作為公共作業運行的作業的整個生命周期。 - 具有奇異性的IBM Spectrum LSF
配置并使用 LSF 以根據需要在奇異性容器中運行作業。 LSF 管理在容器中作為公共作業運行的作業的整個生命周期。 - 帶有 Podman的IBM Spectrum LSF
配置并使用 LSF 以根據需要在 Pod Manager (podman) OCI 容器中運行作業。 LSF 管理在容器中作為公共作業運行的作業的整個生命周期。 - IBM Spectrum LSF with Enroot
配置并使用 LSF 以根據需要在 Enroot 容器中運行作業。 LSF 管理在容器中作為公共作業運行的作業的整個生命周期。
管理 IBM Spectrum LSF 高吞吐量工作負載
了解如何在 LSF 集群中提交,監視和控制高吞吐量工作負載。 配置支持高效排隊,分派和執行短時間運行的作業的調度策略。
- 作業包
使用 LSF 作業包來加速大量作業的提交。 通過作業包,您可以通過提交包含多個作業請求的單個文件來提交作業。 - 作業數組
作業數組是具有相同可執行文件和資源需求但不同輸入文件的作業組。 可以將作業數組作為單個單元或作為單個作業或作業組進行提交,控制和監視。 - 公平共享調度
公平共享調度在用戶和隊列之間劃分 LSF 集群的處理能力,以提供對資源的公平訪問權,從而使任何用戶或隊列都無法壟斷集群的資源,并且不會使任何隊列處于饑餓狀態。 - 有保證的資源池
有保證的資源池為一組用戶或其他使用者提供最低限度的資源保證。 - 保留內存和許可證資源
使用 LSF 為高吞吐量工作負載保留內存和許可證資源。
管理 IBM Spectrum LSF 并行工作負載
了解如何在 LSF 集群中提交,監視和控制并行工作負載。 配置用于保留資源的調度策略,以支持高效執行大型并行作業。
- 運行并行作業
LSF 提供了并行編程包的通用接口,以便可以通過編寫 shell 腳本或包裝程序來支持任何并行包。 - 提前預留
提前預留可確保在指定時間內訪問特定主機或插槽。 在提前預留處于活動狀態的時間內,只有與預留關聯的用戶或組才有權在預留的主機或插槽上啟動新作業。 - 公平共享調度
公平共享調度在用戶和隊列之間劃分 LSF 集群的處理能力,以提供對資源的公平訪問權,從而使任何用戶或隊列都無法壟斷集群的資源,并且不會使任何隊列處于饑餓狀態。 - 作業檢查點并重新啟動
通過作業檢查點優化資源使用情況,然后重新啟動以停止作業,然后從作業停止的位置重新啟動作業。 - 可檢查點和可重新運行的作業的作業遷移
使用作業遷移將可檢查點和可重新運行的作業從一個主機移至另一個主機。 作業遷移使用作業檢查點并重新啟動,以便已遷移的可檢查點作業從作業在原始主機上停止的位置在新主機上重新啟動。 - 可處理作業
可處理作業可以使用隨時可用的任務數,并且可以在作業運行時通過請求額外任務 (如果需要) 或釋放不再需要的任務來增大或縮小任務數。