管理 IBM Spectrum LSF
了解如何管理 IBM? Spectrum LSF 集群,控制守護(hù)程序,更改集群配置以及使用主機(jī)和隊(duì)列。 管理 LSF 作業(yè)和作業(yè)調(diào)度策略。 查看作業(yè)信息和控制作業(yè)。 了解如何配置資源并將其分配給 LSF 作業(yè)。 了解如何在 LSF 集群中提交,監(jiān)視和控制高吞吐量和并行工作負(fù)載。 了解 LSF 錯(cuò)誤和事件日志記錄以及 LSF 如何處理作業(yè)異常。 調(diào)整 LSF 集群的性能和可伸縮性。
IBM Spectrum LSF 集群管理要點(diǎn)
了解如何管理 LSF 集群,控制守護(hù)程序,更改集群配置以及使用主機(jī),隊(duì)列和用戶。
- 使用集群
了解 LSF 目錄和文件,用于查看集群信息的命令,控制工作負(fù)載守護(hù)程序以及如何配置集群。 - 使用主機(jī)
檢查集群中主機(jī)的狀態(tài),查看有關(guān)主機(jī)的信息,控制主機(jī)。 在集群中添加和除去主機(jī)。 - 作業(yè)目錄和數(shù)據(jù)
作業(yè)將臨時(shí)目錄用于工作文件和臨時(shí)輸出。 缺省情況下, IBM Spectrum LSF 使用缺省操作系統(tǒng)臨時(shí)目錄。 使用 LSF 當(dāng)前工作目錄 (CWD) 功能部件可根據(jù)配置參數(shù)以及路徑中包含的任何動(dòng)態(tài)模式來(lái)動(dòng)態(tài)創(chuàng)建和管理作業(yè) CWD。 使用靈活的作業(yè)輸出目錄來(lái)根據(jù)配置參數(shù)動(dòng)態(tài)創(chuàng)建和管理作業(yè)輸出目錄。 - 作業(yè)通知
缺省情況下,當(dāng)批處理作業(yè)完成或退出時(shí), LSF 會(huì)通過(guò)電子郵件向提交用戶帳戶發(fā)送作業(yè)報(bào)告。
監(jiān)視 IBM Spectrum LSF 集群操作和運(yùn)行狀況
了解如何監(jiān)視集群性能,作業(yè)資源使用情況以及有關(guān)隊(duì)列,作業(yè)和用戶的其他信息。
- 監(jiān)視集群性能
使用 badmin perfmon 來(lái)監(jiān)視集群性能。 使用 badmin diagnose 對(duì)集群?jiǎn)栴}進(jìn)行故障診斷。 - 監(jiān)視作業(yè)信息
使用 bjobs 和 bhist 來(lái)監(jiān)視作業(yè)和作業(yè)陣列的當(dāng)前和過(guò)去狀態(tài)。 bjdepinfo 命令顯示作業(yè)具有的任何依賴關(guān)系,這些依賴關(guān)系可以是依賴于作業(yè)的作業(yè),也可以是依賴于作業(yè)的作業(yè)。 使用 bhosts -l 和 bqueues -l查看暫掛條件。 運(yùn)行 bjobs -lp 以查看暫掛作業(yè)的原因。 運(yùn)行 bjobs -l 以查看控制何時(shí)恢復(fù)作業(yè)的調(diào)度閾值。 - 使用外部腳本監(jiān)視應(yīng)用程序
使用看守程序功能來(lái)定期運(yùn)行外部腳本,以檢查應(yīng)用程序信息并將作業(yè)信息作為通知傳遞。 - 查看有關(guān)資源的信息
使用 bhosts 命令可查看有關(guān)主機(jī)上的共享資源和主機(jī)上的裝入的信息。 使用 bjobs 命令可查看作業(yè)資源使用情況。 使用 lsinfo 命令可查看總體集群資源,使用 lshosts 命令可查看基于主機(jī)的資源和按資源劃分的主機(jī)負(fù)載。 - 查看用戶和用戶組信息
使用 busers 和 bugroup 命令可顯示有關(guān) LSF 用戶和用戶組的信息。 - 查看隊(duì)列信息
bqueues 命令顯示有關(guān)隊(duì)列的信息。 bqueues -l 選項(xiàng)還提供有關(guān)特定隊(duì)列中的作業(yè)的當(dāng)前統(tǒng)計(jì)信息,例如隊(duì)列中的作業(yè)總數(shù),正在運(yùn)行的作業(yè)數(shù)和已暫掛的作業(yè)數(shù)。
管理 IBM Spectrum LSF 作業(yè)執(zhí)行
了解如何管理 LSF 作業(yè)和作業(yè)調(diào)度策略。 查看作業(yè)信息,控制作業(yè)以及管理作業(yè)依賴關(guān)系,作業(yè)優(yōu)先級(jí),作業(yè)數(shù)組,交互式作業(yè),作業(yè)執(zhí)行前和執(zhí)行后以及作業(yè)啟動(dòng)者。
- 管理作業(yè)執(zhí)行
了解 LSF 作業(yè)狀態(tài),如何查看有關(guān)作業(yè)的信息,以及通過(guò)暫掛,恢復(fù),停止和發(fā)送信號(hào)來(lái)控制作業(yè)執(zhí)行。 - 作業(yè)文件假脫機(jī)
LSF 通過(guò)創(chuàng)建用于緩沖作業(yè)輸入和輸出的目錄和文件來(lái)啟用作業(yè)輸入,輸出和命令文件的假脫機(jī)。 當(dāng)作業(yè)完成時(shí), LSF 將除去這些文件。 - 作業(yè)數(shù)據(jù)管理
LSF 提供了不同的選項(xiàng)來(lái)管理作業(yè)數(shù)據(jù)。 - 作業(yè)調(diào)度和分派
了解如何調(diào)度作業(yè)并將其分派給主機(jī)以供執(zhí)行。 - 控制作業(yè)執(zhí)行
使用資源使用限制來(lái)控制運(yùn)行作業(yè)可耗用的資源量。 根據(jù)執(zhí)行主機(jī)上的裝入條件自動(dòng)暫掛作業(yè)。 在作業(yè)完成之前和之后,使用執(zhí)行前和執(zhí)行后處理在執(zhí)行主機(jī)上運(yùn)行命令。 使用作業(yè)啟動(dòng)程序?yàn)樽鳂I(yè)設(shè)置運(yùn)行時(shí)環(huán)境。 作業(yè)提交和執(zhí)行控件使用特定于站點(diǎn)的外部可執(zhí)行文件來(lái)驗(yàn)證,修改和拒絕作業(yè),傳輸數(shù)據(jù)以及修改作業(yè)執(zhí)行環(huán)境。 - 交互式作業(yè)和遠(yuǎn)程任務(wù)
使用 bsub -I, bsub -Is和 bsub -Ip 命令運(yùn)行交互式作業(yè),以利用資源密集型作業(yè)的批處理調(diào)度策略和主機(jī)選擇功能。 使用非批處理實(shí)用程序 (例如 lsrun 和 lsgrun) 以交互方式遠(yuǎn)程運(yùn)行任務(wù)。
配置和共享 IBM Spectrum LSF 作業(yè)資源
了解如何配置資源并將其分配給 LSF 作業(yè)。 在用戶和項(xiàng)目之間公平共享計(jì)算資源。 將資源分配限制應(yīng)用于作業(yè),管理主機(jī)和用戶組,保留資源以及指定作業(yè)的資源需求。
- 關(guān)于 LSF 資源
LSF 系統(tǒng)使用內(nèi)置和配置的資源來(lái)跟蹤作業(yè)資源需求,并根據(jù)各個(gè)主機(jī)上的可用資源來(lái)調(diào)度作業(yè)。 - 在 LSF 中表示作業(yè)資源
了解如何在 LSF中表示作業(yè)資源。 - 基于計(jì)劃的調(diào)度和預(yù)留
基于計(jì)劃的調(diào)度極大地改進(jìn)了 LSF中的原始調(diào)度和預(yù)留功能。 調(diào)度程序可以在不久的將來(lái)規(guī)劃作業(yè)布置,而不是僅查看當(dāng)前資源可用性。 然后,將根據(jù)這些計(jì)劃的分配進(jìn)行預(yù)留。 基于計(jì)劃的調(diào)度旨在替代舊的 LSF 預(yù)留策略。 啟用 ALLOCATION_PLANNER 時(shí),將忽略與舊預(yù)留功能部件相關(guān)的參數(shù)。 - 將作業(yè)資源分發(fā)給 LSF 中的用戶
了解用戶如何通過(guò) LSF共享作業(yè)資源。 - 全局資源
全局資源是在所有已連接集群之間共享的資源。
GPU 資源
了解如何為 LSF 作業(yè)配置和使用 GPU 資源。
NVIDIA GPU 資源在 x64 和 IBM Power LE (Little Endian) 平臺(tái)上受支持。
AMD GPU 資源在 x64 平臺(tái)上受支持。
- 啟用 GPU 功能部件
了解如何在 IBM Spectrum LSF中啟用 GPU 功能部件。 - 監(jiān)視 GPU 資源
了解如何在 IBM Spectrum LSF中監(jiān)視 GPU 資源。 - 提交和監(jiān)視 GPU 作業(yè)
了解如何在 IBM Spectrum LSF中提交和監(jiān)視使用 GPU 資源的作業(yè)。 - 舊的-使用 ELIM 的 GPU 功能
了解如何手動(dòng)使用舊的 ELIM 來(lái)使用 IBM Spectrum LSF中的 GPU 功能。
使用 LSF 配置容器
針對(duì)容器配置和使用 LSF 集成。
容器是基于 Linux 控制組 (cgroups) 和名稱空間的輕量級(jí)操作系統(tǒng)級(jí)別虛擬化。 容器高效運(yùn)行,并根據(jù)預(yù)定義的映像啟動(dòng)。 您可以打包應(yīng)用程序并將其作為容器映像發(fā)布。 容器是可移植的,可以在任何映像的任何 Linux 發(fā)行版上運(yùn)行。 LSF 支持 Docker,奇異性和 Shifter 容器運(yùn)行時(shí)。
與 LSF GPU 調(diào)度配合使用時(shí), LSF 可以使用 nvidia-docker 運(yùn)行時(shí)使分配的 GPU 在容器中工作以實(shí)現(xiàn)應(yīng)用程序加速。 LSF 為作業(yè)啟動(dòng)基于作業(yè)的容器,并且該容器的生命周期與作業(yè)的生命周期相同。 對(duì)于并行作業(yè), LSF 將為作業(yè)啟動(dòng)一組容器。 作業(yè)完成后, LSF 將銷毀所有容器。
LSF 在應(yīng)用程序概要文件中配置容器運(yùn)行時(shí)控件。 LSF 管理員負(fù)責(zé)在應(yīng)用程序概要文件中配置容器運(yùn)行時(shí),最終用戶無(wú)需考慮將哪些容器用于其作業(yè)。 最終用戶將其作業(yè)提交到應(yīng)用程序概要文件, LSF 會(huì)自動(dòng)管理容器運(yùn)行時(shí)控件。
- IBM Spectrum LSF with Docker
配置并使用 LSF 以根據(jù)需要在 Docker 容器中運(yùn)行作業(yè)。 LSF 管理在容器中作為公共作業(yè)運(yùn)行的作業(yè)的整個(gè)生命周期。 - IBM Spectrum LSF with Shifter
配置并使用 LSF 根據(jù)需要在 Shifter 容器中運(yùn)行作業(yè)。 LSF 管理在容器中作為公共作業(yè)運(yùn)行的作業(yè)的整個(gè)生命周期。 - 具有奇異性的IBM Spectrum LSF
配置并使用 LSF 以根據(jù)需要在奇異性容器中運(yùn)行作業(yè)。 LSF 管理在容器中作為公共作業(yè)運(yùn)行的作業(yè)的整個(gè)生命周期。 - 帶有 Podman的IBM Spectrum LSF
配置并使用 LSF 以根據(jù)需要在 Pod Manager (podman) OCI 容器中運(yùn)行作業(yè)。 LSF 管理在容器中作為公共作業(yè)運(yùn)行的作業(yè)的整個(gè)生命周期。 - IBM Spectrum LSF with Enroot
配置并使用 LSF 以根據(jù)需要在 Enroot 容器中運(yùn)行作業(yè)。 LSF 管理在容器中作為公共作業(yè)運(yùn)行的作業(yè)的整個(gè)生命周期。
管理 IBM Spectrum LSF 高吞吐量工作負(fù)載
了解如何在 LSF 集群中提交,監(jiān)視和控制高吞吐量工作負(fù)載。 配置支持高效排隊(duì),分派和執(zhí)行短時(shí)間運(yùn)行的作業(yè)的調(diào)度策略。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-649339.html
- 作業(yè)包
使用 LSF 作業(yè)包來(lái)加速大量作業(yè)的提交。 通過(guò)作業(yè)包,您可以通過(guò)提交包含多個(gè)作業(yè)請(qǐng)求的單個(gè)文件來(lái)提交作業(yè)。 - 作業(yè)數(shù)組
作業(yè)數(shù)組是具有相同可執(zhí)行文件和資源需求但不同輸入文件的作業(yè)組。 可以將作業(yè)數(shù)組作為單個(gè)單元或作為單個(gè)作業(yè)或作業(yè)組進(jìn)行提交,控制和監(jiān)視。 - 公平共享調(diào)度
公平共享調(diào)度在用戶和隊(duì)列之間劃分 LSF 集群的處理能力,以提供對(duì)資源的公平訪問(wèn)權(quán),從而使任何用戶或隊(duì)列都無(wú)法壟斷集群的資源,并且不會(huì)使任何隊(duì)列處于饑餓狀態(tài)。 - 有保證的資源池
有保證的資源池為一組用戶或其他使用者提供最低限度的資源保證。 - 保留內(nèi)存和許可證資源
使用 LSF 為高吞吐量工作負(fù)載保留內(nèi)存和許可證資源。
管理 IBM Spectrum LSF 并行工作負(fù)載
了解如何在 LSF 集群中提交,監(jiān)視和控制并行工作負(fù)載。 配置用于保留資源的調(diào)度策略,以支持高效執(zhí)行大型并行作業(yè)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-649339.html
- 運(yùn)行并行作業(yè)
LSF 提供了并行編程包的通用接口,以便可以通過(guò)編寫 shell 腳本或包裝程序來(lái)支持任何并行包。 - 提前預(yù)留
提前預(yù)留可確保在指定時(shí)間內(nèi)訪問(wèn)特定主機(jī)或插槽。 在提前預(yù)留處于活動(dòng)狀態(tài)的時(shí)間內(nèi),只有與預(yù)留關(guān)聯(lián)的用戶或組才有權(quán)在預(yù)留的主機(jī)或插槽上啟動(dòng)新作業(yè)。 - 公平共享調(diào)度
公平共享調(diào)度在用戶和隊(duì)列之間劃分 LSF 集群的處理能力,以提供對(duì)資源的公平訪問(wèn)權(quán),從而使任何用戶或隊(duì)列都無(wú)法壟斷集群的資源,并且不會(huì)使任何隊(duì)列處于饑餓狀態(tài)。 - 作業(yè)檢查點(diǎn)并重新啟動(dòng)
通過(guò)作業(yè)檢查點(diǎn)優(yōu)化資源使用情況,然后重新啟動(dòng)以停止作業(yè),然后從作業(yè)停止的位置重新啟動(dòng)作業(yè)。 - 可檢查點(diǎn)和可重新運(yùn)行的作業(yè)的作業(yè)遷移
使用作業(yè)遷移將可檢查點(diǎn)和可重新運(yùn)行的作業(yè)從一個(gè)主機(jī)移至另一個(gè)主機(jī)。 作業(yè)遷移使用作業(yè)檢查點(diǎn)并重新啟動(dòng),以便已遷移的可檢查點(diǎn)作業(yè)從作業(yè)在原始主機(jī)上停止的位置在新主機(jī)上重新啟動(dòng)。 - 可處理作業(yè)
可處理作業(yè)可以使用隨時(shí)可用的任務(wù)數(shù),并且可以在作業(yè)運(yùn)行時(shí)通過(guò)請(qǐng)求額外任務(wù) (如果需要) 或釋放不再需要的任務(wù)來(lái)增大或縮小任務(wù)數(shù)。
到了這里,關(guān)于管理 IBM Spectrum LSF的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!