Academic Journal

Интеграция систем управления заданиями SLURM и СУППЗ: Integration of Job Management Systems SLURM and SUPPZ

Bibliographic Details
Title: Интеграция систем управления заданиями SLURM и СУППЗ: Integration of Job Management Systems SLURM and SUPPZ
Source: Труды НИИСИ РАН. 9:29-35
Publisher Information: Federal Scientific Center Scientific Research Institute for Systems Research of the Russian Academy of Sciences, 2020.
Publication Year: 2020
Subject Terms: СУППЗ, workload manager, Intel Xeon Phi, HPC, суперкомпьютер, supercomputer, SUPPZ, Intel Knights Landing, job scheduling, планирование заданий, SLURM, система управления заданиями
Description: В статье рассматривается задача интеграции распространенной системы управления заданиями SLURM и отечественной Системы управления прохождением параллельных заданий (СУППЗ), применяемой в Межведомственном суперкомпьютерном центре РАН (МСЦ РАН). В интегрированной системе функции планирования заданий и ведения их очереди возлагаются на СУППЗ, а функции управления суперкомпьютерными ресурсами - на SLURM. Принцип интеграции состоит в следующем. Очередь SLURM постоянно поддерживается пустой, и прошедшие через очередь СУППЗ задания передаются и немедленно запускаются в окружении SLURM. В ходе исследования были выявлены различия в подходах к управлению заданиями и ресурсами в SLURM и СУППЗ. Выявленные различия были компенсированы авторами в процессе осуществления интеграции. Для предотвращения несанкционированного доступа пользователей к SLURM в обход СУППЗ авторами была разработана специальная программная подсистема контроля доступа. В результате работы была сохранена исторически сложившаяся экосистема МСЦ РАН, основу которой составляет СУППЗ, и в то же время стал доступным весь спектр возможностей управления суперкомпьютерным оборудованием, реализованный в SLURM. The paper discusses the integration problem of the widespread job management system SLURM and the domestic system called SUPPZ used at the Joint Supercomputer Center of the Russian Academy of Sciences (JSCC RAS). In the integrated system, job queue and job scheduling functions are assigned to SUPPZ, and supercomputer resource management functions are assigned to SLURM. The SLURM queue constantly maintained empty. Jobs passed through the SUPPZ queue are transferred to SLURM. In this case jobs start immediately in the SLURM environment. The study revealed differences in the approaches to managing jobs and resources in SLURM and SUPPZ. The revealed differences were compensated by the authors during the integration process. To prevent unauthorized user access to SLURM bypassing the SUPPZ, the authors developed a special software access control subsystem. As a result of the work, the historically formed JSCC RAS ecosystem based on the SUPPZ was preserved, and at the same time, the whole range of supercomputer equipment management capabilities implemented in SLURM became available.
Document Type: Article
Language: Russian
ISSN: 2225-7349
DOI: 10.25682/niisi.2019.5.0004
Accession Number: edsair.doi...........7b59e7140b70ab5fad1dbabc0dbe4ba2
Database: OpenAIRE
Description
ISSN:22257349
DOI:10.25682/niisi.2019.5.0004