?
Разработка подсистемы анализа эффективности использования вычислительных ресурсов для системы HPC TaskMaster
Обнаружение неэффективных задач на суперкомпьютере является одной из наиболее актуальных проблем в суперкомпьютерной отрасли, так как такие задачи могут блокировать ценные вычислительные ресурсы и приводить к общему замедлению работы всех пользователей. Существует множество критериев, по которым можно определить, что задача работает неэффективно – самым простым из них является сравнение средних показателей использования выделенных ресурсов с эталонным значением, которое считается границей определения эффективности задачи. Однако, такие критерии помогают отследить только самые простые примеры неэффективных задач. В данной статье предлагаются новые способы определения неэффективных задач, имплементированные в систему мониторинга эффективности задач HPC TaskMaster НИУ ВШЭ. Данные способы позволяют отслеживать запуск непараллельных программ, обнаруживать разбалансировку вычислительных ресурсов, а также определять задачи, создающие простои части выделенных им вычислительных ресурсов.