Зачем нужен Сибирский национальный центр
высокопроизводительных вычислений, обработки и хранения данных — СНЦ
ВВОД? Откуда придут деньги на его создание? Как этот проект связан с
синхротроном СКИФ? С другими проектами «Академгородка 2.0»? На эти и другие вопросы отвечают ученые.
В их числе - секретарь Наблюдательного совета СНЦ
ВВОД кандидат технических наук Юрий Александрович Аникин и заместители
руководителя Координационного совета проекта: врио директора Института
вычислительной математики и математической геофизики СО РАН доктор
физико-математических наук Михаил Александрович Марченко и заместитель
директора Института вычислительных технологий СО РАН кандидат
физико-математических наук Андрей Васильевич Юрченко.
— Для чего потребовался новый Центр? Разве не хватает мощностей
недавно обновленного Сибирского суперкомпьютерного центра (ССКЦ) на
базе ИВМиМГ СО РАН?
— Да, уже не хватает. Сегодня суммарная производительность
вычислительных систем академических учреждений во всей Сибири составляет
менее 0,5 петафлопс и на долю ССКЦ приходится только 0,2 петафлопс.
Оборудование Центра загружено практически до 100 %, а существующая
очередь на вычисления в ССКЦ достигает двух месяцев и не позволяет
планировать более ресурсоемкие задачи. Заявленные потребности
пользователей одного только ССКЦ уже сейчас составляют более 1
петафлопс, а прогнозируемые на ближайшие три-четыре года, с учетом
развития компетенций пользователей и появления новых задач, — не менее
10 петафлопс.
Дополнительных мощностей для вычислений, обработки и хранения данных
потребует и реализация программы «Академгородок 2.0». Так, практически
все рабочие станции синхротрона СКИФ запланированы как настоящие фабрики
big data. При этом не будем скрывать, что у ряда проектов есть
требования к локализации работы с данными, использованию доверенных
каналов и запрет на использование коммерческих облачных ресурсов. К тому
же прогнозируются такие объемы информации, в том числе открытой, что
передавать их на известные облачные сервисы в ряде случаев придется
дольше, чем обрабатывать. Важно и то, что СНЦ ВВОД будет решать задачи
полного цикла, по всей цепочке работы с данными: обработка — хранение —
анализ — обмен — публикация.
— Решит ли эти задачи СНЦ ВВОД?
— Для этого он и создается. Проект разрабатывается объединенными
усилиями
Новосибирского государственного университета,
ИВМиМГ СО РАН и
ИВТ СО РАН, и сначала мы объединим уже существующие у нас ресурсы,
продолжив их наращивание в рамках имеющихся возможностей. В частности,
Информационно-вычислительный центр
НГУ планируется уже в этом году
дооснастить кластером из «толстых» четырехпроцессорных узлов с большим
объемом памяти, что актуально для решения, например, задач обработки и
анализа результатов секвенирования.
Основной этап проекта предусматривает к 2022 году строительство нового
здания с дата-центром и ввод ресурсов, которые выведут СНЦ ВВОД на
первые строчки в России с производительностью вычислительных систем 10
петафлопс и 150 петабайт дискового пространства. Но, что намного важнее,
— это позволит решать новые масштабные задачи по компьютерному
моделированию и анализу больших данных, которые сейчас приходится
откладывать в долгий ящик либо искать вычислительные ресурсы в Москве
или за рубежом.
На последнем этапе, который планируется завершить в 2024 году
одновременно со вводом в эксплуатацию ЦКП СКИФ, компьютерные мощности
СНЦ ВВОД должны быть доведены до уровня мирового топ-50 или даже топ-10 с
производительностью 0,1—0,2 экзафлопс и 1 экзабайт дискового
пространства. Это будет соответствовать и требованиям наших
мегасайнс-проектов и рынка строящейся цифровой экономики.
— Хватит ли для этого электроэнергии?
— На момент ввода объекта в эксплуатацию (IV квартал 2021 года) в
Центре будет установлено оборудование с энергопотреблением до 3 МВт.
Потребности второго этапа оценить сложнее, так как энергоэффективность
суперкомпьютеров (измеряемая в гигафлопсах на ватт) постоянно растет.
Исходя из энергопотребления самого мощного на данный момент
суперкомпьютера Summit, установленного в Окриджской национальной
лаборатории в США и являющегося сейчас одним из самых энергоэффективных в
мире, мы прогнозируем энергопотребление наших суперкомпьютера и
ресурсов для хранения данных в 2024 году на уровне не более 15 МВт.
Такие мощности будут доступны с вводом подстанции «Академическая-2».
Однако нашему Центру необходимо резервное электропитание, так как
оборудование должно работать непрерывно, поэтому мы рассматриваем
варианты создания собственных генерирующих мощностей. Их использование
существенно повысит экономическую эффективность проекта на стадии
эксплуатации.
— Есть ли у СНЦ ВВОД собственная концепция, либо же это просто инструмент для реализации других проектов «Академгородка 2.0»?
Юрий Аникин:
— Концепция центра — консолидация ресурсов и компетенций научных
учреждений и производственных компаний (не только проектантов
«Академгородка 2.0»). СНЦ ВВОД станет единым окном научных сервисов для
работы с данными на базе мощного комплекса оборудования, программных и
системных решений и кадров новой генерации.
Но создаваемый СНЦ ВВОД — не только единый оператор
информационно-вычислительных услуг для исследователей и инновационных
компаний (что, конечно, крайне важно), но и центр постоянно
прогрессирующих компетенций. Специалисты Академгородка высоко ценились
во всем мире именно как создатели технологий: например, компиляторов и
вычислительных архитектур. Sun, IBM, Samsung, Intel целенаправленно
приглашали уникальных специалистов, организовывали переезд за рубеж
целых коллективов, многие уехали сами. Но сегодня у нас есть все
предпосылки для восстановления этих школ.
СНЦ ВВОД должен решать и фундаментальные проблемы в своей отрасли. К
примеру, уже сегодня видится перспектива нарастающего превышения объема
генерируемых данных над возможностями их хранения: так, единичный
эксперимент на будущей Супер С-тау фабрике может генерировать поток в 10
гигабайт в секунду. Станет необходимым на высокой скорости обрабатывать
поступающую с установки информацию, чтобы выделить главное, а остальное
сжать в тысячи раз. С другой стороны, оправдана практика хранения
«сырых» данных, поскольку технологии их анализа постоянно улучшаются, и
иногда эффективнее повторно обработать сохраненные данные, чем проводить
эксперимент заново. Обоснование срока хранения первичной информации —
только одна из многих задач, которые мы будем обязаны решить.
— А откуда появятся кадры для решения столь масштабной задачи?
— В
НГУ и
ИВТ СО РАН целевым образом формируются новые лаборатории, в
том числе так называемые молодежные. В этом году коллектив из Института
ядерной физики им. Г. И. Будкера СО РАН,
ИВМиМГ и
ИВТ получил поддержку
Российского научного фонда (
РНФ) для реализации проекта по теме
«Разработка системы моделирования, обработки и хранения данных установки
класса мегасайнс “Супер С-тау фабрика”», что позволяет создать на базе
ИЯФ «малую лабораторию» в качестве задела для научного коллектива СНЦ
ВВОД.
Разработан совместный проект
ИВТ,
ИЯФ,
НГУ и
ИВМиМГ для создания
цифрового двойника СКИФа. Сейчас работа ведется в инициативном порядке,
но мы планируем участвовать с этим проектом во всех возможных конкурсах,
развивать направление в целом и привлекать на него молодежь, в том
числе в рамках созданной в
ИВТ СО РАН лаборатории цифровых двойников и
анализа больших данных. Замечу, что эти усилия направлены на создание
коллективов с новыми компетенциями, но на основе существующих научных
школ.
НГУ останется основной кузницей кадров и для нашего проекта. В
частности, он планирует развивать специализацию по суперкомпьютерным
технологиям в рамках программы «5—100», в которой он успешно участвует, в
нем вводятся новые магистерские программы и учебные курсы по анализу
больших данных, свою образовательную программу совместно с
НГУ и
институтами проводит «Вымпелком».
Конечно, мы будем работать и с другими вузами: Новосибирским
государственным техническим университетом, Сибирским государственным
университетом телекоммуникаций и информатики и прочими, которые готовят
квалифицированные инженерные кадры, необходимые для организации работы
большого уникального дата-центра.
— Как смогут управлять проектом его инициаторы, два академических института и университет?
Юрий Аникин:
— Примерно по той же схеме, по которой управляются другие проекты
«Академгородка 2.0». Создан Координационный совет СНЦ ВВОД во главе с
ректором Новосибирского госуниверситета членом-корреспондентом РАН
Михаилом Петровичем Федоруком как орган планирования и экспертизы, а
также Наблюдательный совет во главе с заместителем председателя СО РАН
директором
ИЯФ академиком Павлом Владимировичем Логачёвым. Текущая
(оперативная) работа возложена на проектный офис, сейчас он занимается в
основном подготовкой документации. В частности, готов эскизный проект
здания и проект задания на проектирование. Специалисты проектного офиса
также встречаются и консультируются с представителями организаций,
имеющих опыт создания больших центров обработки данных: «Вымпелкома»,
«Ростелекома», «КРОК» и других, готовят предварительный анализ различных
решений для дата-центров, их применимости при реализации проекта СНЦ
ВВОД.
— Сколько стоит СНЦ ВВОД и где найти ресурсы на его создание?
— Затраты делятся на три большие группы: строительство, оснащение и
персонал. В первом случае мы готовим заявку на участие в Федеральной
адресной инвестиционной программе. Стоимость строительства оценивается в
сумму около 3,5 млрд рублей. Оснащение нового здания запланировано на
2021 год на сумму около 4,5 млрд рублей. Поскольку оборудование
дешевеет, часть закупок отложены на 2024 год и будут производиться за
счет средств, выделяемых по линии двух национальных проектов: «Наука» и
«Цифровая экономика», для чего должно быть подготовлено доказательное и
конкурентоспособное обоснование. Предварительная оценка стоимости этой
стадии — 6 млрд руб.
Коллектив СНЦ ВВОД, находящийся в процессе становления, можно
поддерживать для начала за счет корректировки государственных заданий
организациям — инициаторам проекта, в частности по конкурсам молодежных
лабораторий и национальных центров мирового уровня, а также за счет
внебюджетных средств, получаемых за выполнение заказных работ и оказание
услуг. «Вымпелком» уже сейчас готов формулировать задачи на создание
вычислительных технологий. В целом же расширение круга партнеров связано
с ростом набора компетенций, причем эта зависимость имеет и обратную
положительную связь. И мы обязательно будем готовить для проекта
молодежь в университетах, и организовывать обучение по новым программам в
самом Центре. Не забудем, к слову, и про специальную подготовку в
школах Академгородка будущих абитуриентов для суперкомпьютерных
специальностей.
Подготовил Андрей Соболевский