Rambler's Top100
Все новости Новости компаний

Об инциденте с энергоснабжением дата-центра Яндекса

08 апреля 2025

Яндекс опубликовал итоги предварительного расследования инцидента, который произошёл в воскресенье, 30 марта и затронул один из дата-центров компании -  в результате аварии оказались обесточены обе линии, питающие ЦОД. Это повлияло на работу Yandex Cloud и ряда сервисов Яндекса.

Пострадавший дата-центр подключён к национальным электросетям через ближайшую опорную подстанцию 220 кВ. Питание от подстанции в ЦОД подаётся по двум независимым линиям на 110 кВ. Чтобы питать весь дата-центр, достаточно одной линии. Схема с двумя линиями страхует объект от перебоев с электричеством. 

Днем 30 марта, в 12:25, на опорной подстанции случилась авария, в результате которой оказались обесточены обе линии, питающие ЦОД. За 15-летнюю историю эксплуатации объекта такое произошло впервые. Более того, насколько известно Яндексу, авария такого масштаба — первая в истории подстанции, а она существует с 1960 года.

До 15:30, когда подача питания была восстановлена, единственным источником электроэнергии в дата-центре были дизель-генераторы. Благодаря им удалось сохранить работоспособность критических элементов инфраструктуры дата-центра, в том числе центров управления сетями и сервисов безопасности. Это позволило полностью восстановить работу объекта уже к полуночи. Если бы не альтернативные источники питания, восстановительные работы после аварии такого масштаба заняли бы несколько дней.

После выхода ЦОДа из строя нагрузка была распределена между остальными дата-центрами Яндекса. Глобального сбоя не случилось, поскольку все сервисы Яндекса функционируют по схеме «минус один ЦОД»: они сохраняют работоспособность, даже если один из дата-центров компании полностью выходит из строя.  Но, пока система перестраивалась, некоторые пользователи в течение короткого времени могли наблюдать небольшие неполадки в работе ряда сервисов Яндекса.

В дата-центре также находится ru-central1-b — одна из трех зон доступности платформы Yandex Cloud. Приложения клиентов Yandex Cloud, развернутые только в ru-central1-b, оставались недоступными все время, пока шли восстановительные работы. Приложения, развернутые сразу в нескольких зонах доступности, могли быть недоступными или работать с неполадками, пока нагрузка перераспределялась между другими дата-центрами.

События 30 марта показали, что двойной отказ питания в дата-центре — хоть и крайне редкая, но все же возможная ситуация. Яндекс произведет переоценку рисков, связанных с энергоснабжением ЦОДа, и примет меры, которые позволят минимизировать последствия подобных отказов.

Риск двойного отказа будет заложен в регламенты проведения «учений» — регулярных мероприятий, на которых команда эксплуатации ЦОДа отрабатывает действия на случай нештатных ситуаций.

В системы управления дата-центром будут внесены доработки, которые позволят ускорить его «холодный старт» — возвращение в строй после отказа питания.  

Yandex Cloud рассматривает возможность внедрить в своих модулях дополнительное резервирование, в том числе с использованием дизель-генераторов в качестве запасного источника питания. Кроме того, Yandex Cloud продолжит пополнять библиотеку архитектурных решений и развивать инструменты мультизональной отказоустойчивости. 

Источник: Яндекс

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!

Оставить свой комментарий:

Для комментирования необходимо авторизоваться!

Комментарии по материалу

Данный материал еще не комментировался.