Rambler's Top100
Статьи ИКС № 2 2023
Александр КОНЯЕВ  Николай ЛУКИН  21 марта 2023

Мониторинг инженерных систем ЦОДа: что, зачем и как

Цель мониторинга – оперативно выявлять неполадки в работе инженерной инфраструктуры, обеспечивая бесперебойную работу всего дата-центра. Без мониторинга невозможно предоставить требуемый современному бизнесу уровень доступности оборудования и надежности сервисов.

 
 
Центр обработки данных – это сложный технологический организм, который состоит из множества элементов и инженерных систем. Все его узлы функционируют и взаимодействуют между собой, чтобы обеспечивать бесперебойного работу серверного и телекоммуникационного оборудования. Размещая на своих площадях ИТ-инфраструктуру клиента, оператор дата-центра должен сделать максимум для того, чтобы все системы жизнеобеспечения машинного зала – кондиционирования, вентиляции, пожаротушения и т.д. − работали безупречно. Поэтому, построив высокотехнологичный объект, он должен поддерживать его в идеальном состоянии и избегать сбоев и аварий. 

Чтобы иметь уверенность в том, что все системы ЦОДа работают в штатном режиме, нужен постоянный контроль, мониторинг его инженерных систем. С помощью системы мониторинга ведется наблюдение за всеми технологическими процессами и компонентами, которые входят в состав ЦОДа, оценивается их состояние и прогнозируются нештатные ситуации. Система фиксирует любое, даже самое незначительное отклонение от нормы (например, повышение температуры в машинном зале) и сигнализирует об этом. Своевременно полученный сигнал позволяет принять меры и не допустить изменения показателей до критичных – аварийных – значений.

Когда надо задумываться о мониторинге?

Было бы ошибкой считать, что целесообразность внедрения системы мониторинга зависит от каких-либо параметров ЦОДа, например, его мощности или количества стоек. Мониторинг инженерных систем необходим любому дата-центру, и позаботиться о нем нужно еще на этапе проектирования. После запуска объекта внедрить систему будет очень сложно, по меньшей мере понадобится приостанавливать работу ЦОДа, что в принципе недопустимо. 

В систему мониторинга поступает информация от сотен объектов дата-центра: трансформаторов, счетчиков электроэнергии, ИБП и других компонентов инженерной инфраструктуры. Это большая, сложная система, и все ее элементы − датчики, котроллеры, анализаторы тока и т.п. – следует подобрать на этапе проектирования ЦОДа, спланировать их расположение, решить, по каким протоколам обмена данными они будут работать, оценить совместимость и т.д. Таким образом, один из этапов проектирования дата-центра – проектирование его системы мониторинга.
 
Центр мониторинга ЦОДа

Проектная документация

Документация по проектированию системы мониторинга должна содержать следующие разделы: 
  • список оборудования;
  • архитектура системы (схема расстановки оборудования и расположения датчиков, схема подключения контроллеров к сети и т.п.); 
  • список всех отслеживаемых параметров с заданными (нормальными) значениями;
  • пороговые значения отслеживаемых параметров (для определения предаварийных и аварийных ситуаций).
Пороговые значения определяются в первую очередь ГОСТами, опытом эксплуатации тех или иных систем, а также параметрами SLA. Например, согласно отраслевым нормативам, уровень напряжения не должен превышать 220 В ± 10%. Однако в соответствии с предоставляемыми ЦОДами IXcellerate SLA такой разброс значений недопустим: мы должны обеспечивать клиентам «чистое» напряжение в 220 В, ни на один вольт больше и ни на один вольт меньше. 

Обычно предусматриваются два вида аварийных оповещений – предупреждения об отклонении от нормы и сообщения о критическом уровне отклонения. Первая ситуация расценивается как предаварийная, вторая – как чрезвычайная. Так, снижение температуры в машинном зале на два градуса с 23℃ до 21℃ будет идентифицировано как предупреждение (предаварийная ситуация), а если температура опустится ниже 20℃ – сработает сигнал аварии, которая требует немедленной ликвидации. 

Исполнительная документация

Помимо технологического проекта следует разработать также регламенты и инструкции для персонала. В этих документах фиксируется план действий на случай отклонения показателей от нормы. Дежурный инженер должен четко знать, что делать в случае предаварийной или аварийной ситуации, чтобы локализовать неполадки и не допустить коллапса. 

Обязательная составляющая системы мониторинга ЦОДа – это аварийные карты, которые готовятся профильными инженерами. Каждую карту заполняет отдельный специалист, поскольку план действий в случае пожара отличается от плана действий в случае протечки кондиционера. 

Объединяя технологии и регламенты, мы получаем высокоэффективный механизм управления инженерной инфраструктурой ЦОДа.

Что отслеживает система мониторинга

Мониторинг в ЦОДе охватывает важнейшие инженерные системы: 
  • электроснабжение (контролируются напряжение в ИБП, сила и частота тока, уровень топлива в баке ДГУ);
  • холодоснабжение (температура в помещениях, давление хладагента, отсутствие протечек); 
  • вентиляция и кондиционирование воздуха (температура на входе и выходе из кондиционера, скорость вращения вентиляторов);
  • пожарная сигнализация (возгорание, уровень задымления).
Мониторинг работы ДГУ

Аварии в дата-центре могут происходить не только из-за сбоев оборудования, но и по вине людей, поэтому отдельная функция системы мониторинга – обеспечение безопасности. Основная задача системы – не допустить несанкционированного доступа в помещения ЦОДа. Для этого внутри объекта устанавливаются охранные извещатели (датчики). Система показывает, через какую дверь вошел человек, фиксирует номер его идентификационной карты, отслеживает маршрут. В случае несанкционированного открытия двери или окна, разбития стекла или движения внутри помещения срабатывает тревожная сигнализация. На пульт охраны передается оповещение, дежурный по видеокамерам производит осмотр и при необходимости следует к источнику тревоги, возможно, предварительно заблокировав двери.

Принципы работы системы мониторинга

Система отслеживает, как функционирует подконтрольное оборудование, и фиксирует возникающие ошибки. Количество наблюдаемых параметров может исчисляться десятками и даже сотнями. Например, в первой очереди ЦОДа MOS5 в Южном кампусе IXcellerate установлено 16 ИБП, и для каждого из них контролируется несколько десятков параметров. 

Оборудование. Для снятия первичной информации используются датчики, которые передают полученные данные на контроллеры. Далее вся информация аккумулируется в системе и через единый интерфейс выводится на экраны в центре мониторинга ЦОДа. Дежурные инженеры отслеживают показатели круглосуточно. 
 
Датчик температуры

Детализация данных. На мониторах отражаются все важные параметры. Специалист видит картину целиком и при необходимости открывает отдельные вкладки – углубляется в детали. Например, отслеживая уровень напряжения в системе, он может просмотреть параметры по каждому вводу в отдельности. 

Частота обновления. Частоту «опросов» контролируемого оборудования можно настроить. Будет ли система снимать показания раз в секунду или раз в минуту, зависит от уровня критичности того или иного параметра. Например, в дата-центрах IXcellerate показатели температуры и напряжения отслеживаются не реже одного раза в секунду. Чем чаще поступают данные, тем лучше, поскольку скачок напряжения или температуры может произойти внезапно и пропустить его ни в коем случае нельзя.

Визуализация. Для удобства отслеживания и наглядности все контролируемые системы и их параметры визуализируются виде схем и карт. Как будут выглядеть показатели на экране, определяется заранее. Каждый дата-центр может настроить визуализацию в соответствии со своими потребностями и предпочтениями. В процессе разработки вида экранов специалисты анализируют, насколько та или иная визуальная подача информации приятна для глаз, и подбирают подходящие и интуитивно понятные варианты. Так, система автоматической пожарной сигнализации не только оповещает о задымлении, но и показывает место срабатывания датчика, чтобы дежурный сразу увидел на плане, где появилось возгорание.

Оповещения. В случае аварийных ситуаций система мониторинга выводит данные на экран (в заданном визуальном формате) и рассылает всем ответственным лицам оповещения с расшифровкой аварии (в формате SMS и e-mail). 

Сбор статистики. Все данные, поступающие в систему, агрегируются, архивируются и хранятся на отдельном сервере не менее одного года. Это дает возможность анализировать, как вела себя каждая система в определенный промежуток времени − как держался заряд на батареях, какую температуру поддерживал кондиционер, как часто происходили сбои и т.д. На основе этих данных можно скорректировать работу того или иного прибора.

Резервирование. Для сбора и хранения данных, поступающих в систему мониторинга, используется отдельное серверное и сетевое оборудование. Для организации резервирования потребуются как минимум два сервера, чтобы при выходе из строя одного из них мониторинг продолжил работать на втором. Сами мониторы в центре мониторинга также должны быть подключены к бесперебойному питанию с резервом. 

* * *

Центр обработки данных, не оснащенный системой мониторинга, не может обеспечивать уровень доступности оборудования и надежности сервисов, который требуется современному бизнесу. Помимо этого, постоянный контроль работы инфраструктуры помогает увеличить ее сохранность и срок службы за счет достижения оптимальных параметров эксплуатации и своевременной реакции на любые сбои.

Александр Коняев, главный инженер Южного кампуса, IXcellerate
Николай Лукин, руководитель направления слаботочных систем, IXcellerate
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!