Rambler's Top100
 
Статьи
05 июня 2017

ЦОД под проактивным управлением

Реализовать проактивный подход к управлению дата-центром, т.е. предупреждать возникновение ошибок и аварийных ситуаций, дают возможность решения на основе анализа Big Data, считает Андрей Крюков, системный инженер подразделения IT Division компании Schneider Electric. Одно из таких решений – платформа EcoStruxure.

Андрей КРЮКОВ

– Андрей, эксплуатация современного ЦОДа – это непрерывный процесс сбора информации о состоянии всех систем и корректировка их работы. Каковы подходы к управлению таким объектом?

– С точки зрения автоматизации процессов можно выделить два подхода – реактивный и проактивный.

Реактивный подход близок к управлению в ручном режиме и заключается в реагировании на аварии или внезапно возросшие требования по нагрузке. Задача аппаратного (для физического сбора и преобразования информации) и программного (для записи информации в архив) комплексов состоит в отображении текущих данных и предоставлении «сырой» информации для принятия решения.

Типичные сценарии реактивного управления ЦОДом могут быть такими: скажем, во время ремонта одного из кондиционеров из-за перегрева вышла из строя система хранения данных. Часть СХД успели выключить и перенести в зону охлаждения, где остановка одного кондиционера не приводит к критическому перегреву. Или, например, у серверов возросло энергопотребление из-за изменившихся задач (ИБП нагружали по текущей потребляемой мощности, не учитывая максимально возможную). ИБП ушел в байпас по перегрузке. Серверы переключили на другую линию питания. Или, допустим, для бизнес-задачи установили новый сервер. Система мониторинга выявила возросшее энергопотребление и нагрузку на кондиционер, в результате чего сервер включили в другую PDU или переставили в другую стойку, в зону работы другого, менее загруженного кондиционера.

Трудность здесь в том, что объем данных для анализа и контроля ЦОДа и сложные взаимосвязи между ними (мониторинг, виртуальные процессы, жизненный цикл оборудования, изменяющиеся требования внутреннего и внешних (в случае colocation) заказчиков) давно превысили возможности эффективного ручного управления.

– Как изменит ситуацию проактивный подход?

– Особенность проактивного подхода к управлению ЦОДом заключается в том, что любые возможные аварии и ошибки предсказываются на основе полученных ранее данных и учета всех ресурсов ЦОДа; при замене оборудования изменения в работе ЦОДа тестируются виртуально, а план управления и развития разрабатывается с заранее просчитанными управляемыми рисками. Проработка возможных последствий принятых решений позволяет снизить общее время простоев и длительность каждого из них за счет сокращения времени обслуживания и реакции, адекватной проблеме. Большое количество данных, собираемых в ходе эксплуатации ЦОДа, дает службе эксплуатации представление обо всех событиях, которые могут наступить в дата-центре.

И типичные сценарии проактивного управления уже совсем другие. Например, запланировали новую нагрузку на серверы, т.е. смоделировали изменение температуры в стойках и нагрузку на ИБП и разместили серверы с учетом этой информации. Или запланировали обслуживание кондиционера – смоделировали температуру в ЦОДе при выключенном кондиционере. Если выключение кондиционера не вызывает перегрева, выполнили работы сразу, в противном случае перенесли их на ночное время, когда работа серверов в зоне охлаждения этого кондиционера не требуется.Проактивный подход позволяет на основе полученных ранее данных и учета всех ресурсов ЦОДа моделировать отказы, изменения, возможные ошибки и аварии до того, как они случатся – на стадии планирования, что снижает влияние человеческого фактора. Прогнозирование дает возможность разработать, внедрить и виртуально отрепетировать регламенты там, где человеческое вмешательство необходимо (физические работы в ЦОДе). Таким образом, сегодня можно предсказать появление ошибок и уменьшить время реакции на те из них, которые нельзя устранить на этапе планирования (непредсказуемые или гарантированные ошибки, вроде unplanned downtime).

В рамках современных представлений проактивное управление ЦОДом – непрерывный процесс (рис. 1). Красным на рисунке отмечены стадии, на которых подключаются машинные ресурсы обработки информации для принятия управленческих решений.

Для успешного управления типовым современным ЦОДом на 50 стоек необходимо анализировать до 10 тыс. параметров его состояния, не считая параметров активной ИT-инфраструктуры в стойках. Система мониторинга, обеспечивающая сбор всей этой информации, охватывает все активные устройства: ИБП, кондиционеры, щиты распределения питания, PDU в стойках, камеры видеонаблюдения, датчики контроля параметров инженерной инфраструктуры и соответствующие контроллеры. Собирается информация состояния серверов, СХД, коммутаторов. Мониторинг как сервис для управления и принятия решений можно рассматривать как реализацию концепции IIoT (промышленный интернет вещей) в ЦОДе.

– При обработке таких объемов информации, по всей видимости, не обходится без методов Big Data?

– Конечно. Причем возможности Big Data позволяют учитывать не только прямую информацию о работе инженерных устройств (рабочие характеристики кондиционеров, ИБП, ДГУ, панелей распределения, датчиков и контроллеров среды ЦОДа; данные BMS здания, вышестоящих устройств распределения энергии вплоть до среднего напряжения, включая умную сеть SmartGrid), но и информацию о работе серверов и виртуальных процессов, систем хранения данных, сетевых коммутаторов, систем SDN. В расчет принимается и косвенная информация – о рабочих сменах, времени года, отпусках, графиках дежурств, индивидуальных показателях обслуживающего персонала, посетителях ЦОДа, сроках замены компонентов и плановых работах (батареи ИБП, вентиляторы серверов, диски СХД, пылевые фильтры кондиционеров, чистка внешних блоков кондиционеров), открытых дверях, работах разгрузочной техники.

Распространенный сейчас подход к работе ЦОДа регламентирует температуру и влажность воздуха, напряжение на выходе ИБП и необходимый запас батарей для перехода на ДГУ. Вмешательства в работу ЦОДа не требуется до наступления аварийной ситуации или заказа на изменение инфраструктуры, например, расширения мощностей ИБП, покупки дополнительных серверов или замены старых на новые.

Сочетание некоторых некритичных самих по себе событий в ЦОДе может вызвать аварию, причины которой без машинного анализа установить сложно. При традиционном подходе к управлению дата-центром такие аварии сочли бы случайными и непредсказуемыми. Подход с использованием Big Data позволяет выявить большую часть рисков, которые могут возникнуть, до того, как событие произойдет, и учесть сложные взаимные влияния (например, внеплановое обслуживание критической инфраструктуры в праздничный день сменой, вышедшей из отпуска).

– И именно для таких задач предназначена платформа EcoStruxure?

– Да, облачный сервис в составе решения EcoStruxure выявляет взаимосвязи в массиве собираемой в ЦОДе информации.

Эта платформа объединяет в единую экосистему пять важнейших областей специализации Schneider Electric: управление электропитанием, технологическими процессами и оборудованием, ИТ-средой, инфраструктурой зданий и системами обеспечения безопасности.

EcoStruxure в ЦОДе содержит три уровня. Нижний – устройства с сетевыми интерфейсами, предоставляющие информацию для управления и последующего анализа. Средний уровень – комплексы DCIM (Data Center Infrastructure Management) и Edge Control, которые позволяют управлять оборудованием внутри и вне ЦОДа и осуществлять мониторинг в реальном времени на основе локальных систем, параллельно обрабатывая инциденты и передавая всю необходимую информацию о них пользователю.

Верхний уровень формируется облачными сервисами, анализирующими информацию от одного или нескольких ЦОДов и незамедлительно отправляющими ее заказчику на мобильные устройства. Полученная аналитика позволит принимать оперативные решения по управлению ЦОДом и долгосрочные решения в рамках концепции управления жизненным циклом (DCLS, Data Center Lifecycle Services).

В облачную платформу Schneider Electric собранные данные поступают в обезличенном виде и анализируются программным обеспечением и экспертами (рис. 2).

На основе этих данных моделируются ситуации, показывающие, как требуемые изменения параметров дата-центра, например плановая замена серверов, соотносятся с событиями, на которые повлиять нельзя: с температурой окружающей среды, временем года, непрерывностью работы серверов. На основе моделирования строится прогноз, и если он не устраивает эксплуатанта ЦОДа, прорабатывается сценарий с наиболее благоприятным исходом. Только после этого на объекте выполняются реальные работы.

– Какого типа инциденты позволяет предугадать анализ информации, выполняемый облачной платформой?

– Приведу два примера. В весенний период кондиционеры работают с максимальной мощностью, но авария не регистрируется. Система указывает на отклонения при сравнении с предыдущими периодами. Обнаруживается, что конденсаторные блоки требуют внеплановой чистки, без которой в летнее время система охлаждения остановится из-за перегрева.

Или же: батарейный массив ИБП стал заряжаться после полного разряда на 20% дольше. Без регистрации аварии, на основе сравнения с предыдущей статистикой система рекомендует проверку батарей. Оказывается, что одна из батарей в линейке вышла из строя или клеммы требуют внеочередной затяжки. После устранения неполадки заряд выполняется за стандартное время.

Также накопленная за время работы статистика позволяет предугадать перегревы и перегрузки при плановой замене фильтров на кондиционере или вентиляторов на ИБП и также сформировать сценарий работ с наименьшим влиянием на критическую инфраструктуру.

– А как влияет внедрение системы EcoStruxure на автоматизацию управления ЦОДом?

– За исключением отдельного модуля cooling optimize в составе модуля DataCenter Operation никак не влияет. Современный ЦОД с точки зрения физической инфраструктуры полностью автономен. Групповая работа систем охлаждения, ИБП, ДГУ, АВР, каждая из которых ориентируется на обратную связь по своим параметрам, не предполагает наличия единого центрального модуля, который позволит им работать еще более эффективно. Таким образом, непосредственно для управления сложной работой организма ЦОДа еще одной надстройки, главного «мозгового центра», не требуется. Управление виртуальными процессами в серверах (благодаря их гибкости в миграции и резервировании) на основе полученных данных и бизнес-задач дает возможность повысить энергоэффективность и утилизацию ЦОДа.

– Скажется ли использование EcoStruxure на эксплуатации ЦОДа?

– С точки зрения жизненного цикла ЦОДа, а именно подхода DCLS, эксплуатация для заказчика – самый важный этап. Эксплуатация ЦОДа с учетом аналитики сервисов EcoStruxure позволяет максимально использовать все его ресурсы и планировать его развитие. Мы можем развернуть это решение как на базе службы эксплуатации заказчика (с обучением, написанием всех регламентов, последующей поддержкой и ежегодным аудитом), так и взять на себя обслуживание ЦОДа заказчика. Для этого у Schneider Electric есть более чем 30-летний опыт управления ЦОДами, служба аудита, консалтинга и немедленного реагирования, а также собственные аналитические центры, работающие в режиме 24/7 (свыше 300 человек).

Внедрение платформы EcoStruxure позволит собирать всю статистику и предсказывать возможные аварии и ошибки, имеющие сложные случайные или неслучайные взаимосвязи, но работать над этими ошибками будет человек – не допускать изменения инфраструктуры без моделирования, прогнозировать регламентные работы, внедрение нового и списание старого оборудования.

Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!