Rambler's Top100
Статьи ИКС № 08-09 2014
Сергей МИЩУК  Кирилл ШАДСКИЙ  02 сентября 2014

Аутсорсинг или все сами?

Для коммерческого ЦОДа некорректно противопоставлять наличие собственной службы эксплуатации и полный аутсорсинг технического обслуживания оборудования – нужна гибридная модель.

Сергей МИЩУК, технический директор, DataLine  Кирилл ШАДСКИЙ, начальник службы эксплуатации ЦОД, DataLine 

Работа по эксплуатации ЦОДа состоит главным образом из проведения плановых мероприятий (диагностика, промывка внешних блоков кондиционеров, замена масла, фильтров, батарей и т.п.), реагирования на нештатные события и ремонтов.

Как показывает практика, многие задачи можно решать самим, а можно привлекать подрядчиков –пропорции этой «смеси» определяются, в первую очередь, масштабом ЦОДа. Для маленького ЦОДа собственные специалисты по всем видам оборудования (в первую очередь, по ИБП, ДГУ и холодильной технике) – недоступная роскошь. С ростом масштаба объем регулярных работ прибавляется и уровень загрузки начинает оправдывать присутствие таких людей в штате. При этом обслуживание инженерного оборудования включает в себя немало работ, которые разумно поручать только специализированным организациям. У нас в штате есть специалисты, способные обслуживать ДГУ и ремонтировать прецизионные кондиционеры, но ремонт ИБП, чиллеров или контроллеров ДГУ мы поручаем сервисным организациям. Работы с критически важным и сложным оборудованием следует возлагать на сертифицированного подрядчика, тем более что этого обычно требуют гарантийные условия.

Время реакции

При возникновении любых неполадок и аварийных ситуаций в ЦОДе должны быть специалисты, способные оказать первую помощь (руководствуясь имеющейся инструкцией или телефонной поддержкой подрядчика). Это работа первой линии поддержки, которую выполняют дежурные инженеры общего профиля. Вторая линия может быть как представлена собственной службой эксплуатации, так и организована на стороне подрядчика. «Основное лечение» в случае необходимости проведет уже обслуживающая компания (третья линия поддержки), но первые неотложные меры придется принимать самим. Любой современный SLA с подрядчиками предусматривает около четырех часов на прибытие специалиста на объект, и заметно сократить его в условиях Москвы нереально. При этом в случае проблем с ДГУ или ИБП счет может идти на минуты: время автономии на аккумуляторных батареях – порядка 20 минут. За это время в большинстве случаев можно успеть выполнить восстановительные процедуры (например, перезапустить систему), но должен быть человек, способный это сделать. Такого человека выгоднее иметь в штате, тем более что он сможет не только дежурить на объекте на случай неполадок, но и выполнять множество повседневных операций по обслуживанию: обходы, проверки, наблюдение за состоянием оборудования и первичный ремонт.

Экономия и контроль

Хотя на первый взгляд может показаться, что себестоимость обслуживания инженерных систем – сугубо внутреннее дело ЦОДа (клиенту нужна только безотказная работа и соблюдение SLA), она влияет на себестоимость сервиса и, следовательно, на конечную цену для клиента, что уже интересует всех. Практика также показывает, что деятельность подрядчиков нужно контролировать, что требует наличия в штате не просто менеджера, подписывающего акты о выполненных работах, а квалифицированного специалиста по оборудованию, который может проверить, насколько качественно выполнены работы и насколько обоснован их перечень.

Поддержание собственного склада расходных материалов и запасных частей позволяет заметно ускорить ремонтные работы, что, в свою очередь, означает повышение надежности ЦОДа.

Тестирование и учебные тревоги

Основная задача эксплуатационной службы коммерческого ЦОДа, конечно, не экономия, а обеспечение надежной работы всех систем, достигнуть чего нереально без регулярного тестирования, которое позволяет своевременно выявить медленно созревающие проблемы. С течением времени загрузка ЦОДа растет, а оборудование изнашивается, что может привести к сбою в самый неподходящий момент, если не принимать мер. Особенно важно тестирование для редко включаемых систем: в первую очередь, ДГУ. Кроме того, кондиционирование и ДГУ – две из важнейших инженерных систем ЦОДа – чувствительны к климатическим условиям. Холод, жара, ветер, снег могут порождать разнообразные проблемы, и только достаточно частое тестирование (мы тестируем ДГУ дважды в месяц) позволяет пройти весь диапазон погодных условий и избежать неприятных неожиданностей.

К процедуре тестирования дизелей логично приурочить испытания ИБП и учебные тревоги для обслуживающего персонала. Мы имитируем отключение городского электропитания и смотрим функционирование всей цепочки: как включаются ДГУ, как отрабатывают ИБП, как сотрудники выполняют аварийные регламенты. О предстоящей «аварии» заранее предупреждаются только клиенты и сервис-менеджеры; дежурные инженеры зачастую узнают о случившемся только от системы мониторинга. Аналогично, в условиях, приближенных к боевым, проводятся учения на системе газового пожаротушения. Любые регламентные работы по обслуживанию оборудования – отличный повод для учебной тревоги. Таким образом мы проверяем не только исправность оборудования, но и готовность организации к работе в нештатных ситуациях.

Абсолютно надежного оборудования не бывает, все рано или поздно ломается, но своевременное обслуживание, регулярные проверки и хорошо организованная техническая поддержка в совокупности с грамотным проектом и достаточным уровнем резервирования позволяют добиться высокой отказоустойчивости ЦОДа.

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!