Rambler's Top100
Статьи ИКС № 09 2012
Павел КОСТЮРИН  18 сентября 2012

Построение службы эксплуатации ЦОДа

Нет ЦОДа, который мог бы нормально функционировать без грамотной эксплуатации и четко спланированного регламентного обслуживания. Поэтому если вы построили свой дата-центр, то создать для него службу эксплуатации просто необходимо.

Павел КОСТЮРИН, директор департамента сервиса и аутсорсинга компании «АМДтехнологии»Организовать обслуживание и эксплуатацию ЦОДа можно двумя основными путями:

  • передать сервисное обслуживание инженерной инфраструктуры на мультисорсинг с заключением всех необходимых субподрядных договоров;
  • создать собственную команду квалифицированных технических специалистов, готовых своими силами решить большинство возникающих проблем.

На практике зачастую избирают некий средний путь, поскольку создать полноценную инженерную дежурную смену на круглосуточной основе, в состав которой будут входить специалисты по всем системам ЦОДа, весьма сложно. В результате, как правило, службы эксплуатации не только управляют всеми процессами, происходящими в ЦОДе, но и руководят работами субподрядных организаций, проводящих периодическое обслуживание инженерного оборудования, отвечая за исполнение согласованного с последними уровня SLA.

Особо хотелось бы обратить внимание на уровень квалификации персонала создаваемой службы эксплуатации. Ее сотрудники должны обладать высокой технической квалификацией, даже если в их обязанности входит только управление работами субподрядных организаций. Организуйте обучение сотрудников у производителей оборудования, в учебных центрах аутсорсинговых инжиниринговых организаций, в демозалах дилеров. Знания, которые они получат, будут полезны в любом случае и помогут им быстро справиться с той или иной нештатной ситуацией. Поэтому не пренебрегайте обучением!

Инструментарий службы эксплуатации

Для грамотной эксплуатации такого сложного объекта, как дата-центр, незаменимый инструмент – системы мониторинга и диспетчеризации, обеспечивающие получение в режиме реального времени информации о параметрах окружающей среды (влажности, температуре в серверном помещении) и состоянии инженерных систем, а также управление оборудованием. Благодаря этим системам вы имеете возможность прогнозировать сбои оборудования и существенно уменьшить время реакции на аварии.

Современные системы мониторинга могут контролировать практически все подсистемы ЦОДа: электроснабжения (ИБП, ДГУ, ВЭС), автоматического пожаротушения, климатическую систему, систему контроля доступа и т.д.

Более того, сегодня на рынке присутствуют однонаправленные и двунаправленные системы удаленного мониторинга и диагностики инженерного оборудования, предлагаемые в качестве сервисов. Такие системы, осуществляя мониторинг инженерных систем ЦОДа, обеспечивают раннее реагирование на неисправности и аварии, а двунаправленные системы – еще и управление оборудованием. При подключении к подобному сервису вам может быть предоставлено как профилактическое обслуживание, так и возможность немедленного выявления проблем и даже дистанционного их устранения:

  • инженеры сервисной системы просматривают все произошедшие события;
  • система представляет подробный отчет о причинах каждого состояния в сочетании с точным анализом последовательности аварийных состояний;
  • инженеры отслеживают долговременные тенденции в работе систем и выявляют потенциальные проблемные области;
  • при выходе значений контролируемых параметров за допустимые пределы система выполняет раннее оповещение, что позволяет проводить диагностику в реальном времени, быстро выявлять и устранять все эксплуатационные аномалии;
  • возникшую аварийную ситуацию инженер системы на специализированной круглосуточной станции наблюдения немедленно анализирует, чтобы определить необходимые меры по ликвидации аварии;
  • оператор устанавливает личный контакт с назначенным представителем заказчика и согласовывает план действий;
  • при необходимости инженер по сервису направляется на предприятие;
  • в определенных ситуациях система с санкции авторизованного пользователя сама дистанционно устраняет проблему без выезда ремонтников.

При использовании такого сервиса для одной или нескольких (а в идеале – для всех) инженерных подсистем ЦОДа остановки оборудования сократятся на порядок, его работоспособность станет намного прозрачней. Уже есть примеры успешного внедрения подобных проектов. За ними будущее!

Документация, необходимая для эффективной эксплуатации ЦОДа

Проектная/рабочая документация. Этот документ, который описывает все технические решения, реализованные в ЦОДе, обязательно должен храниться на объекте. Главное, о чем многие забывают, – актуализировать проектную документацию каждый год или в случае изменения/модернизации инженерных систем.

Журнал. Это основная форма регистрации инцидентов и действий персонала исполнителя. Для удобства можно завести два журнала: журнал регламентных работ, который содержит их список и данные о периодическом выполнении регламентного обслуживания, предусмотренного сервисным контрактом, и журнал ремонтных работ. В последнем должны фиксироваться все инциденты в инженерных подсистемах. В каждой записи должны указываться:

  • наименование инженерной подсистемы, в которой произошел инцидент;
  • дата и время обнаружения сбоя;
  • описание инцидента;
  • приоритет;
  • меры, принимаемые для устранения инцидента;
  • дата и время устранения сбоя;
  • контактные данные лица, зафиксировавшего сбой в работе инженерных подсистем.

Инструкция по действиям в нештатной ситуации. Помимо описания самих вариантов действий, на рабочих местах сотрудников службы эксплуатации обязательно должны быть прямые контактные телефоны ответственных исполнителей сервисной организации по каждой системе, а также инструкция по иерархической эскалации для случаев, когда проблему не удается решить на каком-либо уровне.

Сервис – дело индивидуальное

Своевременное регламентное обслуживание инженерного оборудования ЦОДов – это ваш шанс спать ночами спокойно, не опасаясь возникновения нештатных ситуаций (их, конечно, невозможно исключить совсем, но можно свести к минимуму).

Так как же грамотно обслуживать инженерные системы? Сколько раз в год? Что должно быть включено в регламентные работы?

Несомненно, вы должны помнить о том, что чем больше времени проходит с момента введения инженерной инфраструктуры ЦОДа в эксплуатацию, тем меньше подходят его оборудованию рекомендованные производителем сроки регламентного обслуживания. Не полагайтесь на рекомендации типа «межрядные кондиционеры InRow достаточно обслуживать один раз в полгода». Частота и состав регламентного обслуживания должны быть индивидуальными для каждого вычислительного центра. График работ напрямую зависит от состава оборудования, его возраста, нагрузки и многих других факторов (см., скажем, таблицу). Сегодня, к счастью, у владельцев ЦОДов растет понимание того, что инжиниринговые услуги должны быть кастомизированными.

Список работ определяется после аудита работоспособности и общего состояния оборудования и всех инженерных систем.

Подведем итоги

Так что же требуется для создания службы эксплуатации ЦОДа? Прежде всего четкое представление о задачах, которые должны быть поставлены перед ее сотрудниками. Это позволит правильно определить необходимый уровень квалификации персонала. Исходя из принятых решений, служба эксплуатации оснащается инструментами мониторинга и подробной документальной базой. Поскольку каждый ЦОД индивидуален, его эксплуатационная служба, как никакая иная, может и должна быть создана с учетом всех его особенностей. 
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!