Rambler's Top100
Статьи ИКС № 05-06 2015
Петр РОНЖИН  Василий КАЗАКОВ  01 июня 2015

Система управления эксплуатацией: залог надежности ЦОДа

Нельзя построить ЦОД, запустить в работу инженерные системы и думать, что дальнейшая эксплуатация наладится сама собой. Если к этому моменту у вас не будет стройной системы управления эксплуатацией, велика вероятность, что негативные явления не заставят себя ждать.

Петр РОНЖИН, эксперт по инженерным системам 
Василий КАЗАКОВ, инженер, Huawei 

В предыдущей статье *, в которой речь шла о надежности ЦОДа, особое внимание было уделено правильной эксплуатации.

Когда нужно начинать думать об эксплуатации ЦОДа? Надеемся, что большинство читателей этой статьи ответит верно – с технического задания на создание ЦОДа. Именно заказчик, он же пользователь, первым должен задумываться об эксплуатации и закладывать соответствующие требования в техзадание. Для этого обычно привлекаются либо собственная служба эксплуатации, если объект данного типа у заказчика не первый и есть реальный опыт эксплуатации, либо внешние консультанты. Можно пойти и третьим путем, довериться генподрядчику, который, основываясь на своем опыте, разработает технические и эксплуатационные решения и воплотит их в жизнь, после чего примет объект в эксплуатацию. К сожалению, в России еще мало организаций, обладающих таким опытом, чтобы наряду с проектной документацией разработать алгоритмы и регламенты системы эксплуатации.

Начинаем с проектирования

При проектировании ЦОДа следует руководствоваться принципами эргономичности: простотой, удобством и безопасностью, а также ориентирован­ностью на человека.

Простота. В данном случае простота – это понимание системы обслуживающим персоналом, исключающее допущение ошибок.

Удобство и безопасность. Речь идет о возможности для человека любой комплекции и физической формы обслуживать систему без травм и других критических последствий. Например, недавно в одной профессиональной соцсети было выложено фото, демонстрирующее тепловой пункт, аккуратно смонтированный и вписанный в габариты очень маленького помещения. Надо отдать должное изобретательности проектировщика, который «развязал» все трубы в таком малом объеме. Еще большее уважение вызвала работа монтажников. Одно большое «но» – чтобы при ремонте или техническом обслуживании этого теплового пункта добраться до потаенных уголков, придется чуть ли не полностью разобрать его самого или стену помещения.

Ориентированность на человека. На всех этапах создания ЦОДа необходимо помнить, что человек – его неотъемлемая часть.

Приведем несколько примеров того, на что необходимо обращать внимание при разработке инженерной системы дата-центра.

Цветовая маркировка

Сквозная маркировка оборудования. Этот подход упрощает идентификацию оборудования как на стадии проектирования, так и при эксплуатации (и очень пригодится при сертификации документации в Uptime Institute). Также он значительно сокращает время поиска необходимого элемента и снижает риск ошибочного выбора другого элемента. К сожалению, длина сквозной маркировки зачастую превышает 10 символов, и она с трудом читается на законченном объекте. Поэтому все оборудование после монтажа целесообразно промаркировать специальными метками (например, RFID или QR), а персонал снабдить оборудованием для их считывания.

При создании единой системы маркировки в нее заносится каждый предварительно промаркированный элемент. Указывается его положение в системе, модель и производитель, наличие на складе ЗИП, а также аналоги для замены. Это позволит значительно уменьшить время локализации и устранения проблем.

Унификация оборудования. Применение типового оборудования и типовых узлов также позволяет упростить обслуживание систем ЦОДа. Во-первых, чем больше однотипного оборудования в системе, тем меньше оборудования на складе ЗИП. Во-вторых, при использовании типового оборудования проще обучить персонал качественно его обслуживать.

Ограничение размера компонентов. Следует еще на этапе проектирования ограничивать габариты оборудования. Не говоря уже о логистических преимуществах, смонтировать, обслужить и демонтировать такое оборудование смогут один-два человека за короткий промежуток времени без применения специальных механизмов.

Зонирование технологических помещений. Маркировка сильно упрощает поиск необходимого элемента, но риск ошибки все же остается. Для его минимизации применяют метод зонирования. Например, если ЦОД запитан по схеме 2N, то все электротехническое оборудование первого луча будет находиться в отдельном от оборудовании второго луча помещении. Если такое расположение невозможно, то стараются установить оборудование так, чтобы при обслуживании одного луча не повредить элементы второго. Для интуитивного различения зоны можно маркировать разными цветами. В таком случае персонал всегда будет знать: луч А – красный, луч Б – синий.

Обеспечение беспрепятственной транспортировки ЗИП. Ко всем элементам ЦОДа необходим свободный доступ. Не должно быть ситуаций, когда, скажем, для демонтажа задвижки системы холодо­снабжения нужно перелезать через те или иные коммуникации или проползать под ними. Оптимально предусмотреть такие пути транспортировки ЗИП, чтобы по ним можно было провезти оборудование с помощью какого-либо приспособления, например вилочной тележки.

Как же оценить эффективность проектных решений и на что ориентироваться для их оптимизации? Для каждой инженерной системы можно определить такой параметр, как количество человекочасов, необходимых для обслуживания. В ряде случаев можно воспользоваться руководством «Система технического обслуживания и ремонта общепромышленного оборудования: Справочник». С его помощью определяется частота планового технического обслуживания оборудования и количество людей для его проведения. Кроме того, на протяжении всего этапа реализации целесообразно сверяться с ГОСТами серии «Эргономика». Данные нормативы подробно раскрывают критерии простоты удобства и безопасности. Не стоит забывать и о таком важном для ЦОДов документе, как Tier Standard: Opera­tional Sustainability.

Определяем состав

Но все-таки конечная оценка проектных решений будет сделана на стадии эксплуатации. Уже при монтаже инженерных систем необходимо начинать выстраивать систему управления эксплуатацией. А к моменту перехода от опытной эксплуатации к производственной она должна быть окончательно сформирована.

Система управления эксплуатацией центра обработки данных состоит из нескольких связанных друг с другом больших разделов:

• управление персоналом;

• поддержание документации в актуальном состоянии;

• управление договорами;

• техническое обслуживание и ремонт;

• управление движением расходных материалов и запасных частей;

• мониторинг состояния систем и организация оперативного управления.

Персонал. Служба эксплуатации может комплектоваться как собственным персоналом, так и привлеченным из сторонних компаний, которые на аутсорсинговой основе выполняют какие-либо работы. Наем собственного персонала – непростая задача для HR-служб, так как для большинства позиций требуется достаточно высокая квалификация. Если в крупных городах среди соискателей приходится проводить конкурс, то в удаленных регионах, где в последнее время стали появляться ЦОДы, отделу кадров бывает нелегко найти хотя бы одного кандидата, отвечающего всем требованиям.

Нанятый персонал проходит обучение на рабочем месте, изучая инструкции по технике безопасного проведения работ, производственные инструкции, инструкции по эксплуатации оборудования и систем, инструкции по действиям в нештатных ситуациях. Кроме того, часть персонала обязана периодически проходить обучение на специализированных курсах и подтверждать соответствующие допуски, например, группу по электробезопасности. Также существует необходимость периодического обучения сотрудников на курсах повышения квалификации по отдельным направлениям: кондиционированию, источникам бесперебойного питания, дизель-ге­нераторным установкам и т.п.

Теоретическое обучение должно сочетаться с практическими занятиями непосредственно на инженерных системах. Дежурные инженеры обязаны знать расположение шкафов управления, автоматов, задвижек, клапанов и других элементов не только по чертежам и схемам, но и на объекте. Большую пользу приносят тренировки и учения, имитирующие те или иные аварийные ситуации и методы их ликвидации. Соответственно, руководству службы эксплуатации дата-центра приходится затрачивать много времени на разработку планов обучения и претворение их в жизнь.

Нельзя не упомянуть о том, что надлежащее выполнение персоналом своих обязанностей зависит и от таких «мелочей», как правильная организация рабочих мест, мест отдыха и приема пищи, обеспечение рабочей одеждой и средствами индивидуальной защиты.

Поскольку ЦОД является предприятием с непрерывным производственным процессом, важную роль в правильной эксплуатации играет организация рабочих смен с учетом возможных невыходов сотрудников на работу по причине болезни или отпуска.

Документация. Перечислим типы документации, без которых невозможна правильная эксплуатация дата-центра:

• проектная и исполнительная документация по всем разделам, начиная с генплана и заканчивая специальными разделами проектов;

• инструкции по эксплуатации каждой инженерной системы (например, системы охлаждения);

• инструкции по эксплуатации оборудования в инженерных системах (например, инструкция по эксплуатации кондиционера);

• паспорта на системы, оборудование;

• сертификаты;

• гарантийная документация (талоны);

• акты испытаний, поверки и т.д.;

• карты технического обслуживания оборудования, регламенты проведения работ;

• список запасных частей и расходных материалов для каждой инженерной системы;

• журналы проведения инструктажей по технике безопасности и пожарной безопасности;

• карточки учета средств индивидуальной защиты и спецодежды;

• должностные инструкции;

• инструкции по действиям в нештатных ситуациях;

• инструкции по правилам поведения в дата-центре для посетителей;

• договоры с внешними организациями (поставки топлива, аренды, уборки и т.п.).

ЦОД – «живая» система, в которой постоянно что-то модернизируется, налаживается или демонтируется. Все эти изменения должны надлежащим образом отображаться в исполнительной документации и соответствующих инструкциях.

Однако само по себе наличие полного комплекта документации не гарантирует положительного результата. Документацией надо правильно пользоваться, а система ее хранения должна обеспечивать нахождение любого необходимого для работы документа в течение минуты. Неприемлема ситуация, когда вся документация свалена без разбора в картонные коробки или заперта в дальней комнате.

Техническое обслуживание и ремонт. Важнейшая часть эксплуатации ЦОДа – поддержание всех инженерных систем в работоспособном состоянии. Эта задача решается путем проведения планового технического обслуживания оборудования и систем на основании регламентов, а также ремонта или замены оборудования, вышедшего из строя. Служба эксплуатации дата-центра своими силами или с помощью подрядчиков должна разработать регламенты технического обслуживания всех систем. В регламенты включаются сведения об оборудовании, периодичности или сроках проведения ТО, описание операций по обслуживанию, информация о необходимом инструменте, расходных материалах и запасных частях. На основании регламентов составляются перечни материалов и запчастей, которые передаются в службы закупки. Поставки комплектов расходников должны осуществляться в строго оговоренные сроки. Для быстрого восстановления работоспособности оборудования в дата-центре должен храниться комплект запчастей. Перечень ЗИП для ремонта инженерных систем обычно разрабатывается с участием поставщиков (вендоров), а также исходя из практического опыта эксплуатации и статистики выхода из строя элементов систем. Актуальная информация о ЗИП должна быть доступна ремонтным службам. Система хранения должна обеспечивать быстрый поиск необходимой детали и ее выдачу. По мере расходования комплекта ЗИП его необходимо пополнять, обеспечивая некий неснижаемый остаток (запас).

Существуют три основных подхода к техническому обслуживанию и ремонту:

• выполнение работ собственными силами;

• выполнение работ сотрудниками сторонних организаций;

• выполнение работ как собственными силами, так и сотрудниками сторонних организаций.

В большинстве российских дата-центров практикуется смешанный вариант. Это позволяет минимизировать затраты и гарантировать качество работ. Как правило, на аутсорсинг отдаются сложные работы, требующие высокой квалификации работников и специализированного инструмента.

Контракты со сторонними организациями. Сторонние организации привлекаются не только для технического обслуживания оборудования. Поставка электроэнергии и дизельного топлива, вывоз мусора, утилизация отработанных масел и технических жидкостей, уборка помещений – полный список всех договоров крупного дата-центра может содержать несколько десятков пунктов. Они имеют разную значимость для функционирования ЦОДа, но ни об одном из них не следует забывать.

Мониторинг инженерных систем дата-центра. Постоянный мониторинг существенно облегчает контроль состояния систем, позволяет быстро выявлять различные неисправности или прогнозировать их развитие. Система мониторинга – это сложная инженерная система, поэтому для нормального функционирования она требует технического обслуживания, замены неисправных элементов, обновления ПО.

Учет инцидентов. Важную информацию о реальном состоянии инженерных систем дата-центра можно получить при скрупулезном учете всех происходящих в нем инцидентов (событий). Какие данные нужны для анализа? Прежде всего – дата и точное время начала события, его продолжительность. Далее необходимо указать, в какой инженерной системе, на каком оборудовании или элементе произошел сбой или выход из строя. Должна быть описана причина возникновения инцидента. Если же назвать точную причину возникновения сбоя сразу невозможно, то в графе «причина» записывается «выход из строя по неизвестной причине», и такие случаи рассматриваются с особой тщательностью. Следующий важный параметр, который должен фиксироваться, – это степень влияния инцидента на работу ЦОДа. На наш взгляд, все события можно разбить на три группы:

• практически не влияющие на работу. Например, в подсобном помещении перегорела лампочка;

• снижающие проектную избыточность инженерных систем. Так, остановка одного насоса на техническое обслуживание или ремонт при трех оставшихся в работе не влияет на работоспособность системы холодоснабжения, но степень резервирования на время этих работ будет снижена и выход из строя еще одного насоса может привести к событию из третьей группы;

• влияющие на работу серверных, вплоть до полной остановки дата-центра. Наиболее неприятная группа событий, впрямую сказывается на доступности ЦОДа.

Анализируя данные об инцидентах, можно выявить некоторые тенденции в состоянии инженерных систем и получить статистические данные о величинах MTTR и MTBF. Всё это служит материалом для дальнейшего улучшения системы эксплуатации ЦОДа.

  

К сожалению, сегодня в России можно по пальцам пересчитать ЦОДы с хорошо отлаженной системой управления эксплуатацией. Мы попытались дать представление о том, насколько эта область сложна и интересна. Надеемся, что статья будет способствовать появлению ЦОДов, проекты которых ориентированы не только на быструю реализацию, но и на оптимальную эксплуатацию. 

____________________________________________________________________________________________-

* П. Ронжин, В. Казаков. Надежность, отказоустойчивость, доступность. Синонимы или?.. «ИКС» №1-2’2015, с. 78. 

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!
Поделиться: