Rambler's Top100
Реклама
 
Статьи
Тарас ЧИРКОВ  Андрей ЧЕСНОВ  Константин НАГОРНЫЙ  04 марта 2024

Служба эксплуатации ЦОД

Продолжая знакомить читателей «ИКС» с фундаментальными работами по тематике дата-центров, написанными экспертами отрасли, предлагаем вашему вниманию главу из книги «Эксплуатация ЦОД. Практическое руководство», которая выходит в марте в издательстве «Альпина Паблишер».

Прежде всего мы должны установить и определить, что такое служба эксплуатации ЦОД.

Служба эксплуатации — это ключевое структурное подразделение ЦОД, команда которого, эксплуатируя инженерное оборудование и системы согласно действующим нормам, правилам и стандартам, обеспечивает предоставление услуг заранее определенного уровня.

Многие считают, что служба эксплуатации отвечает в ЦОД за все. Это, конечно же, не так. Служба эксплуатации отвечает за работу критически важных инженерных систем, список которых приведен в соответствующей главе. Важно понимать, что служба эксплуатации не отвечает за сети передачи данных (за исключением прокладки и коммутации кабелей) и серверное оборудование с программным обеспечением (за исключением подачи электричества и охлаждения).

Служба эксплуатации ЦОД вообще может не представлять, какие именно данные обрабатываются на серверах, размещенных в ЦОД (особенно актуально для коммерческих ЦОД), но должна понимать совместно с клиентом, что необходимо обеспечить, чтобы эти сервера работали.

ЗАДАЧИ СЛУЖБЫ ЭКСПЛУАТАЦИИ ЦОД 

В действующем Своде правил (СП) «Здания и сооружения. Правила эксплуатации. Основные положения» можно найти достаточно верное определение службы эксплуатации:

Служба эксплуатации зданий (сооружений) обеспечивает самостоятельно или с привлечением специализированных организаций выполнение комплекса работ по эксплуатационному контролю и обслуживанию зданий (сооружений):
  • участие при вводе в эксплуатацию здания (сооружения) с правом визирования документов;
  • взаимодействие с организациями, выполняющими монтажные и пусконаладочные работы…;
  • поддержание эксплуатационных показателей строительных конструкций зданий (сооружений)…;
  • эксплуатационный контроль и обслуживание систем инженерно-технического обеспечения…;
  • круглосуточное диспетчерское обслуживание систем инженерно-технического обеспечения и коммуникаций…;
  • эксплуатация производственного оборудования…;
  • при необходимости создание собственной службы по обеспечению работ по устранению аварийных ситуаций и своевременный вызов аварийных служб в случае невозможности ликвидировать аварийную ситуацию собственными силами;
  • исполнение нормативных актов, нормативных документов и технической документации по эксплуатации собственными силами или с привлечением сторонних организаций;
  • ведение технической эксплуатационной документации, в том числе внесение изменений, возникших при эксплуатации объекта…;
  • взаимодействие с подрядными организациями и контроль их работы;
  • работы по уборке и благоустройству территории…22
Несмотря на то, что здесь описывается служба эксплуатации зданий, по своей сути ее задачи не отличаются от службы эксплуатации ЦОД. Забегая вперед, можно сказать, что тут указаны почти все аспекты деятельности ЦОД, которые будут раскрыты далее.

В свою очередь, европейский стандарт EN50600–3–1 эту же задачу выражает более емко одной фразой:

The aim… is to keep the data center at the status of normal operations23.

Давайте попробуем сформулировать основные задачи, характерные для ЦОД:
  • Предоставление потребителям услуг определенного уровня согласно SLA/OLA.
  • Организация постоянно совершенствующихся процессов эксплуатации согласно действующим нормам, правилам и международным стандартам.
  • Раскрытие всего потенциала инженерных систем и рациональное расходование ресурсов.
Наверняка вы можете назвать и другие задачи; ниже мы приводим аргументы, почему мы в качестве задач выбрали именно эти.

Предоставление услуг клиентам согласно SLA 

Данная задача является «вершиной пирамиды» работы службы эксплуатации. Клиенты должны получать услуги с параметрами, прописанными в договоре.
Для расстановки приоритетов внутри службы эксплуатации на случай устранения нескольких одновременных инцидентов можно разделять критичность различных параметров SLA. Например, краткосрочное отключение электропитания стойки, очевидно, намного критичнее долгосрочного незначительного превышения уровня влажности, хотя с формальной точки зрения ЦОД должен предоставить именно те уровни сервиса, которые прописаны в договоре, независимо от их критичности для оборудования клиента. Именно за нарушение SLA с клиентами руководители и сотрудники службы эксплуатации ЦОД должны лишаться премий или увольняться в первую очередь, и, напротив, их нужно поощрять за отсутствие таких нарушений. Подробнее об этом написано в главах «Мотивация и KPI» и «Потребители услуг ЦОД и важность SLA».

Организация процессов эксплуатации

По действующим нормам и правилам 

Это классическая задача для службы эксплуатации любого предприятия. Мы работаем в правовом поле, требующем от нас соблюдения правил электробезопасности, пожарной безопасности, охраны труда и т. п. Сотрудники должны быть обучены и аттестованы исходя из требований к эксплуатируемому оборудованию, документация должна вестись надлежащим образом. Если этого не происходит, есть риск получения законных претензий со стороны контролирующих органов, от штрафов до приостановки деятельности. Служба эксплуатации всегда должна быть готова пройти любой аудит со стороны надзорных органов.

Так как задача организации процессов службы эксплуатации согласно нормам и правилам — типовая для любого предприятия, то она должна быть на 100% качественно выполнена службой эксплуатации, а требования норм и правил рассматриваются как необходимый минимум для безопасного и качественного построения всех остальных процессов эксплуатации.

По требованиям международных стандартов и best practice24

Опыт показывает, что соблюдение норм и правил — только фундамент для организации процессов. Дальше необходимо выбрать ту модель построения процессов службы эксплуатации, которая обеспечит требуемую надежность. Данная модель определяет экосистему документации и процессов, их взаимосвязь между собой. При этом важно избежать двойной документации, совместив документацию «для норм» с документацией для best practice. Служба эксплуатации всегда должна быть готова пройти любой аудит со стороны независимых аудиторов.

На данный момент общепринятой эффективной best practice моделью является Method of Procedure (MOP). Если изучить его историю, то становится понятно, что данный метод не придуман специально для ЦОД, а пришел из других, более старых объектов критической инфраструктуры, в частности, с морского флота. Далее мы очень подробно рассмотрим все аспекты этого метода.

Раскрытие всего потенциала инженерных систем и рациональное расходование ресурсов 

Пункт 1.2.2 ПТЭЭП25 обязывает: «Потребитель обязан обеспечить учет, рациональное расходование электрической энергии и проведение мероприятий по энергосбережению». Пункт 1.5.1 ПТЭЭП гласит: «Система управления электрохозяйством Потребителя электрической энергии… должна обеспечивать: …эффективную работу электрохозяйства путем совершенствования энергетического производства и осуществления мероприятий по энергосбережению».

В распоряжении службы эксплуатации ЦОД находятся высокотехнологичные инженерные системы с заложенной в них избыточностью (резервированием). Грамотно выстроив процессы эксплуатации необходимо использовать этот, заложенный в системы, потенциал, для недопущения влияния аварий единичного оборудования на итоговый уровень SLA перед клиентами.

Любое оборудование имеет оптимальные параметры работы, при которых соблюдается баланс между эффективностью и износом. Если откинуть пафос слов о природе и глобальном потеплении, нужно просто помнить, что в руках службы эксплуатации ЦОД находится условный нагревательный прибор, мощность которого измеряется в мегаваттах. Незначительными настройками оборудования и режимов его работы, даже без влияния на надежность, можно легко варьировать мощность этого нагревательного прибора в разумных пределах. А если помнить, что таких нагревательных приборов в мире все больше и больше, то становится очевидным, что режимы работы оборудования должны быть выбраны таким образом, чтобы обеспечивать требуемую надежность, но при этом не расходовать лишнюю энергию.

РОЛЬ СЛУЖБЫ ЭКСПЛУАТАЦИИ НА РАЗЛИЧНЫХ ЭТАПАХ ПОСТРОЕНИЯ ЦОД  

Перед началом непосредственного использования объект нужно построить, протестировать и сдать в эксплуатацию. Чтобы переход от построения ЦОД к эксплуатации был максимально гладким и организованным, а уровень сервиса — высоким с первых дней работы ЦОД, требуется участие службы эксплуатации на всех этапах создания ЦОД, начиная с написания технического задания. Надо учитывать, что служба эксплуатации не обладает таким опытом, как проектные организации, сдающие по несколько ЦОД в год, но тем не менее она определяет важные нюансы, которые улучшат или облегчат функционирование ЦОД в дальнейшем.

Поэтому крайне важно начинать формировать службу эксплуатации еще до начала работ по проектированию ЦОД, чтобы иметь свою внутреннюю команду для контроля выполнения задач проектировщиками. Эта команда будет максимально заинтересована в получении результата — ведь именно ей в дальнейшем придется эксплуатировать данный ЦОД.

Какие задачи будут выполняться на начальном этапе:
ПУСКОНАЛАДОЧНЫЕ РАБОТЫ, ПРИЕМКА В ЭКСПЛУАТАЦИЮ

После того как ЦОД построен, он проходит пусконаладочные работы и приемо-сдаточные испытания, которые являются начальной точкой эксплуатации и предваряют дальнейшее повседневное управление ЦОД. Собственно пусконаладочные работы, испытания и сдача ЦОД в эксплуатацию (commissioning) состоят из нескольких достаточно широко известных этапов, которые, в частности, предлагает Uptime Institute:
  1. Заводское тестирование производителем критически важного инженерного оборудования (Factory Acceptance Test, FAT, или Factory Witness Test, FWT). Может быть проведено как в присутствии представителя команды эксплуатации, так и без него, с приложением результатов заводского тестирования к комплекту документов.
  2. Получение, установка и предварительное функциональное тестирование критически важного инженерного оборудования (Installation Acceptance Test, IAT). Получение, первичная установка оборудования, оценка комплектности и соответствия спецификации, проверка правильности монтажных работ в соответствии с проектом.
  3. Функциональное тестирование, автономное тестирование критически важного инженерного оборудования и начальная конфигурация предварительного пуска системы (Component Test, CT).
    Настройка и тестирование оборудования.
  4. Запуск системы, ОЕМ-тестирование и индивидуальное тестирование систем (Site Acceptance Test, SAT).
    Испытания конкретного оборудования по соответствующей программе, с нагрузкой и без.
  5. Интегрированные эксплуатационные испытания (Integrated Site Acceptance Test, ISAT).
    Комплексные испытания всех систем ЦОД одновременно на расчетную нагрузку. Важно понимать, что все эти стадии приемки оборудования в эксплуатацию происходят не только во время начала работы ЦОД, но и при всех последующих расширениях различных систем.
ВЛИЯНИЕ СЛУЖБЫ ЭКСПЛУАТАЦИИ НА ПРОЕКТИРОВАНИЕ

В процессе создания ЦОД каждый должен выполнять свою роль. Часто между проектировщиками и службой эксплуатации возникают споры из-за технических решений. И на самом деле споры — это хорошо. Если люди готовы слушать аргументы, то в спорах рождается лучшее решение.

Ниже опишем некоторые часто встречающиеся примеры из нашей практики, неочевидные для проектировщиков и жизненно важные для эксплуатации и потребителей услуг ЦОД.

Требования к внешнему электроснабжению

Зачастую заказчики и проектировщики пытаются повысить надежность проектируемого ЦОД путем ужесточения требований к внешнему электроснабжению. В результате напрасно расходуется время на поиски площадки с возможностью выделения двух независимых городских вводов электричества для обеспечения первой или второй категории надежности энергоснабжения26, при этом подключение по более высокой категории оплачивается по повышенным ставкам (технологическое присоединение по второй категории надежности будет значительно дороже по сравнению с третьей). Кроме того, срок технологического присоединения увеличится, так как для присоединения по более высокой категории потребуется больше времени на проектирование, согласование проекта в Ростехнадзоре и получение разрешительных документов. При этом подходящие площадки, имеющие только один ввод внешнего электроснабжения, отвергаются априори.

Однако если открыть стандарт Tier Standard: Topology (TS: T) компании Uptime Institute, то мы увидим в пункте 2.5, что «энергогенерирующие системы площадки (например, двигатель-генераторы, топливные элементы) рассматриваются в качестве основного источника электроснабжения ЦОД. Местная электрическая сеть является экономичной альтернативой…».

Далее, если мы обратимся к статье «Система классификации Tier: мифы и заблуждения»27, то узнаем, что, «согласно стандарту Tier Standard: Topology, единственным надежным источником электропитания для ЦОД является генераторная установка. Это связано с тем, что электроснабжение подвержено незапланированному отключению даже в местах с надежными электросетями. Число внешних фидеров, подстанций и электросетей, к которым подключен ЦОД, не определяет его уровень Tier и никак не влияет на него. Как следствие, подключение к электросети общего назначения даже не требуется для сертификации».

К этому выводу можно было прийти и самостоятельно, просто внимательно прочитав определение категорий электроснабжения в Правилах устройства электроустановок (ПУЭ).

ПУЭ, п. 1.2.19. Электроприемники первой категории в нормальных режимах должны обеспечиваться электроэнергией от двух независимых взаимно резервирующих источников питания, и перерыв их электроснабжения при нарушении электроснабжения от одного из источников питания может быть допущен лишь на время автоматического восстановления питания.

ПУЭ, п. 1.2.20. Электроприемники второй категории в нормальных режимах должны обеспечиваться электроэнергией от двух независимых взаимно резервирующих источников питания. Для электроприемников второй категории при нарушении электроснабжения от одного из источников питания допустимы перерывы электроснабжения на время, необходимое для включения резервного питания действиями дежурного персонала или выездной оперативной бригады.

В приведенных пунктах ПУЭ мы видим две важные вещи:

А) В обоих случаях источники должны быть взаимно резервирующими, а это те источники, на которых, согласно ПУЭ, п. 1.2.10, «сохраняется напряжение в послеаварийном режиме в регламентированных пределах при исчезновении его на другом или других источниках питания», то есть резерв источников должен быть 2N. Не следует путать это резервирование с двумя линиями от одной подстанции (резерв линий 2N). Наличие резерва 2N по линиям от одного источника, например от ДГУ, вполне логично, так как позволяет обслуживать одну линию без выведения всего комплекса ДГУ из работы. Наличие двух линий от городской подстанции тоже имеет смысл, так как позволит вам не переходить на ДГУ при обслуживании одной из этих линий. Но две линии от одного источника — это все равно третья категория надежности.

Б) Время пропадания электричества равно времени ручного переключения для второй категории и времени автоматического переключения — для первой. При этом в обоих случаях пропадание допустимо и время этого переключения не нормировано, хотя, скорее всего, предполагается, что время ручного переключения исчисляется в минутах (а может, и в часах), а автоматического — в секундах, если другое явно не указано в договоре на электроснабжение. Теперь представьте себе, что электроснабжающая организация согласится добавить себе в договор дополнительные временные обременения и, естественно, штрафы за их неисполнение, а они равны штрафам, которые клиенты выставят ЦОД. Считаете ли вы такое развитие событий вероятным?

Подведем итог:
  1. При любой категории внешнего электроснабжения надо понимать, что его безотказная работа находится не в вашей зоне ответственности. Другое дело — всецело принадлежащий вам источник электроснабжения (чаще всего это ДГУ). За его состояние и работоспособность несет ответственность служба эксплуатации, то есть вы сами.
  2. Согласно Uptime Institute Tier Standard: Topology (TS: T), п. 2.5, «перебои в электрической сети (внешней) считаются не аварийной ситуацией, а ожидаемым рабочим условием, к которому площадка полностью подготовлена». Подготовить площадку к такому событию возможно путем проведения плановых работ по переключению на локальные источники генерации электричества и обратно с целью убедиться в надежной работе такого переключения. Однако, по нашему опыту, во многих ЦОД опасаются производить настоящее отключение внешнего электроснабжения для тестирования ДГУ, а следовательно, и тестирования всей энергосистемы в комплексе, считая, что такое переключение может пройти со сбоями и повлиять на сервисы, предоставляемые клиентам. Тем не менее без регулярного проведения таких полноценных запусков ДГУ быть уверенным в безотказной работе ЦОД не представляется возможным.
В результате мы видим, что, с точки зрения стандарта Tier Standard: Topology, категория электроснабжения ЦОД никак не влияет на уровень надежности ЦОД, а служба эксплуатации ЦОД может рассчитывать только на источники электричества, находящиеся в собственном управлении ЦОД (чаще всего это ДГУ), и должна быть всегда готова к вероятному отключению внешних источников электроснабжения, которые рассматриваются как вспомогательные. Однако это утверждение не отменяет положительного влияния на надежность, которое дает наличие двух взаиморезервирующих вводов электроснабжения площадки от одного источника энергии или подстанции. Эту схему нельзя называть второй категорией электроснабжения, так как источник один, но она позволяет сохранять электроснабжение площадки при аварии или обслуживании снабжающих площадку линий, ячеек, трансформаторов. При наличии одной кабельной линии вся нагрузка будет запитана только через нее. Получается единая точка отказа: это либо трансформатор, либо кабельная линия, либо вводной автомат. При отказе одного из этих элементов потребуется долгосрочный и дорогостоящий ремонт, а вы все это время будете вынуждены работать от собственных источников — ДГУ. В итоге использование двух независимых кабельных линий — это хорошо, но дорого. Однако стоит понимать, что при выборе второй или первой категории надежности стоимость подключения возрастает минимум в два раза относительно присоединения по третьей категории надежности. Ведь для энергоснабжения по первой или второй категории необходимы два источника питания, а присоединение к каждому из них стоит примерно одинаково.

Окончание следует

Страничные сноски:
22 СП 255.1325800.2016 Здания и сооружения. Правила эксплуатации. Основные положения (с Изменениями № 1, 2).
23 EN50600–3–1:2016 Information technology — Data centre facilities and infrastructures, p. 7.2.1.
24 «Лучшая практика» (англ.). Устоявшееся универсальное название для комплекса знаний, мер и навыков, применяемых в той или иной сфере для достижения максимальной эффективности какого-либо процесса или действия.
25 Правила технической эксплуатации электроустановок потребителей (ПТЭЭП), в редакции до 2022 г.
26 О категориях надежности энергоснабжения электропотребителей см. Правила устройства электроустановок (ПУЭ), один из основополагающих документов при построении систем энергоснабжения инженерных объектов.
27 Хэслин К. Система классификации Tier: мифы и заблуждения. 29.05.2019. Перевод: https://dcforum.ru/news/sis- tema-klassifikatsii-tier-mify-i-zabluzhdeniya, оригинал (англ.): https://journal.uptimeinstitute.com/myths-and-mis- conceptions-regarding-the-uptime-institutes-tier-certification-system/ .

Тарас Чирков, директор по эксплуатации ЦОД, Linx Datacenter
Константин Нагорный, главный инженер Linx Datacenter в Санкт-Петербурге
Андрей Чеснов, главный энергетик Linx Datacenter в Санкт-Петербурге

Публикуется с сохранением особенностей орфографии и редактуры издательства.

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!