Rambler's Top100
 
Статьи ИКС № 07-08 2016
Сергей ЛЕБЕДЕВ  06 сентября 2016

Сертификация на операционную устойчивость: как это было

Наиболее горячие (после PUE) дискуссии на отраслевых конференциях вызывает вопрос: надо проходить сертификацию Uptime Institute или не надо? Я не собираюсь агитировать за или против, но могу поделиться опытом, как именно проходит сертификация.

 Сергей ЛЕБЕДЕВ, заместитель начальника управления сопровождения ЦОД по эксплуатации инженерных систем, Сбербанк России

Справка ИКС

В настоящее время Uptime Institute предлагает три вида сертификации дата-центра. Это сертификация проектной документации (Design Documents), сертификация построенного объекта (Constructed Facility) и сертификация на операционную устойчивость (Operational Sustainability). Последняя, по сути, это аттестация службы эксплуатации центра обработки данных, его инженеров и выстроенных в нем процессов. 

4 декабря 2015 г. Uptime Institute сообщил о получении ЦОДом Сбербанка «Южный порт» сертификата уровня Gold по направлению «Операционная устойчивость». Это заключительный этап сертификаций, которые проводит данная организация для центров обработки данных. В 2011 г. на уровень Tier III был сертифицирован проект инженерных решений ЦОДа «Южный порт» (в то время общепринятым было другое его название – МегаЦОД), в 2012 г. была проведена сертификация объекта (Facility), и в 2015 г. завершена сертификация на операционную, или, как указано на сайте Uptime Institute, эксплуатационную устойчивость.

Формально третий этап сертификации начался в феврале 2015 г. и закончился в ноябре того же года. На самом же деле подготовка к нему велась задолго до официального старта, и к моменту нашей первой встречи с экспертами Uptime Institute был выполнен большой объем работ. Откровенно говоря, некоторое время нам казалось, что сертификат Gold мы получим с ходу: в команде эксплуатации ЦОДа были далеко не новички в вопросах управления дата-центром. Мы имели четкое представление о том, как надо эксплуатировать такой объект, и большой опыт в этой сфере. Кроме того, возможности Сбербанка в части организации правильной, технически грамотной эксплуатации существенно превышают возможности среднестатистической компании, управляющей коммерческим ЦОДом. Но и в банке, как, впрочем, и в любой другой компании, есть свои нюансы и ограничения, связанные прежде всего с особенностями работы самого банка.

26 замечаний

Материалы по сертификации есть в открытом доступе, Uptime Institute не делает из них тайны, и в принципе каждый желающий может обратиться к первоисточнику и выстроить все свои процессы в соответствии с требованиями этой организации. Мы так и начинали.

На первом этапе подготовки к сертификации на операционную устойчивость, еще в феврале 2015 г., эксперты Uptime Institute в течение пяти рабочих дней, находясь непосредственно на объекте ЦОД «Южный порт», изучали, каким образом выстроена работа службы эксплуатации, анализировали текущее состояние дел и на основе собственноручно полученной информации рекомендовали нам, что может и должно быть улучшено, чтобы в конце года сертификация объекта могла быть выполнена на уровне Gold.

Группа экспертов Uptime Institute состояла из трех человек: двух инженеров «большого» Uptime, Райана Орра (Ryan Orr) и Скотта Киллиана (Scott Killian), и управляющего директора Uptime в России Алексея Солодовникова . Впоследствии С. Киллиана заменил Александр Мироненко . Руководителем группы был Р.  Орр.

Основной упор эксперты делали на количество персонала (достаточно ли его) и на его обученность. Также много внимания уделялось управлению обслуживанием, политикам объекта и наличию документации.

В качестве примера приведу несколько замечаний от Uptime Institute, которые мы получили на первом этапе подготовки и над которыми потом работали:

Разработать методологию учета фактических переработок инженеров по обслуживанию и эксплуатации. По мере снижения потребности в поддержке новых проектов и ремонтного обслуживания этот учет позволит обосновывать штатное расписание.

По каждому виду упреждающего обслуживания необходимо создать программу анализа тенденций. Начать можно с данных термографических обследований, проведенных с момента пуска ЦОДа.

Разработать MOP* по каждому отдельному виду работ. Сотрудничать с поставщиками ответственного оборудования с целью разработки и представления ими качественных MOP, эффективно используемых на объекте. Если те или иные работы по обслуживанию выполняются инженерами Сбербанка, для них также необходимо разработать MOP.

Необходимо разработать программу обучения и ввести ее в действие немедленно после подготовки учебных материалов, упомянутых в Приложении III. После подготовки учебных материалов должна быть составлена таблица контроля прохождения первоначального и повторного обучения.

В библиотеку документации следует включить описания последовательностей автоматических операций, MOP и SOP**. Необходимо обеспечить доступ к документации собственному персоналу, представителям поставщиков, проектировщиков и т.д. и добиться ее использования.

Всего было 26 замечаний.

Гора технической документации

Для устранения полученных замечаний мы создали рабочую группу. Внутри группы распределили вопросы, решили, кто за что отвечает, установили ответственных сотрудников и сроки устранения. Совещания рабочей группы проводили раз в две недели. На этих совещаниях решали наиболее сложные вопросы и обновляли текущий статус задач.

Больше всего времени потребовало составление технической документации. Была выполнена колоссальная работа. Разработано 1472 регламента проведения работ (MOP) на каждую единицу инженерного оборудования и на каждый вид обслуживания (ежемесячное, квартальное, полугодовое, годовое), 1142 бланка отключения/включения оборудования (SOP), 60 бланков аварийных переключений (EOP, Emergency Operating Procedure), 670 бланков нормального состояния (SCP, Site Configuration Policies). Работа проводилась совместно с инженерами подрядных организаций и с компаниями – производителями инженерного оборудования. Для написания данных документов мы выделяли ведущего инженера по каждому направлению, например ведущего инженера по ДГУ, и привлекали инженеров подрядных организаций, которые проводят у нас техническое обслуживание. Таким образом, регламенты создавались совместными усилиями.

При составлении технической документации мы сразу столкнулись с проблемой выбора: делать один универсальный документ для однотипных единиц оборудования или разработать свой собственный MOP для каждой отдельной единицы. Да, он во многом будет похож на MOP аналогичного оборудования, но будут и отличия. Вопрос выбора модели представления документации вовсе не такой праздный, как может показаться на первый взгляд. Например, есть однотипные источники бесперебойного питания. Можно сделать одну универсальную инструкцию по работам в рамках годового технического обслуживания, допустим, на 20 ИБП, заменив отличающиеся элементы (скажем, номер входного автомата на ИБП или номер помещения, где стоит оборудование) пробелами, пустыми квадратиками или чем-то еще. Или можно сделать 20 инструкций для каждого ИБП в отдельности и в каждой инструкции четко, уже без всяких пробелов прописать, что где находится и какой именно рубильник нужно отключить. Разница в подходе: в первом случае количество документов невелико, но есть место для творчества. Во втором случае все строго зарегламентировано, но появляется множество однотипных документов.

Мы для себя решили этот вопрос однозначно: для каждой единицы оборудования, для каждого типа сервисного обслуживания – свой отдельный документ. Да, мы затратили массу сил, но тем самым уменьшили вероятность ошибки при проведении регламентных работ.

После разработки MOP мы получили еще один приятный «бонус». В MOP мы сразу указали: какие потребуются инструменты и запасные части для выполнения работ, с кем эти работы необходимо предварительно согласовать, на какие системы они могут оказать влияние, какие нужно предпринять меры по охране труда, какие подготовительные работы необходимо провести и какая для этого понадобится документация.

Кроме того, если работы выполняет сотрудник подрядной организации, а наш инженер только сопровождает их, то у нашего инженера уже есть на руках документ, в котором четко указано, что, в какой последовательности и как надо сделать, чтобы работы были выполнены качественно и в полном объеме. Тем самым мы избавляемся от влияния пресловутого человеческого фактора, от того, что один сервисный инженер делает работу так, через полгода другой инженер – по-другому, и не поймешь, как правильно.

В ходе составления документации инструкции переписывались, в них вносились изменения, добавления, и несколько раз весь объем документов приходилось переделывать. Но все-таки эту долгую и кропотливую работу нужно было сделать только один раз, а дальше уже пожинать ее плоды.

Эксперты Uptime Institute приезжали к нам еще дважды, в июле и в октябре, для того чтобы проконтролировать ход устранения недоработок и ответить на возникавшие вопросы.

Град въедливых вопросов

Подтверждение сертификации - публикация на сайте Uptime Institute

Собственно сертификация ЦОДа «Южный порт» на операционную устойчивость проходила в течение трех дней с 17 по 19 ноября. Нужно было предъявить экспертам Uptime Institute всю необходимую документацию, а главное – продемонстрировать, что вся работа службы эксплуатации в ЦОДе построена в соответствии с заявленными политиками и задокументированными процессами. Важно было доказать, что бумаги не лежат мертвым грузом в архиве, а реально работают, и есть определенная история, по которой можно понять, как в действительности живет ЦОД.

Эксперты Uptime Institute прекрасно знают, как докопаться до истины и разрушить «потемкинские деревни». Они применяют тактику «распутывания клубка ниток», когда последовательными вопросами в беседе с несколькими сотрудниками разбирается обычная рабочая или аварийная ситуация с поднятием необходимых и оформленных должным образом документов. В результате становилось понятно, как в действительности выстроена работа службы эксплуатации. Например, задавался вопрос: «Кто осуществляет допуск сотрудника подрядной организации к прове­дению работ?». Ответ: «Инженер дежурной смены». И далее шел разговор с сотрудником дежурной смены, выяснялось, как подрядчик попадает на объект, какие документы он должен предоставить, проводится ли вводный инструктаж, кто его проводит, где это фиксируется и т.д. По цепочке раскручивалась вся реальная картина наличия процедур и их соблюдения при проведении работ. В частности, у нас был случай, когда согласно графику технического обслуживания были запланированы работы на холодильных машинах и они пересекались по времени с обучением персонала. Эксперты Uptime проверили, были ли работы в этот день отменены (перенесены на другой день) и нашло ли это отражение в соответствующих документах. У нас это было сделано.

* * *

Вот так в ЦОДе Сбербанка «Южный порт» проходила сертификация на операционную устойчивость. Конечно, выполнить подобный объем работ в одиночку невозможно. Сертификация на уровень Gold – в первую очередь награда наших сотрудников. Это признание авторитетной международной организацией профессионального отношения к делу всего коллектива. И того, что «нам не достаточно быть первыми, мы должны быть лучшими».  

_________________________________________________

*MOP (Method of Procedure) – регламент (способ) проведения работ.

**SOP (Standard Operating Procedure) – стандартная эксплуатационная процедура.

Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!