Rambler's Top100
Реклама
 
Статьи
Тарас ЧИРКОВ  Константин НАГОРНЫЙ  03 июля 2023

Как мы учились учить управлять ЦОДом и что из этого получилось

Бесперебойный и производительный дата-центр всегда опирается на компетентную службу эксплуатации. Как эффективно распространить лучшие практики в этой области на целую отрасль?



 
Статьи до кафедры доведут

Эксплуатации дата-центра нигде и никогда не учили. Все, что доступно начинающим специалистам эксплуатации, – это перенимать опыт старших коллег, в том числе «из уст в уста», и, конечно, изучать стандарты различных надзорных и инспектирующих органов, которым нужно соответствовать.

Тем не менее обучение процессу эффективной эксплуатации ЦОДа – это такая же формализуемая задача, как и любая другая, а значит, можно накапливать релевантный опыт и транслировать лучшие практики коллегам. Инженерная инфраструктура критически важна для работы ИТ-систем ЦОДа, поэтому управлять ею по принципу «учимся на своих ошибках» нельзя. 

Наша работа по систематизации теории эксплуатации ЦОДов началась благодаря внутреннему проекту – сертификации площадки дата-центра по стандарту Uptime Institute в области операционного управления ЦОДами – Management & Operations Stamp of Approval (M&O). Стандарт был создан на основе анализа специалистами Uptime более 6 тыс. случаев отказов центров обработки данных, собранных за 20 лет. Его результаты показали, что более 75% всех сбоев вызваны ошибками персонала ЦОДа. Соответственно, оптимизация процессов управления приводит к снижению вероятности инцидентов. 

В процессе подготовки к сертификации M&O мы придумали и внедрили множество вещей, которые помогли нам совместить требования M&O и действующие нормы. Мы прошли первый аудит M&O с оценкой квалификации персонала ЦОДа в Санкт-Петербурге, а также аттестацию процессов эксплуатации оборудования и политик в 2018 г. С тех пор компания переаттестовывалась дважды, улучшая показатель с полученных в первый раз 84 баллов (из 100 возможных) до 95,1 в 2020-м и до 96 баллов в 2021 г. Надо сказать, что и в 2023 г. Linxdatacenter – единственный ЦОД в России, прошедший эту аттестацию трижды. 

Погружаясь в M&O, мы решали задачу формирования культуры управления инженерными системами, разработки документации, обучения персонала и синхронизации этих составляющих между собой. У нас получилось создать универсальную «экосистему» документов и процессов, применимых в любом ЦОДе.

С момента первого аудита мы охотно делились наработками по M&O через публикации и продолжаем это делать по сей день. На свои материалы мы всегда получали хороший отклик, что свидетельствовало о существовании в отрасли глубокого информационного вакуума в вопросах эксплуатации. 

Поняв, что наш опыт может быть применен в любом ЦОДе, мы запустили услугу профессионального консультирования по вопросам проектирования и эксплуатации дата-центров. Однако сама по себе эта деятельность в некий образовательный проект не складывалась, мы просто аккумулировали опыт.

Все начало меняться, когда появилась площадка Координационного совета по ЦОДам и облачным технологиям (АНО КС ЦОД), где был запущен обучающий курс по управлению дата-центрами – первый в своем роде в России и странах СНГ. 

Вызовы ситуации

Получив приглашение к участию в курсе в качестве лекторов-экспертов, мы сначала отнеслись к нему с изрядной долей скепсиса. Преподавание не вызывало энтузиазма, поскольку мы видели массу попыток подхода к этому снаряду и почти всегда это оказывалось либо скучной голой теорией без внятной практической пользы, либо просто рекламными проектами от вендоров. 

Кроме того, чтение лекций было полностью новым форматом для каждого из нас. Систематизировать свои знания и навыки в некий понятный и воспринимаемый формат для представления аудитории – само по себе серьезный вызов.

Другое испытание – необходимость в рамках четырех академических часов по 40 мин донести материал таким образом, чтобы у слушателей возникло понимание проблемы и закрепились начальные знания о вариантах решений. Педагогических навыков или богатого лекторского опыта у наших специалистов не было. 

Третий момент – изначальная настороженность по поводу самой сути проекта. Мы опасались, что он окажется очередной тусовкой для презентаций продуктов и продаж с бесплатными обедами. 

Однако после первого тренинга мы увидели, что организаторы на самом деле привлекли экспертов отрасли и сделали акцент на реальной практике работы ЦОДа. Это заставило нас отнестись к задаче максимально серьезно. 

Багаж знаний

В качестве пробного шара мы решили выйти на площадку с лекциями по процессам эксплуатации ЦОДа, работе систем мониторинга, контроля доступа и противопожарной безопасности (Константин Нагорный), а также по безопасной работе систем энергообеспечения дата-центров (Андрей Чеснов). 

Может возникнуть вопрос: какие тут могут быть тайны и ноу-хау, которые неизвестны рынку? 

Во-первых, наша практика по управлению инженерной составляющей ЦОДов совмещает в себе соответствие как стандартам Uptime, так и требованиям нормативов РФ. То есть мы можем дать реальное руководство, как построить процессы эксплуатации дата-центра, чтобы они проходили любой существующий сегодня аудит. Многим кажется, что эти требования совместить нельзя, но мы на примерах показываем, что это возможно.

Во-вторых, за годы работы мы последовательно совершенствовали целый комплекс подсистем и групп процессов управления ЦОДом: от профилактического ухода за дизель-генераторными установками, контроля уровня давления и подпора воздуха в серверных помещениях до модернизации и повышения точности системы управления зданием (BMS), а также внедрения широкого спектра компонентов системы LOTO. 

В-третьих, некоторые практики Linxdatacenter – в частности, методика контроля качества топлива и система регулярной проверки знаний у дежурных инженеров – были включены в состав обучающих курсов Uptime Institute по эксплуатации ЦОДа в качестве best practices.

Наконец, мы можем по пунктам рассказать обо всем вышеизложенном в простой и доступной манере.

Как это выглядит

По сути, площадка АНО КС ЦОД представляет собой дискуссионный клуб – профессионалы получают доступ к аудитории коллег для того, чтобы поделиться опытом и обсудить самые актуальные и самые спорные отраслевые темы. 

Грубо говоря, в одном и том же тематическом блоке могут быть представлены два выступления с полярными точками зрения на решение конкретной проблемы. Например, что лучше – литий-ионные батареи в ИБП или свинцово-кислотные, какой газ использовать в системе пожаротушения и т.д. После выступлений завязывается обсуждение в свободном формате. 

Это заставляет постоянно совершенствовать материалы курса. Так, с первой лекции по вопросам безопасности системы электроснабжения ЦОДа по настоящие время наша презентация претерпела 16 редакций с учетом ответов на вопросы аудитории, споров с коллегами и развития технологической составляющей.

Зачастую за счет свободного формата рассказ о каком-либо решении плавно перетекает в обучение тому, как воспроизвести его на собственной площадке, т.е. трансформируется в семинар. 

Если в начале мы не были уверены, что сможем набрать материала на лекцию длиннее часа, то сегодня материала столько, а потребность в нем у аудитории так велика, что можем общаться со слушателями четыре-пять часов. 

Кому и зачем 

На курсах мы встретили много новых и старых знакомых – как коллег из других дата-центров, так и представителей вендоров, а также компаний-подрядчиков. 

Какую ценность дает им обучение? 

Одна из главных целей: объяснить принципы составления процессов и инструкций по эксплуатации ЦОДа через упрощение и сокращение объемов документации. Это востребовано потому, что классические 100-страничные документы в этом жанре крайне редко дочитываются до конца. Это значит, что требования должным образом также не выполняются.

Стандартная группа слушателей на курсах – 25–30 человек, это технари, практически без маркетологов и продавцов. В отличие от других площадок тут не принято называть вендоров решений, о которых так или иначе заходит речь в рамках лекций. 

Участники узнают неочевидные для себя вещи, напрямую касающиеся работы ЦОДа, –получают представление об устройстве и принципах работы, особенностях использования оборудования, влиянии на работу ЦОДа различных систем и подсистем. Приходят даже проектировщики различных систем ЦОДов: им нужен практический опыт в отношении того, какой вариант планировки помещения оптимален с учетом расположения, количества стоек, планируемой мощности и т.д. 

Часто развеиваются мифы, которые бытуют в отрасли, но не подтверждены практикой. Из последнего можно вспомнить вопрос о полезности «падающих» крыш холодных коридоров для работы системы газового пожаротушения. Решение, часто применяемое в отрасли, оказывается, не имеет под собой никакого обоснования. Проектировщики газового тушения его не требуют, т.е. на самом деле оно не нужно.

Представителям вендоров полезно присутствовать на трнингах, чтобы быть в курсе типичных «болячек» оборудования, с которыми сталкиваются службы эксплуатации ЦОДов.

Будущее в книге

Что касается развития преподавательских практик, то логичным направлением нам видится создание учебного пособия с уклоном в практикум. Работа над книгой ведется, в течение 2023 г. она будет завершена. Текст уже полностью готов, дело за организацией издания книги. В ней будут освещены вопросы построения службы эксплуатации ЦОДа с нуля: формирование правильной структуры, создание системы документооборота, упорядочение работы и координации служб, обеспечение безопасности, обучение и подбор персонала, выстраивание алгоритмов работы с подрядчиками и т.д. 

Рекомендации будут носить универсальный характер и применимы для организации аналогичных процессов за пределами ЦОДов, на любых площадках, где инженерная инфраструктура играет важную роль. 

Тарас Чирков, директор по эксплуатации ЦОД, Linxdatacenter
Константин Нагорный, главный инженер ЦОД, Linxdatacenter
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!