Rambler's Top100
Статьи ИКС № 05 2013
Заурбек АЛЕХИН  07 мая 2013

Квалифицированный персонал - основа операционной устойчивости ЦОДа

Значительная часть инцидентов и нарушений параметров функционирования ЦОДов происходят вследствие ошибок персонала, совершенных при обслуживании оборудования и при действиях в нестандартных ситуациях. Поэтому достаточная численность и квалификация персонала в службе эксплуатации – один из ключевых элементов операционной устойчивости ЦОДа.

Заурбек АЛЕХИН, независимый консультантУстойчиво функционирующий ЦОД – это объект, параметры функционирования которого сохраняются в заданных пределах сколь угодно долго, независимо от отрицательного влияния предсказуемых и случайных событий.

Помимо собственно реагирования на разного рода отказы и отклонения от целевых режимов текущая эксплуатация дата-центра предполагает выполнение большого числа разнообразных операций, лишь малая часть которых может производиться автоматически – и то с оговорками. Большинство же операций требуют непосредственного и активного участия сотрудников службы эксплуатации, которые для этого, безусловно, должны обладать необходимыми знаниями и навыками.

В прошлой статье мы обсудили понятие «эксплуатация» и получили представление о перечне задач, подлежащих решению в ходе эксплуатации дата-центра. В основе рассматриваемой модели эксплуатации лежит операционная модель, описанная в разработанном Uptime Institute стандарте Data Center Site Infrastructure Tier Standard: Operational Sustainability (Стандарт операционной устойчивости).

В соответствии с данным стандартом основные элементы, формирующие операционную устойчивость ЦОДа, – это обеспечение человеческими ресурсами, наличие необходимых процессов и контроль и управление реализацией процессов. Справедливости ради отметим, что помимо перечисленных авторами стандарта обозначены и иные важные элементы. Но с точки зрения общей модели они не являются определяющими для дата-центров, не имеющих сертифицированной Uptime Institute инженерной инфраструктуры.

Группы компетенций

Компетенции, требуемые для поддержания бесперебойного функционирования дата-центра, можно разделить на технологические, организационные, управленческие и т.д. (рис. 1). В зависимости от типа ЦОДа, выбранной модели эксплуатации такие группы могут быть дополнены и детализированы.

В связи с большим числом систем ЦОДа и еще б'ольшим количеством вариантов конкретного оборудования, составляющего эти системы, наиболее сложной является группа технологических компетенций. Служба эксплуатации ЦОДа вовлечена в выполнение большого числа различных задач, что требует наличия разноплановых навыков и компетенций. Ядро составляют опыт и знания в области обслуживания конкретного оборудования: сложность систем в дата-центрах высока, и малоопытный самоучка не только бесполезен, но и порой просто вреден. В первую очередь речь идет об умении силами службы эксплуатации квалифицированно обслуживать и эффективно устранять сбои в наиболее критичных системах, к которым относятся системы электроснабжения, охлаждения и вентиляции. Современные решения, хотя и обладают существенным запасом надежности, все же подвержены отказам, и потому требуют качественного и своевременного ухода. Работа с ними без соответствующих знаний, регулярных тренировок, отслеживания рекомендаций производителей может привести к нежелательным и даже опасным последствиям. Таким образом, технологические компетенции необходимы для выполнения основных операций обслуживания, поиска и устранения неисправностей и отказов, настройки, регулирования, модернизации систем.

Не менее важны навыки и умения работать в команде, что обусловлено наличием глубоких взаимозависимостей систем и тем, что один и тот же элемент может быть составной частью разных систем. Поскольку дата-центр – объект комплексный, даже обслуживание одной системы не может выполняться полностью изолированно. В ситуации сбоя критичность качественного взаимодействия персонала вырастает кратно, так как для сохранения целевых параметров требуется не только быстро устранить сбой конкретной системы, но и одновременно перевести на другую схему работы и взаимодействия смежные системы.

Отдельно стоит группа компетенций по координации работ. Редко кто возражает против необходимости диспетчерской службы, хотя бы в минимальном варианте. В реальности кажущийся на первый взгляд простым набор действий в случае сложного объекта и высокого уровня ответственности становится не только обязательным, но и критичным. Важность навыков и опыта в сфере организации работ еще более возрастает в условиях привлечения внешних исполнителей.

И, конечно, не стоит забывать о том, что служба эксплуатации зачастую является выделенным структурным подразделением. Обеспечение его нормальной работы требует навыков общего менеджмента. Персонал надо подбирать, развивать, создавать ему нормальные условия труда и отдыха, организовывать и контролировать исполнение обеспечивающих процессов. В общем, выполнять комплекс действий, который объединяется понятием «руководить подразделением». В зависимости от масштабов и обособленности структуры для этих задач может потребоваться от одной до нескольких штатных единиц, а в крупных структурах – до десятков сотрудников и даже нескольких подразделений.

Безусловно, невозможно требовать наличия всех перечисленных компетенций в максимальном объеме от всех сотрудников службы эксплуатации дата-центра. Тем более что персонал службы эксплуатации может быть разделен на несколько групп: менеджмент, технические специалисты, инженеры-аналитики, диспетчеры, вспомогательный персонал. Но и это деление вовсе не окончательное. Часто специалисты умеют обслуживать только один-два типа систем, обладая по остальным лишь поверхностными знаниями, либо способны качественно настроить оборудование, но быстро обнаружить и устранить неисправность – к сожалению, нет…

Учитывая конфигурацию дата-центра, реальные потребности в обслуживании оборудования, указанные и иные особенности, руководство службы эксплуатации может составить типовой профиль компетенций для каждого штатного специалиста (рис. 2).

Требования к персоналу согласно Стандарту операционной устойчивости

В целом требования и ограничения Стандарта операционной устойчивости (рис. 3) направлены на управление операционными рисками. Рассмотрим их с точки зрения тех угроз и проблем, которые может создать для устойчивого и качественного функционирования дата-центра их несоблюдение.

Достаточность численности. Могут ли быть выполнены в полном объеме все необходимые процессы и операции обслуживания в случае, если людских ресурсов недостаточно? Конечно, нет. Оплата сверхурочных работ проблему не решает: персонал физически устает, теряет внимание к мелочам, совершает ошибки. Поэтому должны быть предусмотрены ресурсы с учетом неравномерности выполнения работ, а также возможных аварий и авралов.

Нельзя ограничиться только формированием штатного расписания, поскольку большее значение имеет фактическое присутствие сотрудников на объекте, т.е. структура и состав рабочих смен.

Достаточность квалификации. В стандарте достаточность квалификации персонала определяется следующими основными группами требований:

  • требования регуляторов – лицензии, допуски и т.п.;
  • отраслевые требования – стандарты и нормативы отрасли;
  • требования производителей оборудования – специфичные процедуры и регламенты;
  • корпоративные требования – внутренний порядок и организация работ;
  • функциональные требования – ограничения выбранной модели обслуживания.

Неисполнение требований создает как технологические, так и иные риски, включая правовые и экономические.

Четкое и корректное разграничение ответственности. Требование явного обозначения, кто конкретно и за что именно отвечает, есть даже в Трудовом кодексе РФ. Его неполное исполнение связано, как правило, с большим объемом и сложностью исчерпывающего перечня функций, а также с динамичностью объекта, постоянно происходящими изменениями и корректировками. Опасны обе возможные ошибки: и отсутствие ответственных за какой-либо элемент, и попадание одного и того же элемента в зону ответственности двух и более специалистов/подразделений. В первом случае все понятно: нет ответственного – значит, никто ничего не делает. Второй случай более изощренный: ответственные есть, но каждый делает какие-то операции по-своему, и к тому же возникают споры о том, «кто главнее».

Эффективное взаимодействие. Наличие достаточного количества квалифицированного персонала – условие для качественного функционирования ЦОДа необходимое, но не достаточное. Сложности часто возникают в ходе взаимодействия разных служб и отдельных сотрудников между собой. Проблем, как правило, не бывает, пока организация небольшая. Но в крупных коллективах с различными подразделениями, с привлечением внешних партнеров на отдельные работы слабоорганизованный информационный обмен однозначно приведет к неудачам.

Управление будущими рисками. Успешное решение всех проблем сегодня, к сожалению, не гарантирует, что завтра они не возникнут снова. В отношении персонала основным будущим риском является потеря специалиста. Это может произойти по разным причинам, многие из которых не подконтрольны работодателю. Соответственно, управлять таким риском можно только путем обеспечения готовности к потерям сотрудников: например, путем планомерной подготовки ряда сотрудников к исполнению обязанностей более опытных коллег и руководителей, т. е. формированием собственного кадрового резерва.

Обратим еще раз внимание на то, что в стандарте явно обозначены требования к квалификации персонала службы эксплуатации, и их соблюдение – важный элемент поддержания операционной устойчивости ЦОДа.

Практическое применение модели компетенций

Основываясь на всем комплексе требований, которые изложены в разделе Стандарта операционной устойчивости, посвященном квалификации персонала, можно рекомендовать следующий подход к их выполнению:

  • сформировать обобщенную модель компетенций персонала службы эксплуатации дата-центра;
  • детализировать требования модели компетенций с учетом установленного оборудования, требований к функционированию дата-центра и выбранной модели обслуживания;
  • разработать и применять детальные карты компетенций по отдельным ролям исполнителей процессов службы эксплуатации;
  • обеспечить прием сотрудников и привлечение внешних исполнителей с учетом соответствия профилям компетенций;
  • построить и поддерживать регулярное инструктирование привлекаемых к работам специалистов согласно их зонам ответственности и требованиям к квалификации;
  • организовать периодическое обновление профилей компетенций;
  • сформировать и исполнять программу обучения и переподготовки персонала с учетом требований к компетенциям.

Напомним, что в стандарте требования к квалификации явно обозначены только в части необходимости наличия требуемых регулятором лицензий, и то без соответствующей конкретизации. При этом имеется широкий перечень иных требований, касающихся квалификации персонала косвенно. В большей степени они ориентированы на выработку требуемых навыков и компетенций путем проведения регулярного обучения и инструктирования.

Именно на это в основном направлены соответствующие положения стандарта Uptime Institute. Логика здесь следующая: действуя планомерно и непрерывно, можно обеспечить необходимую подготовку сотрудников и быть уверенным в ее качестве, в то время как ориентация на привлечение уже готовых специалистов извне несет в себе большой объем сложностей и рисков, не говоря уже о том, что всякий объект имеет свои особенности реализации и обслуживания инженерной инфраструктуры, которые, как правило, не афишируются.

Каналы подготовки специалистов по эксплуатации дата-центров в России и в мире

Хотя в настоящее время явное упоминание дата-центров в программах российских учебных заведений обнаружить нелегко, ситуация вовсе не безнадежна. В соответствии с Общероссийским классификатором специальностей по образованию, средние профессиональные учебные заведения готовят специалистов с квалификацией «техник» и «старший техник», в том числе по следующим направлениям: техническая эксплуатация и обслуживание электрического и электромеханического оборудования (по отраслям); эксплуатация средств связи; строительство и эксплуатация зданий и сооружений; монтаж и эксплуатация внутренних сантехнических устройств и вентиляции; техническое обслуживание и ремонт радиоэлектронной техники (по отраслям); техническое обслуживание средств вычислительной техники и компьютерных сетей.

Таким образом, возможности для получения базовых знаний по эксплуатации и обслуживанию основных инженерных систем дата-центра имеются. Правда, дальнейшее образование по данному направлению в нашей стране систематизировано слабо. В основном оно сводится к краткосрочным (один-два дня) тренингам по обслуживанию конкретного оборудования, проводимым представителями его производителей и/или поставщиков. Главные недостатки такого подхода – слабое понимание персоналом комплексной картины обслуживаемого объекта и составляющих его систем, «заточенность» на работу с оборудованием конкретного вендора, использование несовпадающей терминологии и т.д. В результате подавляющее большинство дата-центров испытывают затруднения при поиске нужных специалистов на рынке и вынуждены готовить их непосредственно на рабочих местах, в основном передачей опыта и знаний от старших товарищей и самообразованием сотрудников.

За рубежом ситуация отличается в лучшую сторону. Управление дата-центрами, обеспечение их качественного обслуживания там осознали как отдельный вид деятельности намного раньше, чем у нас. Результатом стало не только формирование специализированных образовательных компаний, но и целого класса услуг обучения и консультирования по тематике обслуживания и эксплуатации инженерных систем ЦОДов.

И, как принято на Западе, факт прохождения обучения и успешной сдачи экзамена (который почти во всех случаях обязателен) подтверждается выдачей соответствующего сертификата. Как правило, сертификат выдается той же компанией, которая учила, хотя имеются примеры и независимой (от обучающей компании) сертификации специалистов. В результате этого названия сертификатов пока не согласованы и не стандартизованы. Есть среди них, например, Data Centre Professional, Data Centre Cooling Professional, Mission Critical Operations Professional, Data Centre Facilities Operations Manager… Даже созвучные Data Centre Professional, выдаваемый одним учебным центром, и Data Centre Cooling Professional, выдаваемый другим, подразумевают серьезно различающийся уровень квалификации, включая существенную разницу в объеме подготовки, требованиях к опыту специалиста и др.

Помимо этого, на зарубежном рынке работает ряд крупных консалтинговых организаций, которые не только помогают эксплуатирующим структурам выстраивать правильную операционную модель, но и проводят специализированное обучение как эксплуатации отдельных систем, так и общей организации эксплуатации и управлению этой деятельностью.

* * *

Очевидно, что надежное и качественное функционирование дата-центра непосредственно связано с квалификацией персонала службы эксплуатации. О большой роли персонала свидетельствует и внимание, которое уделено ему в Стандарте операционной устойчивости. Изложенные в нем требования ориентированы не только на текущий квалификационный уровень сотрудников, но и на наличие организационных механизмов, гарантирующих сохранение этого уровня в течение длительного времени.

Сегодня каждая организация самостоятельно формирует перечень требований к сотрудникам службы эксплуатации дата-центров. Единая модель отсутствует не только в России, но и в мире. В то же время определенные условия для выработки единых требований сформировались, существуют несколько видов обучения и сертификации специалистов. Важно, чтобы в период идущего в нашей стране активного роста объема и зрелости рынка ЦОДов всем процессам, связанным с квалификацией персонала, было уделено должное внимание.  

КВАЛИФИКАЦИЯ И  КОМПЕТЕНЦИЯ  

Большой российский энциклопедический словарь определяет в интересующем нас смысле квалификацию как уровень подготовленности, степень годности к какому-либо виду труда, а компетенцию – как знания, опыт в той или иной области.

Квалификация зависит от наличия у сотрудника соответствующих профессиональных знаний и трудовых навыков, необходимых для исполнения задач на конкретном рабочем месте. Для того чтобы иметь возможность сравнивать сотрудников и наиболее адекватно их использовать, вводятся разнообразные шкалы и рейтинги квалификации. Показателем квалификации рабочих и служащих, как правило, является разряд. Результаты труда работника находятся в зависимости от уровня его квалификации: в общем случае сотрудник с более высокой квалификацией выполняет работу быстрее, качественнее, с меньшими затратами энергии. Стоит отметить также, что отдельные работы в принципе не могут выполняться сотрудниками низкой квалификации ввиду отсутствия у них требуемых знаний.

Понятие компетенции, т.е. наличие у сотрудника знаний и опыта в той или иной области, органично дополняет понятие квалификации, конкретизируя, в какой именно области работник имеет соответствующий уровень подготовки.

Итак, компетенция – это набор личных качеств специалиста, его способность решать профессиональные задачи определенной группы. Обычно оценка компетенции направлена на выявление наличия или отсутствия нужной для работы составляющей, а не степени ее выраженности. Многие организации разрабатывают модели компетенций, представляющие собой структурированные наборы компетенций, на базе которых формируются требования к претендентам на занятие тех или иных должностей.

На практике используются различные варианты классификации компетенций. В настоящее время модели компетенций и квалификационные рейтинги – основной инструмент, применяемый многими компаниями на всех этапах управления персоналом, включая подбор, организацию текущей деятельности, обеспечение профессионального роста и развития.

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!