Rambler's Top100
 
Статьи ИКС № 01-02 2013
Заурбек АЛЕХИН  29 января 2013

Операционная устойчивость ЦОДа: увлечение или реальная потребность?

Обеспечение стабильности функционирования дата-центров на основе операционной устойчивости – подход относительно новый. По мнению Uptime Institute, он помогает существенно повысить качество работы ЦОДа.

Заурбек АЛЕХИН, независимый консультантСразу сделаем важное замечание: здесь и далее, говоря о дата-центрах, их функционировании, составляющих их системах и т.п., мы будем иметь в виду инженерную инфраструктуру дата-центров, ее функционирование и образующие ее системы. Работоспособность ИТ-оборудования ЦОДа предметом нашего рассмотрения не является и остается вне рамок данной статьи.

Что такое эксплуатация дата-центра

Любое изделие в своем жизненном цикле проходит через стадию эксплуатации, т.е. период его использования по назначению и связанные с этим дополнительные активности, в том числе техническое обслуживание и ремонт. Это относится и к дата-центру. К сожалению, хотя сегодня много говорят и пишут об обслуживании отдельных систем ЦОДа, комплексный взгляд на его организацию и особенности эксплуатации встречается редко.

С точки зрения эксплуатации дата-центр можно охарактеризовать как сложный объект, объединяющий ряд инженерных систем с различными требованиями и нормативами обслуживания. Некоторые системы особо критичны для работоспособности ЦОДа и реализации его целевого назначения. Не являясь изолированными и независимыми, системы могут существенно влиять на качество работы друг друга. Основное назначение ЦОДа диктует высокие требования к функционированию всех его инженерных систем, включая, как правило, постоянную их доступность.

ПО ГОСТУ

Эксплуатация – стадия жизненного цикла изделия, на которой реализуется, поддержи-вается и восстанавливается его качество. Примечание. Эксплуатация изделия включает в себя в общем случае использование по назначению, транспортирование, хранение, техническое обслуживание и ремонт. (ГОСТ 25866-83. Эксплуатация техники. Термины и определени)

Техническое обслуживание – комплекс операций или операция по поддержанию работо-способности или исправности изделия при использовании по назначению, ожидании, хранении и транспортировании.

Ремонт – комплекс операций по восстановлению исправности или работоспособности изделий и восстановлению ресурсов изделий или их составных частей. (ГОСТ 18322-78. Система технического обслуживания и ремонта техники. Термины и определения)

Отметим, что наиболее важными для работы дата-центра справедливо считают системы электроснабжения, а также системы кондиционирования, вентиляции и холодоснабжения. Именно нормальное функционирование этих систем обеспечивает возможность полноценной работы установленного в дата-центре ИТ-оборудования. Тем не менее не следует упускать из виду и остальные инженерные системы: пожаротушения, сигнализации, контроля доступа и др.

Все оборудование, входящее в состав инженерной инфраструктуры дата-центра, в процессе эксплуатации обязательно должно проходить техническое обслуживание, а при необходимости и ремонт. Ввиду большого количества и разнообразия оборудования перечень подлежащих выполнению регламентов и процедур будет немалым, а задача организации эксплуатационных процессов весьма непростой. И за ее выполнением следует обеспечить надлежащий контроль. Если дополнительно учесть фактор взаимозависимости систем, то становится ясно, что с точки зрения эксплуатации ЦОД – сложный, многосвязный и в целом тяжелый объект управления. Для большинства читателей это, конечно, не новость, но мы сознательно делаем на этом акцент, поскольку он важен для дальнейшего понимания статьи.

Операционная модель

Под операционной моделью понимается некое абстрактное описание того, каким образом организация осуществляет свою деятельность, включая реализуемые процессы, с учетом используемых ресурсов и технологий. Нас, в частности, будет интересовать операционная модель деятельности по эксплуатации дата-центра.

Как уже отмечалось, техническая эксплуатация инженерных систем дата-центра – деятельность сложная, имеющая различные аспекты и взаимосвязи. Ее наиболее крупной и значимой областью является собственно техническое обслуживание оборудования и систем, в широком смысле включающее и плановый ремонт.

Необходимость регулярного технического обслуживания дата-центра обусловлена практически теми же причинами, которые побуждают нас заниматься регулярным техобслуживанием автомобиля. Благодаря техобслуживанию мы получаем возможность поддерживать ЦОД в состоянии постоянной готовности, выявляя и устраняя дефекты еще до того, как они приведут к поломке, а также сохранять гарантию производителя. В целом, текущее обслуживание систем дата-центра (включая их плановый ремонт) – это основная, наиболее трудоемкая и ответственная задача эксплуатации. При ее качественном выполнении почти не остается причин для другой, гораздо чаще упоминаемой и более критичной задачи – устранения аварий (сбоев, существенного снижения производительности и т.п.).

К сожалению, полностью избежать аварий невозможно. Поэтому надо быть к ним готовыми. То есть в случае возникновения аварии персонал эксплуатирующей организации должен не пребывать в растерянности, а без промедления приступить к мероприятиям, позволяющим восстановить работоспособность пострадавшей системы в кратчайшие сроки, уменьшая тем самым отрицательное влияние и последствия аварии. Причем вне зависимости от масштаба аварии и других ее характеристик персонал в любых обстоятельствах должен знать, что ему следует делать. В противном случае ситуация станет неуправляемой.

Таким образом, две важнейшие области деятельности службы эксплуатации – это текущее обслуживание и устранение аварий. Операционная модель эксплуатации дата-центра должна описывать действия в рамках решения этих задач по всем системам дата-центра, а также необходимые для их решения ресурсы. Это тот минимум, без которого говорить об эксплуатации бессмысленно. Но, конечно, не следует забывать и про остальные задачи. Например, про необходимость управления мощностями дата-центра. Или про взаимодействие с внешними поставщиками, которых можно привлекать для исполнения отдельных работ, особенно если своих ресурсов недостаточно. А еще – о плановой замене оборудования, о капитальных ремонтах, о финансовом обеспечении…

Возникает закономерный вопрос: неужели нет единой модели, которая учитывала бы все необходимые для правильной эксплуатации дата-центра элементы? Если бы ответ был отрицательным, мы не стали бы его задавать. Итак, встречайте:

Стандарт операционной устойчивости от Uptime Institute

Сегодня наиболее известным и популярным документом из разработанных Uptime Institute является Data Center Site Infrastructure Tier Standard: Topology (Стандарт на топологию) – методологическая основа для сравнения функциональных и мощностных характеристик, а также ожидаемых уровней доступности и производительности ЦОДа исходя из топологии их инженерной инфраструктуры. На основании этого стандарта Uptime Institute осуществляет сертификацию инженерных решений и построенных ЦОДов, присваивая им определенный уровень – Tier – от I до IV в зависимости от полноты соответствия описанным в стандарте критериям.

К сожалению, в последнее время соответствие дата-центра требованиям Стандарта на топологию возведено в абсолют. При этом упускаются из виду ключевые замечания, сделанные как в самом стандарте, так и в комментариях к нему и сопутствующих документах: соответствие объекта изложенным в стандарте требованиям является лишь указанием на принципиальную возможность обеспечить некоторый уровень надежности функционирования инфраструктуры дата-центра. И не более! Никаких гарантий того, что ЦОД, построенный и сертифицированный в соответствии со Стандартом на топологию, например, на уровень Tier IV, в принципе окажется работоспособным и тем более обеспечит доступность не ниже 99,99%, никто не дает! Причина этому простая, и любой специалист ее хорошо знает: как бы ни была надежна техника, она может давать сбои. А уж если в цепочке появляется человек, о котором, кстати, нигде в Стандарте на топологию ничего не говорится, то гарантировать что-либо в принципе невозможно. А поскольку без службы эксплуатации дата-центр работать не может, то…

Для того чтобы разрешить эту коллизию, специалисты Uptime Institute подготовили новый стандарт – Data Center Site Infrastructure Tier Standard: Operational Sustainability (Стандарт операционной устойчивости). Актуальная версия документа доступна для скачивания на сайте этой уважаемой организации.

Предполагается, что стандарт разработан для идентификации основных элементов модели эксплуатации и требований к их реализации с целью обеспечить качественное функционирование дата-центров с учетом заложенных в инженерных решениях возможностей. Как заявляют в Uptime Institute, он предоставляет владельцам, операторам и менеджменту дата-центров приоритизированный набор активностей и рисков, характерных для обеспечения текущего функционирования объекта.

Документ в целом носит концептуальный характер, задает принципы и ограничения верхнего уровня. В нем рассмотрены три составляющие, способные оказать существенное влияние на качество эксплуатации дата-центра:

  • операционная модель;

  • характеристики зданий;

  • расположение площадки.

В приложениях к стандарту перечисляются элементы модели и ожидаемая их реализация (ожидаемое поведение эксплуатирующей структуры, если речь идет об операциях) и указывается, для какого уровня (Tier) дата-центра они необходимы, а для какого – нет. Проводится также оценка рисков местоположения ЦОДа и изучается влияние характеристик здания на возможность и качество исполнения операций. К слову, приложения таким образом оказались наиболее интересным и информативным разделом документа. Отметим также непривычную логику отнесения тех или иных требований в конкретный раздел. Здесь, скорее всего, сказываются новизна и пока не слишком большой опыт применения документа (короткий список сертифицированных по стандарту ЦОДов – тому подтверждение). 

Кроме того, стандарт описывает три уровня сертификатов операционной устойчивости – золотой, серебряный и бронзовый. Бронзовый – это минимально допустимый уровень качества, при котором эксплуатируемый дата-центр будет работать все же предсказуемо; серебряный – уровень эксплуатации в принципе нормальный, но есть что улучшать; золотой – это идеал, к которому всем следует стремиться. Причем в отличие от сертификатов на соответствие Стандарту на топологию сертификат операционной устойчивости действует ограниченное время. Бронзовый – один год, серебряный – три, золотой – пять. Это вполне логично, поскольку основной вклад в оценку соответствия вносит операционная модель, а она подвержена риску деградации в существенно большей степени, чем техника. Так что проверять надо регулярно…

Ключевое требование стандарта: правильная операционная модель

Наибольший интерес для нас представляет именно операционная модель, рекомендуемая Uptime Institute для эффективной эксплуатации инженерных систем дата-центра (на рис. 1 – один из возможных вариантов ее графического изображения).

Основной набор элементов модели – это все, что относится к собственно обслуживанию: профилактическое обслуживание, управление обслуживанием и действия, непосредственно с ними связанные, включая мониторинг критичных параметров, общую организацию работ на объекте, взаимодействие с внешними исполнителями. В этой части никаких откровений нет, об этом говорилось многократно в разных источниках.

Во вторую группу входит все, связанное с планированием, координацией и управлением эксплуатацией. Это неудивительно, если учесть распространенное за рубежом увлечение менеджментом и различными вариантами процессного подхода к деятельности организации. Однако следует отметить, что выбранные в качестве значимых элементов процессы управления мощностями, финансами и общие политики на площадке могут на первый взгляд таковыми не показаться. Поэтому тем, кто заинтересуется стандартом, придется приложить дополнительные усилия для того, чтобы понять суть предъявляемых требований и причину, по которой они столь важны.

А вот третья группа довольно неожиданна. То, что кадры решают все, мы давно уяснили, но еще не привыкли рассматривать вопросы обучения персонала с точки зрения обеспечения надежности функционирования инженерного оборудования. Особо обращают на себя внимание требования наличия программы повышения квалификации собственного персонала и регулярного обучения привлекаемых внешних (!) исполнителей. По мнению Uptime Institute, недостаточно подписать с подрядчиком хороший контракт и своевременно платить по нему. Надо еще и персоналом подрядчика заниматься почти как своим собственным – иначе риски некачественного обслуживания вырастут и надежность дата-центра упадет. Да, тут действительно есть над чем задуматься…

Остальные требования стандарта: особенности здания и внешние риски

Описание стандарта не будет полным, если мы не рассмотрим требования, не имеющие прямого отношения к операционной модели. Таковые можно объединить в четыре группы (рис. 2 ).

Группа инфраструктурных требований (в основном рассматриваются характеристики помещений) направлена на обеспечение возможности обслуживания. Речь идет о вспомогательных инструментах (включая, например, устройства для подъема и перемещения грузов), а также о достаточности площадей для исполнения работ. Отдельно отмечаются наличие возможностей и гибкость в наращивании мощностей.

Продолжением темы является раздел, посвященный особенностям зданий ЦОДов. Помимо общих вопросов в него входят организация контроля доступа, а также возможность безопасного для персонала прибытия и покидания объекта в экстренных ситуациях.

Особняком стоит группа требований по подготовке ЦОДа к эксплуатации (кстати, не совсем понятно, почему эти требования попали в раздел «характеристики зданий», поскольку они отражают переходные процессы и мероприятия, в большей степени характерные для инициирования операционных процессов). По сути, речь в них идет о необходимости полноценной приемки и тестирования построенного объекта.

Местоположение объекта в основном рассматривается с точки зрения внешних рисков и влияний, включая природные (паводки, наводнения, землетрясения и т.п.) и техногенные (близость потенциально опасных объектов – химических предприятий, аэропортов и др.). Здесь возможности управления ситуацией, как правило, отсутствуют, и требования направлены скорее на формирование адекватной оценки ситуации и при необходимости на корректировку ожиданий владельцев и клиентов дата-центра.

А вот вопросы управления персоналом, его безопасности, защиты окружающей среды в стандарте сознательно не обсуждаются. Эти направления, безусловно, тоже оказывают значительное влияние на качество функционирования дата-центра, но, по мнению авторов стандарта, они должны быть под контролем иных общекорпоративных процессов, требований регулирующих органов и т.п.

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!
Поделиться: