Rambler's Top100
Статьи ИКС № 08-09 2014
Евгения ВОЛЫНКИНА  02 сентября 2014

Понедельник начинается в субботу

Неумелой эксплуатацией можно привести в негодность любое изделие, даже самое незамысловатое. Что же тогда говорить о такой сложной системе, как дата-центр! От работы ЦОДа очень часто зависит жизнеспособность всего бизнеса. Выстраивание грамотной системы эксплуатации дата-центра – дело критической важности, и приступать к нему нужно на самых первых этапах проекта.

Эксплуататорам дата-центров посвящается

Еще лет пять назад российский ЦОД зачастую напоминал неприбранный дом, а продвинутые докладчики на конференциях стращали аудиторию кадрами из «фильма ужасов» - грязные неровные полы, ржавые трубы, пузыри монтажной пены и перепутанные пыльные кабели. Теперь иначе. Уже не первый год коммерческие дата-центры зазывают клиентов и прессу на экскурсии, обувают гостей в бахилы, чтобы не натоптали, ведут в

Растет интерес владельцев крупных корпоративных ЦОДов к дорогому, но более надежному оборудованию, в частности, источникам бесперебойного питания. Конечно, заказчики стремятся к снижению издержек, но в то же время они демонстрируют глубокое понимание преимущества энергоэффективных решений и необходимости качественной защиты инженерных систем центра. Что касается владельцев коммерческих ЦОДов, они по-прежнему предпочитают экономичные решения, оптимальные для мощностей, которыми располагают.

Дмитрий ГУЛЯЕВ, Delta Electronics  

машинные залы, комнаты с ИБП, диспетчерские и прочие помещения, выдают каски, тащат на крышу к чиллерам и в подвал к дизелям. Все чисто, пол и стены ровные, кабели аккуратно уложены, даже дизели сияют. В общем, красота. «Работа над ошибками» заняла совсем немного времени, если учесть длительность цикла проектирования и строительства любого сколько-нибудь крупного ЦОДа. С качеством проектирования дела обстоят неплохо: список российских проектов дата-центров, получивших сертификат Uptime Institute Tier III – Concurrently Maintainable, регулярно пополняется: всего их теперь 12 штук, из которых только шесть располагаются в Москве, а в 2013 г. появился даже сертифицированный проект уровня Tier IV (дата-центр технопарка в Саранске в Мордовии). Сертифицированных в Uptime готовых площадок заметно меньше (пока только три), но такая пропорция вполне традиционна для общемировой ситуации.

Третий и главный

Однако самым важным сертификатом Uptime, по большому счету, является сертификат на систему эксплуатации, официально именуемой операционной устойчивостью, – Tier Certification of Operational Sustainability. Этот вид сертификации появился не так давно – в июле 2010 г. Причем, по заявлению Uptime, инициатором процесса было профессиональное сообщество владельцев и операторов дата-центров Uptime Institute Network, а оно насчитывает почти сотню весьма серьезных организаций и компаний, каждая из которых имеет обычно далеко не по одному дата-центру. Интерес профессионального сообщества к проблемам эксплуатации дата-центров очень велик. Оно и понятно: именно эксплуатацией проверяются все проекты и готовые объекты, причем речь идет о достаточно длительных сроках бесперебойной работы – минимум двух-трех годах.

Правда, мало кто из операторов ЦОДов, и особенно коммерческих дата- центров, соглашается делиться своей информацией о сколько-нибудь серьезных инцидентах и сбоях даже в закрытом кругу таких же владельцев ЦОДов, в отсутствии клиентов и представителей СМИ («у нас все ОК, отказов за последние год, два или три не было»). Чаще всего узнать о проблемах в дата-центре удается только по косвенным признакам: перерывы в работе онлайновых банковских сервисов замечали, наверное, все обладатели банковских карточек, пусть и не каждая неполадка такого рода связана с проблемами в работе инфраструктуры дата-центра банка; время от времени пропадает доступ к тем или иным сайтам, и это тоже бывает следствием падения какого-то ЦОДа. В прессе обычно появляются лишь санкционированные PR-службами рассказы об успешном героическом решении какой-то проблемы: мол, произошел сбой в работе такой-то системы (производитель обычно не называется), но наши специалисты быстро устранили неполадку, а благодаря резервированной архитектуре перерыва в обслуживании не было и ни один клиент не пострадал, – или данные о тех авариях, скрыть которые было невозможно по причине многочисленности свидетелей и пострадавших. В качестве недавнего примера можно привести временное отключение сайта социальной сети «ВКонтакте» из-за «перегрева» дата-центра жарким летом 2014 г. в Санкт-Петербурге; ну а попадание молнии в систему электроснабжения одного из дата-центров Amazon три года назад обсуждал весь мир.

Но, живо интересуясь чужими проблемами в деле эксплуатации дата-центров и умалчивая о своих, операторы дата-центров тем не менее все же хотели бы их решить и объективно оценить реальный уровень своих способностей и возможностей по обеспечению бесперебойной работы своего ЦОДа. Отсюда и спрос сообщества Uptime Institute Network на разработку критериев оценки операционной устойчивости дата-центра. Рискну предположить, что иметь такие критерии очень хотели бы и те владельцы дата-центров, которые весьма скептически относятся к Uptime Institute. Стандарт Tier Certification of Operational Sustainability опубликован (есть и его перевод на русский язык), и в принципе каждый может с его помощью самостоятельно проверить уровень своей системы эксплуатации. Дата-центров, которые официально сертифицировали в Uptime Institute свои службы эксплуатации, по всему миру пока девять (четыре ЦОДа уровня Tier IV и пять – уровня Tier III). Один из них – московский ЦОД компании DataSpace, которая продолжила традицию получения первых в России сертификатов Uptime: на проект, площадку, а теперь и на операционную устойчивость. Но, судя по всему, в гордом одиночестве он будет пребывать не очень долго, так как о планах сертификации систем эксплуатации заявляли и два других российских обладателя сертификатов Uptime на готовые площадки – дата-центры Сбербанка и компании КРОК, которые пока находятся «в процессе». Процедура этого процесса тоже не представляет секрета.

Кстати, этот сертификат имеет три градации – Gold, Silver и Bronze, которые предполагают разные степени отклонения от «идеала», но все девять обладателей этих сертификатов являются «золотыми». «Золото», «серебро» и «бронза» отличаются еще и «сроками годности», которые составляют соответственно три, два и один год, после чего сертификаты нужно подтверждать, что вполне оправданно, поскольку человеческий фактор, который является определяющим в системе эксплуатации, склонен к измене гораздо больше «железа».

Чем раньше, тем лучше

Итак, каковы составные части операционной устойчивости дата-центра и обязательные условия его надежной эксплуатации? Некоторые специалисты считают, что о будущей эксплуатации дата-центра его хозяин должен задуматься в тот самый момент, когда ему вообще пришла в голову идея строительства ЦОДа. Возможно, это преувеличение, но то, что представители эксплуатационщиков должны подключаться к работе как

Самостоятельно можно обслуживать практически все, но нужно понимать, что цена этому – затраты на высококвалифицированный персонал в штате, специальное оборудование и материалы.

Дмитрий МИЛОВ, МТС

минимум на этапе проектирования и активно участвовать в этом процессе, считают, наверное, все владельцы и операторы ЦОДов. Конечно, сами проектировщики от такой постановки вопроса, мягко говоря, не в восторге. Вмешательство «эксплуататоров» создает лишние проблемы – быстренько нарисовать, сдать и получить деньги уже не выйдет, но заказчики теперь в большинстве своем грамотные, они понимают, что исправление ошибок проектировщиков может обойтись очень дорого.

Прежде всего эксплуатационщики обвиняют проектировщиков в незнании особенностей монтажа и эксплуатации конкретного оборудования в ЦОДе, в результате чего оборудование неудобно ставить на отведенное место, ремонтировать, менять, обслуживать и т.п. Бывает даже, что габариты дверей не соответствуют его размерам! В общем, «гладко было на бумаге, но забыли про овраги...». Что же еще не устраивает эксплуатационщиков?

1. Излишняя склонность проектировщиков к сложным инженерным системам, поскольку любое усложнение конструкции повышает риск отказа при аварии.

2. Слабая масштабируемость проектируемых решений.

3. Минимизация начальных затрат на строительство, приводящая к усложнению и удорожанию последующей эксплуатации (самый распространенный для коммерческих дата-центров случай – недостаток площадей для складов и других вспомогательных помещений, в том числе для хранения ЗИПа).

4. Неправильный расчет мощности оборудования электропитания и охлаждения (правда, по этому пункту у заказчиков есть претензии и к производителям оборудования, которые в паспортах на свои изделия не всегда указывают их реальные характеристики, что выясняется обычно не сразу, а проверить несоответствие очень непросто).

Выбор оборудования тоже нельзя пускать на самотек, и не только потому что стоимость его эксплуатации может довольно скоро превысить начальную цену. Нужно также учитывать:

– состав ЗИПа,

– стоимость расходных материалов и запчастей,

– сроки их поставки,

– политику производителя в области ремонта и сервисного обслуживания (должны ли эти работы выполнять сам производитель, его авторизованный партнер или любая специализированная сервисная компания),

– периодичность и стоимость регламентных работ и т.д.

В принципе, эксплуатационщики уже понимают, что ни один даже самый квалифицированный и предусмотрительный проектировщик не способен самостоятельно учесть всех проблем и нюансов, с которыми может столкнуться служба эксплуатации ЦОДа. Главное теперь, чтобы проектировщики тоже поняли это и перестали рассматривать эксплуатационщиков как досадную помеху на пути к идеальному проекту: ведь именно эксплуатационщикам предстоит не один год жить и работать с этим «идеалом».

Но и после сдачи проекта на этапе строительства заказчику и будущим эксплуататорам ЦОДа не следует расслабляться, иначе проект и построенный по нему объект могут оказаться весьма дальними родственниками. Надзор должен быть жестким и при общестроительных работах, и при монтаже инженерных систем, и при настройке поставленного оборудования. Приходилось слышать от представителей вендоров о том, как во время работ по установке оборудования их раздражали сотрудники эксплуатационной службы будущего дата-центра, которые постоянно дышали в спину, заглядывали через плечо, все записывали и задавали массу вопросов. Однако такое поведение заказчиков вместе с раздражением вызывало и уважение, потому что настоящие специалисты понимают, что только таким способом можно по-настоящему подготовиться к будущей эксплуатации устанавливаемого оборудования.

ЦОДы следующего поколения будут представлять собой интегрированные платформы и решения, где все инженерные системы здания (энергораспределение, охлаждение, пожаротушение и др.) и ИТ-инфраструктура тесно взаимодействуют друг с другом. Операторы такого дата-центра смогут не только осуществлять мониторинг, но и полностью управлять всем ЦОДом в режиме реального времени.

Эрван ВАН ДЕН ПЛАС, Siemens

Нынешние ЦОДы становятся все крупнее, счет стойкам идет уже на тысячи, цена ошибки очень велика, соответственно, должен измениться и подход к эксплуатации. Постепенно растет понимание того, что введение в эксплуатацию является одним из самых ответственных этапов жизни дата-центра. Именно во время этапа его ввода в эксплуатацию можно и нужно организовывать тренинги команды эксплуатации, не рискуя ИТ-оборудованием владельца корпоративного ЦОДа или клиентов коммерческого дата-центра. Такой организации работы службы эксплуатации, по счастью, сейчас способствует и сама ситуация на рынке услуг коммерческих дата-центров. Дефицита нет, как нет и очередей клиентов, в нетерпении ожидающих запуска ЦОДа, – значит, уже не так велик соблазн немедленно начать «делать деньги». Хорошим правилом становится выделение на тестирование инфраструктуры дата-центра как минимум месяца (а самые дальновидные отводят на это даже три месяца). В это время можно совершать ошибки без сколько-нибудь серьезных последствий, можно испытать разные режимы работы оборудования, отрепетировать действия команды эксплуатации в разных ситуациях – в общем, хорошо потренироваться и подготовиться к «соревнованиям». С одной стороны, это время, отнятое от коммерческой работы объекта, но, с другой стороны, его нельзя считать потерянным для зарабатывания денег: в противном случае тестирование так или иначе придется проводить на реальном работающем оборудовании клиентов, а это уже чревато серьезными, в том числе финансовыми, последствиями, которые могут во много раз перекрыть всю прибыль от раннего старта.

Армейский резерв

Эксплуатация любого сложного объекта, в том числе и такого высокотехнологичного, как дата-центр, это, по сути, каждодневная рутина: обходы, проверки оборудования, написание инструкций, отслеживание изменений, регламентные работы, учебные тревоги, документирование всего и вся и т.д., и т.п. Только таким способом можно свести к минимуму случаи, требующие героической ликвидации последствий аварии. Говорят, что в американских ЦОДах в службу эксплуатации охотно берут отставных офицеров-подводников, которые привыкли четко выполнять предписанные правила, и именно это их качество очень ценится в дата-центрах. По идее, столь же подходящими кадрами для служб эксплуатации ЦОДов должны быть бывшие летчики, штурманы и стрелки-радисты: непосредственная опасность для собственной жизни поневоле заставляет соблюдать правила, некогда написанные кровью (правда, тогда непонятно, откуда взялась известная поговорка «где начинается авиация, там заканчивается порядок»).

Рынок аутсорсинга услуг по эксплуатации инфраструктуры ЦОДов в России есть, однако он находится на этапе становления. Сейчас характерны две крайности: «сделаем все, что хотите, недорого, но … без гарантий» и – как положено, профессионально, с SLA, но очень дорого. Видимо, должно пройти какое-то время, чтобы и заказчики подобных услуг поняли, чего они ждут, а аутсорсинговые компании смогли предложить соответствующий спектр услуг. Но уже сейчас достаточно хорошо развит рынок аутсорсинга обслуживания отдельных систем. Яркий пример – рынок обслуживания ДГУ. Есть предложения на любой вкус – от сменного обслуживания ДГУ на месте до подачи ДГУ «по вызову» в строго определенный период.

Владимир ВАЛЬКОВИЧ, Orange Business Services в России и СНГ

Как в России обстоят дела с трудоустройством вышедшего в отставку подводного и летного состава, сказать сложно, эта информация не афишируется, но бывшие военные в службах эксплуатации дата-центров есть, то есть в этом вопросе мы находимся в общемировом тренде. С моделью организации службы эксплуатации дела обстоят несколько отлично от зарубежных практик. Крупные европейские и американские коммерческие ЦОДы удивляют и восхищают российских посетителей своей безлюдностью, специалисты аутсорсинговой обслуживающей компании появляются там лишь в случае необходимости в течение часа в соответствии с SLA. У нас пока царит модель, называемая «опорой на собственные силы». На аутсорсинг, как правило, отдаются лишь те работы, выполнением которых могут заниматься только сертифицированные компании, остальное стараются делать сами. Объясняется это тем, что в российском SLA время реакции составляет обычно четыре часа и никаких предпосылок для его сокращения за приемлемые для заказчиков деньги пока не видно; многие работы по обслуживанию оборудования заказчик может выполнить собственными силами, и обойдется это ему гораздо дешевле, чем привлечение сторонних специалистов; предлагаемые вендорами онлайновые службы мониторинга оборудования, позволяющие выявлять первые признаки будущих неполадок, во многих крупных компаниях запрещены из соображений информационной безопасности. В общем, пока владельцу дата-центра удобнее и дешевле держать собственную службу эксплуатации, несмотря на дефицит квалифицированных специалистов на рынке.

Аутсорсинг как неизбежность

Все это напоминает ситуацию, которая еще лет пять назад наблюдалась на рынке услуг дата-центров: крупные компании и финансовые организации строили свои ЦОДы и категорически отказывались арендовать площади коммерческих дата-центров, мотивируя это соображениями надежности и информационной безопасности. Но со временем даже скептики убедились в том, что коммерческие ЦОДы могут работать не менее надежно, чем корпоративные, что проблемы информационной безопасности разрешимы и что обходятся эти услуги дешевле, чем в собственном дата-центре. Так что сейчас даже очень крупные банки арендуют площади в коммерческих ЦОДах. С эксплуатацией, скорее всего, будут происходить аналогичные процессы. Подрастут кадры в сервисных компаниях, снизятся цены на их услуги, в соответствии с потребностями заказчиков скорректируются SLA, требования к информационной безопасности будут более реалистичными, а средства информационной защиты – более сильными, станут более доступными и соответствующими требованиям заказчиков системы мониторинга и автоматизированного управления оборудованием дата-центров и т.д. В общем, когда аутсорсинг станет удобнее и дешевле натурального хозяйства, тогда и в российских ЦОДах окажется существенно меньше людей без ущерба для высокого уровня эксплуатации. Но даже тогда правило как можно более раннего включения эксплуатационщиков в проект дата-центра сохранит свою актуальность.

Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!