Rambler's Top100
Статьи ИКС № 05 2014
Чарльз СЕЛКИРК  06 мая 2014

Не настраивайте людей против машин

Автор, имеющий более чем десятилетний опыт в сфере консалтинга инженерных систем, строительства ЦОДов под ключ и их эксплуатации в Южной Африке, делится своими наблюдениями и выводами относительно того, как ориентация владельца дата-центра на безостановочность или на безопасность работы сказывается на надежности этих сложных объектов.

Технологии проектирования и строительства ЦОДов и модели обеспечения эксплуатационной устойчивости, применяемые в Южной Африке, находятся на мировом уровне. Тем не менее они испытывают большие трудности с точки зрения привлечения и удержания высококвалифицированных и в должной степени мотивированных сотрудников. Отчасти это связано с тем, что далеко не всегда признается важность работы этих людей – по крайней мере до тех пор, пока не случается крупная неприятность!

В этом регионе получили широкое распространение модели, отвечающие требованиям стандарта Tier Standard: Topology, разработанного Uptime Institute. В последнее время значительная часть заказчиков при проектировании ЦОДов выбирает уровень Tier III. В большинстве случаев это требует организации двух активных маршрутов подачи электроснабжения в нагрузку, причем оба они должны быть оснащены резервным электропитанием на основе ИБП. Такое требование обусловлено серьезными проблемами, которые сохраняются в Южной Африке с устойчивым электроснабжением. Тем не менее недавно принятый стандарт эксплуатационной устойчивости (Operational Sustainability Standard) пока не оказал сильного влияния на положение вещей в регионе, и только в самое последнее время в этом деле обозначился определенный сдвиг. При этом в организации рабочих процессов в дата-центре местные компании – операторы ЦОДов, как правило, придерживаются одного из двух сильно различающихся подходов. Первый можно назвать ориентированным на безостановочность работы, а второй – ориентированным на безопасность.

К такому выводу мы пришли по результатам анализа сводных данных об отказах и инцидентах, близких к полному прекращению функционирования ЦОДа. Данные были получены во время непосредственной работы в разных дата-центрах, а также при оказании консультационных услуг. При этом изучался вопрос и о том, как ориентация владельцев на обеспечение безопасности операторов сказывалась на безостановочности и надежности работы ЦОДа. Мы стремились проверить общепринятую в бизнесе точку зрения, согласно которой во главу угла должна быть поставлена безостановочность работы ЦОДа невзирая ни на что, а операторов и персонал, занимающийся техническим обслуживанием и ремонтом, можно считать достаточно квалифицированными и мотивированными, чтобы они сами выполняли все требования, связанные с обеспечением собственной безопасности.

Ориентация на безостановочность работы

Каким бы ни был заявленный уровень бесперебойности работы дата-центров, подавляющее большинство их владельцев считают ее главнейшей ценностью. Эта точка зрения базируется на убеждении, что бизнес обязательно пострадает в случае любого перерыва в оказании услуг и что никаких перерывов в работе ЦОДа быть не может, если только эти перерывы не вызываются непреодолимыми обстоятельствами или катастрофами. Если ЦОД характеризуется высокой безостановочностью, то его владелец может быть уверен, что прерывания обслуживания не произойдет, что техобслуживание можно будет проводить по четко спланированному графику и что места для отказов и ошибок в общем не будет.

При этом вопрос о безопасности операторов и ремонтного персонала поднимается и обсуждается крайне редко – практически никогда. Не будет преувеличением сказать, что в секторах финансовых услуг и розничной торговли описанный подход доминирует.


Ориентация на безопасность

В компаниях с прогрессивной корпоративной культурой превалирующей ценностью является безопасность сотрудников, и все, что делается в бизнесе, подчинено этой идее. Это вовсе не означает, что безостановочность работы неважна – просто «безопасность – прежде всего». Эти компании пользуются более квалифицированными инжиниринговыми услугами, и все они без исключения рассматривают отказы, аварии и другие инциденты как источник потенциальных потерь, которые необходимо прогнозировать и минимизировать. Такая корпоративная культура стимулирует разработчиков и операторов ЦОДов высоко ценить свои здоровье и жизнь, а также рабочие места и – как показывает наш опыт – приводит и к повышению безостановочности работы ЦОДа.

Оказалось, что подобная корпоративная культура более характерна для добывающих отраслей и промышленного производства, хотя некоторые дата-центры, работающие в области торговли, и ряд коммерческих ЦОДов также становятся на этот путь.

Парадоксальные результаты анализа

Всего нами было проанализировано 49 инцидентов, имевших место в дата-центрах в Южной Африке за период с января 2000-го по октябрь 2012 г. К счастью, ни в одном из них люди не пострадали. Однако в половине случаев результатом инцидентов стал простой ЦОДа – либо полный, либо частичный (когда дата-центр был способен функционировать лишь с пониженной нагрузкой), что нанесло ущерб его репутации, подорвало доверие клиентов и вызвало финансовые потери. По тяжести последствий инциденты распределились следующим образом: к полному простою привели 16 (33%) инцидентов, к частичному – 9 (18%), не оказали влияние на функционирование ЦОДа 24 (49%) инцидента (см. таблицы 1–3, если не оговорено особо, причина инцидента – человек).


Очевидно, что в ЦОДах, спроектированных для достижения более высокого уровня Tier, суммарное время простоев меньше.

В тех 25 инцидентах, которые привели к полному или частичному простою, мы распределили ЦОДы по разным уровням готовности (исходя из собственной субъективной оценки): 52% из них мы отнесли к ЦОДам с самой низкой готовностью, 36% – с ЦОДам с хорошей готовностью и 12% – к ЦОДам с наивысшей готовностью.

Присвоение ЦОДу того или иного статуса с точки зрения ориентации на безостановочность или безопасность может показаться субъективным, но, по нашим наблюдениям, различие между перспективами развития ЦОДов в этом смысле просматривается довольно четко. Из общего числа владельцев ЦОДов, включенных в данный отчет, 75% четко ориентируются на безостановочность и только 25% владельцев мы можем классифицировать как тех, кто ориентируется на безопасность.

Если исключить вызвавшие простои инциденты на объектах с низким уровнем готовности (13 инцидентов), то цифры будут следующими. Из оставшихся 12 случаев на объектах, соответствующих требованиям уровня Tier III (хорошая готовность), произошло в три раза больше инцидентов, чем на объектах, отвечающих требованиям Tier IV или близким к этому (высокая готовность), т.е. соотношение становится 75:25. Частично такое изменение пропорции обусловлено относительной многочисленностью ЦОДов с низкой готовностью.

Из исследованных 49 инцидентов 67% произошли в ЦОДах, ориентированных на безостановочность и лишь 33% – в ЦОДах, ориентированных на безопасность. Если исключить инциденты, имевшие место на объектах с низкой готовностью, то пропорция останется практически неизменной: из 29 инцидентов в дата-центрах с хорошей и высокой готовностью 69% произошли в ЦОДах, ориентированных на безостановочность и 31% – в ЦОДах, ориентированных на безопасность.

Вместе с тем из 33 инцидентов, которые имели место в ЦОДах, ориентированных на безостановочность, 22 (67%) привели либо к частичному, либо к полному останову их работы. А из 16 инцидентов, которые имели место в ЦОДах, ориентированных на безопасность, к аналогичным последствиям привели всего три (19%). При этом во всех трех случаях остановы произошли по причине отказов техники: соответствующие объекты были сооружены достаточно давно, и планирование и практика техобслуживания были там неоптимальными.

Если мы исключим из рассмотрения объекты с низкой готовностью, то увидим, что из 12 инцидентов, вызвавших останов ЦОДа, 11 были зафиксированы у владельцев, ориентированных на безостановочность, и только один – у владельца, ориентировавшегося на безопасность. Этот один-единственный случай был связан с отказом оборудования в давно устаревшем ЦОДе.

Прим. ред. Не лишним представляется подчеркнуть, что виновником подавляющего большинства инцидентов, как повлекших за собой полный или частичный останов ЦОДа, так и не оказавших влияния на его функционирование, был человек. Отказами техники были обусловлены только шесть инцидентов из 49, причем пять из них на работу дата-центра не повлияли.

В сухом остатке

Количество изученных инцидентов уже позволяет сделать определенные выводы. Хотя, безусловно, более широкое исследование с большим количеством инцидентов могло бы привести к несколько иным результатам.

За последнее десятилетие произошел существенный сдвиг в сторону повышения надежности ЦОДов, что обусловлено возросшими требованиями их владельцев к времени полезной работы объекта.

Несмотря на то что количество дата-центров с высоким уровнем готовности увеличилось, следует отметить, что владельцы, ориентирующиеся на безопасность, значительно реже сталкивались с инцидентами, приводившими к остановке работы ЦОДа, по сравнению с теми, кто ориентируется на безостановочность.

Переориентация ЦОДа на безопасность при эксплуатации, техобслуживании и производстве ремонтных работ выливается в существенные выгоды для их владельцев с точки зрения увеличения времени полезной работы.

Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!