Rambler's Top100
Статьи ИКС № 03-04 2015
Денис ТУКАЛЕВСКИЙ  Константин ЯКОВЕНКО  21 апреля 2015

Инженерная инфраструктура ЦОДа. Как сэкономить в кризис на обслуживании

Стремление к сокращению расходов в кризис понятно. В эксплуатации ЦОДов основная статья экономии – сервисное обслуживание. Чем здесь можно поступиться и чем нельзя?

 Константин ЯКОВЕНКО, заместитель директора департамента сервиса и аутсорсинга, «АМДтехнологии»
Денис ТУКАЛЕВСКИЙ

Сервисное обслуживание, по сути, сводится к регламентным работам и устранению нештатных ситуаций. Если перечень и периодичность регламентных работ определяются производителем оборудования или, как в случае систем пожарной безопасности, законодательными нормами, и сэкономить на них можно, только проводя их реже или вовсе от них отказавшись, то с нештатными ситуациями все не так просто. Заранее спрогнозировать нештатную ситуацию нельзя, но необходимо обеспечить мероприятия по ее локализации и устранению и выполнить их в определенные сроки. В свою очередь, сроки устранения нештатной ситуации определяются временем реакции и временем восстановления. Время реакции – это период, в течение которого нештатная ситуация обнаруживается и локализуется. Время восстановления – период, в течение которого нештатная ситуация устраняется и оборудование или инженерная система ЦОДа возвращается в режим штатной работы (см. рисунок).

Если взять за основу типовой сервисный контракт, то фактически время реакции – это время прибытия инженера на объект заказчика, а время восстановления – время, за которое приехавший инженер восстановит систему с учетом доставки на объект запасных частей и материалов.

Таким образом, возможности сокращения затрат сводятся к экономии на времени реакции/восстановления и к сокращению объема регламентных работ.

Как отзовется экономия в ЦОДах разных уровней отказоустойчивости

Рассмотрим возможности экономии на примере моделей отказоустойчивости ЦОДа (Tier I – Tier IV) по классификации Uptime Institute. Пойдем от уровня с максимальным резервированием инфраструктуры (Tier IV) к уровню с минимальным резервированием (Tier I).

Tier IV – резервирование компонентов, каналов доставки электроэнергии и холодоносителя с дублированием 2(N + 1); статистическая доступность – 99,995%, время простоя (статистика) – 0,4 ч в год.

Tier III – резервирование компонентов, каналов доставки электроэнергии и холодоносителя 2N; статистическая доступность – 99,98%, время простоя (статистика) – 1,6 ч в год.

Tier II – резервирование компонентов N + 1; статистическая доступность – 99,741%, время простоя – 22 ч в год.

Tier I – без резервирования (N); статистическая доступность – 99,671%, время простоя – 28,8 ч в год.

Предположим, есть сервисный контракт с режимом обслуживания 7  24, временем реакции не более 4 ч и фиксированным временем восстановления не более 12 ч.

Инфраструктура ЦОДов уровней отказоустойчивости Tier IV и Tier III имеет хороший запас прочности и в наименьшей степени подвержена влиянию человеческого фактора. Можно сэкономить на времени реакции:

 

  • изменить режим обслуживания с круглосуточного на двенадцатичасовой (с 9.00 до 21.00) или на обслуживание только по рабочим дням с 9.00 до 18.00;
  • увеличить сроки прибытия инженера на объект с 4 до 8 (12) ч или до следующего рабочего дня.
  • Можно сэкономить на времени восстановления:
  • увеличить фиксированный срок получения запасных частей и материалов;
  • отказаться от фиксированных сроков и закупать запасные части по факту выхода оборудования из строя, а материалы – по факту расходования.

 

Такая экономия не окажет существенного влияния на ЦОД уровня Tier IV, но для ЦОДа уровня Tier III к подобным мерам надо относиться с осторожностью, поскольку основные риски экономии заключаются в сроках нахождения систем в неисправном состоянии, так как в это время отсутствует резервирование и система или ее часть, а значит и весь ЦОД, будет соответствовать уровню отказоустойчивости Tier I. А с учетом того, что большинство крупных узлов оборудования импортные и поставляются под заказ, сроки нахождения систем в неисправном состоянии могут достигать 3 месяцев (12–14 недель).

Большинство российских ЦОДов относятся к категориям Tier II и Tier I, инфраструктура таких ЦОДов имеет наименьший запас прочности и в наибольшей степени подвержена влиянию человеческого фактора. И если в ЦОДе Tier II резерв оборудования позволит в разумных пределах увеличить время реакции, сроки получения запасных частей и материалов, а также спланировать и провести устранение нештатной ситуации с отключением потребителей в удобное время, то для Tier I восстановление функционирования инженерной системы будет длиться столько, сколько займет реакция на сбой, доставка запасных частей и устранение неисправности.

Таким образом, экономия на времени реакции и времени восстановления для ЦОДов Tier II и Tier I небезопасна, так как может привести к длительным простоям.

К экономии на регламентных работах надо подходить с еще большей осторожностью, нежели к экономии на времени реакции/восстановления, поскольку отсутствие систематического обслуживания оборудования не позволяет содержать его в исправном состоянии и обеспечивать превентивное выявление неисправности. Это ведет к риску «каскадного» или «веерного» выхода из строя подсистем инженерной инфраструктуры за счет наложения одной поломки на другую, вплоть до полной остановки ЦОДа.

Чем чревата экономия на отдельных подсистемах ЦОДа

Рассмотрим возможности экономии за счет увеличения времени реакции, времени восстановления и сокращения обслуживания для конкретных подсистем инженерной инфраструктуры.

Система холодоснабжения. Является системой жизнеобеспечения ЦОДа. В случае ее поломки дата-центр сможет функционировать 5–30 мин в зависимости от помещения и энергетической плотности ИТ-среды. При некоторых конфигурациях ИТ-среды время корректного отключения оборудования может превышать сроки функционирования без охлаждения, что приведет к перегреву оборудования и аварийному завершению его работы. Такое отключение негативно сказывается на ИТ-оборудовании и достаточно часто приводит к его поломке и потере данных.

Регламентные работы проводятся на основе требований производителей оборудования и требуют специальных знаний и сертификации.

Увеличение времени реакции и восстановления, включая доставку запчастей и материалов, напрямую влияет на работоспособность и время восстановления согласно уровню отказоустойчивости ЦОДа.

Система электроснабжения (в составе ВЭС, резервной дизельной или газовой электростанции и ИБП). Наравне с системой холодоснабжения является системой жизнеобеспечения ЦОДа, но в ряде ситуаций более критична. Так, поломка ИБП или компонента системы, не имеющего резерва, приведет к немедленному отключению потребителя или всего ЦОДа. Такое отключение негативно сказывается на ИТ-оборудовании и часто приводит к его поломке и потере данных.

Объем и периодичность регламентных работ устанавливаются на основе рекомендаций или требований производителей и в соответствии с ПТЭЭП. Незначительная часть регламентных работ, не требующих специальных знаний и сертификации, может выполняться своими силами. Обслуживание комплексных систем, оборудования ИБП и резервной электростанции требует специальных знаний и сертификации.

Увеличение времени реакции и восстановления, включая доставку запчастей и материалов, напрямую влияет на работоспособность и время восстановления согласно уровню отказоустойчивости ЦОДа.

Система вентиляции. Попадание пыли в помещение и ИТ-оборудование ЦОДа при выходе из строя системы приводит к повышенному износу и, как следствие, преждевременному отказу оборудования. Отказ оборудования вследствие пылевого загрязнения не является гарантийным случаем, поэтому «пылевая» поломка – это потеря инвестированных средств. Помимо этого, исправная система вентиляции – это требование норм безопасности для помещений ИБП с аккумуляторными батареями.

Регламентные работы можно ограничить проверкой состояния и своевременной чисткой и заменой фильтров и выполнять своими силами. Исключение составляют управление системой с помощью автоматики и управление системой пожаротушения. В данном случае требуется проводить комплекс испытательных и диагностических регламентных работ.

Сроки реакции можно безболезненно увеличить до следующего рабочего дня, а восстановление системы проводить по факту закупки запчастей и материалов.

Структурированная кабельная система. Как правило, системы, спроектированные и собранные в соответствии с требованиями ведущих производителей, имеют длительный (более 10 лет) гарантийный срок службы. Находясь в исправном состоянии, СКС не требует особых затрат на подержание текущей работоспособности. Исключение – необходимость часто выполнять кроссировку или перекоммутацию ИТ-оборудования. В этом случае существенно возрастают трудозатраты на поддержание таблицы коммутации в актуальном состоянии (эти работы можно выполнять собственными силами, без привлечения сертифицированных специалистов) и увеличивается риск отказа СКС вследствие влияния человеческого фактора. А это, в свою очередь, может привести к простою ИТ-сервисов и экстренной необходимости выполнения ремонтно-восстановительных работ, срок которых будет равен времени реакции и восстановления, включая доставку запчастей и материалов.

Система пожаротушения и оповещения о пожаре (задымлении). Единственная из подсистем ЦОДа, обслуживание которой регламентируется законодательством и нормативной документацией. Причем нормативами определены минимальное время реакции и периодичность выполнения технического обслуживания. К примеру, для Москвы и Санкт-Петербурга время реакции – не позднее следующего рабочего дня (не более 6 ч в рабочее время). Периодичность техобслуживания – не реже одного раза в месяц. Таким образом, экономия на обслуживании системы пожаротушения за счет увеличения времени реакции и периодичности обслуживания не только создает риски возникновения пожара и утраты имущества, но и влечет за собой ответственность в соответствии с законодательством.

Система безопасности (в составе системы контроля доступа и видеонаблюдения). Система обеспечивает ограничение и разграничение доступа по сферам ответственности обслуживающего персонала, фиксирует действия, фактически произведенные с оборудованием. В случае выхода ее из строя и до момента восстановления возрастает риск несанкционированных действий и доступа к оборудованию. Также будет затруднено расследование ситуаций, вызванных влиянием человеческого фактора. Поломка системы наиболее критична для операторов коммерческих ЦОДов (разные клиенты размещаются в одном блоке или соседних стойках) и организаций, которые связаны с обеспечением карточных платежей (нарушение требований стандарта PCI DSS). В данном случае экономить можно либо на обслуживании элементов контроля доступа, дублированных на уровне механических замков, либо на обслуживании камер видеонаблюдения с дублирующими функциями. При принятии рисков, связанных с безопасностью и сохранностью имущества, можно увеличить время реакции и восстановления системы, вплоть до закупки запчастей по факту поломки.

Можно ли сэкономить на персонале?

Имеет ли смысл снижать расходы на сервисное обслуживание за счет сокращения персонала? Воспользоваться услугами аутстаффинга и, например, вместо собственной дежурной смены посадить у себя смену внешнего подрядчика? Здесь следует иметь в виду, что компания-подрядчик так же будет нанимать персонал, платить ему заработную плату, налоги, делать отчисления в ФСС и ПФР. Плюс к этому в стоимость сервисного договора будет заложена маржа не менее 15–30%. А с учетом того, что стоимость специалистов на рынке одинакова и для заказчика, и для компании-подрядчика, переплата за специалистов по договору аутстаффинга будет существенной. Как раз на сумму той самой маржи, т.е. не менее 15–30%.

А вот в случае с узкоспециализированным персоналом ситуация иная. К примеру, у вас в штате есть дизелист, специалист по ИБП или любой другой специалист, «заточенный» под одну из подсистем инженерной инфраструктуры. Как показывает практика, в среднем на обслуживание одной подсистемы человек тратит около 15–20% рабочего времени. И в этом случае выгоднее держать такого специалиста за пределами своей компании, по договору аутсорсинга, когда его рабочее время и, соответственно, затраты на него распределены между несколькими заказчиками. Тогда стоимость специалиста для конечного заказчика, даже с учетом маржи, которую закладывает внешний подрядчик, будет существенно ниже рыночной. Однако даже в этом случае заказчику требуется персонал, который будет управлять обслуживанием и контролировать его.

Когда экономить нужно особо осторожно

Независимо от соответствия моделям отказоустойчивости существуют временные промежутки, в течение которых к экономии на сервисном обслуживании инженерной инфраструктуры ЦОДа необходимо подходить с максимальным вниманием.

В первые два года эксплуатации инженерной инфраструктуры риски незапланированного простоя значительно выше. Как правило, за этот период проявляется большинство недочетов монтажа и проектирования. А если при реализации проекта экономия осуществлялась за счет качества, вероятность отказов возрастает многократно, и в некоторых случаях функционирование дата-центра оказывается невозможным без постоянного контроля и восстановления оборудования.

По прошествии пяти и более лет эксплуатации возникают риски выхода из строя крупных узлов оборудования за счет износа. При должном обслуживании, выполняемом в полном объеме, систематических осмотрах, наличии инструментария и запасных частей вероятность выхода из строя крупных узлов оборудования снижается, восстановление предварительно планируется. При отсутствии всего вышеперечисленного срок восстановления будет длительным. Самые высокие риски отказа в это время имеют системы без резервирования и системы с резервированием только критичных компонентов.

Примеры из практики

ЦОД Tier I. По причине износа вышел из строя вентилятор на конденсаторе кондиционера, оборудование перешло в режим продувки помещения без охлаждения и через 15 мин ИТ-оборудование начало аварийно отключаться по перегреву. Инженеры прибыли на объект через 3 ч после получения запроса, 2 ч заменяли негодные части запасными и восстанавливали работу оборудования. Кондиционер был запущен в работу спустя 6 ч с момента возникновения нештатной ситуации. После включения ИТ-оборудования выяснилось, что вышло из строя несколько жестких дисков и произошла потеря данных. Полное восстановление работоспособности ЦОДа заняло 24 ч.

ЦОД Tier II. По причине заводского брака вышел из строя контактор в щите АВР, отвечающий за переключение каналов электропитания «город – ДГУ», прекратилась подача электропитания в ЦОД. Отработав 40 мин, источники бесперебойного питания отключились, ИТ-персонал не успел корректно завершить работу ИТ-оборудования, и часть оборудования отключилась по аварии. Инженеры прибыли на объект через 2 ч, 2 ч устанавливали запасные части взамен поврежденных и восстанавливали работу оборудования. На протяжении первых часов после восстановления электропитания источники бесперебойного питания заряжали АКБ и время автономии не соответствовало минимально требуемому. Полное восстановление работоспособности ЦОДа заняло 24 часа. Для предотвращения подобной ситуации в будущем пришлось проводить модернизацию щита АВР.

ЦОД Tier III. Сертифицированные ЦОДы уровня Tier III появились в России недавно, и реального опыта их эксплуатации еще немного. Все известные на текущий момент проблемы российских ЦОДов уровня Tier III – это недостатки проектирования и реализации. К примеру, в одном из ЦОДов забыли запроектировать второй грузовой лифт, а имеющийся лифт австрийского производства, проработав недолго, вышел из строя. В итоге клиенты страдали два месяца, пока нужную деталь не привезли из Европы.

ЦОД Tier IV. Практики работы ЦОДов уровня Tier IV в России недостаточно. Единственный действующий российский ЦОД уровня Tier IV, находящийся в Мордовии, получил сертификацию только на уровне проектной документации. Подтверждения соответствия фактически построенного ЦОДа уровню Tier IV пока нет.

  

Рассмотрев различные варианты экономии, можно сделать простой, но тем не менее важный вывод: экономия всегда имеет обратную сторону. Сэкономив на сервисном обслуживании ЦОДа, можно потерять гораздо больше на остановке зависимых от него услуг и потребителей. Если же стоит вопрос выживания самой компании, экономия становится мерой неприятной, но вынужденной. Однако решение об экономии не может приниматься только на уровне технических подразделений. Решение должно приниматься совместно с руководством компании, с четким пониманием последствий и осознанием рисков для бизнеса. 

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!