Rambler's Top100
 
 
Статьи ИКС № 10 2009
Александр МАРТЫНЮК  13 октября 2009

Четыре вопроса к дата-центрам

Казалось бы, очевидно: поддержание жизнеспособности дата-центра должно организовываться в соответствии с возможностями его инженерной и сетевой инфраструктуры. Однако на практике это далеко не так. Особенно досадно, когда все усилия по проектированию и строительству действительно хорошего ЦОДа в считаные месяцы сводятся на нет из-за непрофессионализма службы эксплуатации.

Александр МАРТЫНЮК, генеральный директор компании «Ди Си квадрат»По статистике, ошибками при эксплуатации правильно спроектированных и созданных систем в ЦОДах вызвано до 70% отказов.

В последние годы отечественный рынок дата-центров преодолел наконец этап ликбеза и научился более или менее ориентироваться в терминологии, отражающей уровни качества (надежности) дата-центров. Но, как это нередко случается в России, привычка «усовершенствовать» любой зарубежный опыт взяла верх: принятая было за образец классификация Uptime Institute, четко разграничивающая характеристики дата-центров четырех уровней надежности, приобрела национальный колорит и была дополнена промежуточными градациями. В итоге то здесь, то там приходится слышать о дата-центрах, в которых одни инженерные системы соответствуют Tier III, другие – Tier II или Tier IV, а сами дата-центры отнесены к категории Tier III+.

Но бизнес – не школа. И оценки 3+ или 3- здесь неуместны. Если в дата-центре хотя бы один фактор не отвечает требованиям к Tier III (за исключением нескольких показателей, жестко зафиксированных российскими нормативами), то это уже никакой не Tier III. Выяснить соответствие технологической площадки тому или иному уровню надежности можно в ходе экспертного обследования. Это важно прежде всего самому владельцу дата-центра. Зная реальное положение дел, он сможет более адекватно планировать свои действия в ближайшей и отдаленной перспективе. Скажем, не будет устанавливать оборудование, которое создает нагрузку на пол, соответствующую Tier III – Tier IV, в помещение с параметрами перекрытий, отвечающими Tier II. Владелец неполной «тройки» не станет обещать потребителям своих услуг гарантированной непрерывности бизнеса в любых условиях (штрафные санкции за нарушение SLA могут нанести серьезный урон его бюджету и репутации). Но зато он сможет вполне аргументированно обосновать инвестору необходимость модернизации инженерной инфраструктуры и последствия этих мер с точки зрения повышения рентабельности дата-центра.

К сожалению, сегодня это понимают немногие из тех, кто заявляет о планах по вводу в эксплуатацию очередного «самого отказоустойчивого в стране» дата-центра. Зато опытных инвесторов подобная вольность трактовок TIA-942 отнюдь не мотивирует к сотрудничеству. Особенно теперь, когда защита любого бизнес-плана по созданию или модернизации технологической площадки подвергается тщательному анализу. И вопросам эксплуатации дата-центров в этом анализе отводится заметное место.

Вопросы технические/технологические

Наиболее распространенный пример нарушения правил эксплуатации дата-центра – грубое искажение температурно-климатической модели серверного зала. Попросту – перегрев. Превышение изначальной энергонагруженности стойки в 2–3 раза сегодня обычное явление для дата-центров, построенных 5–6, а то и 10 лет назад. За это время в серверной сменилось несколько поколений ИКТ-систем, но инженерное оснащение осталось прежним. Максимум, что было предпринято в плане его обновления, – сплошные плиты фальшпола заменены перфорированными, поставлены дополнительные блоки кондиционирования, бытовые вентиляторы в проходах и сняты стеклянные двери со шкафов.

Надо отдавать себе отчет, что какими бы передовыми ни были инженерные решения на момент проектирования дата-центра, насколько бы не было замедлено их моральное устаревание, для 2- и 6-киловаттных стоек необходимы абсолютно разные по функционалу, конфигурации, исполнению климатические и электрические системы. Но на практике этим нередко пренебрегают – либо по незнанию, либо намеренно («пока поработает, а мы тем временем придумаем, как быть дальше»).

Установкой в машинном зале бытовых вентиляторов и снятием дверных панелей со стоек тут не обойдешься (особенно, если охлаждение в стойке идет снизу вверх), а добьешься лишь равномерного прогрева воздуха и распределения пыли по залу.

Другая распространенная ошибка – перекрытие движения воздуха в подпольном пространстве после прокладки дополнительных коммуникаций (что, как правило, связано с заменой стандартных устройств более компактными). Прежде чем вторгаться в подпольное пространство, нужно свериться с проектной документацией либо провести предварительный аудит, который позволит оценить риски и, возможно, найти альтернативный вариант выполнения поставленной задачи. Если этого не сделать, то последствия не заставят себя ждать: из-за дефицита холодного воздуха целыми стойками начнет выходить из строя, казалось бы, вполне исправное оборудование. В том числе и новое. В том числе и критически значимое для бизнеса.

Аналогичная ситуация может сложиться и в том случае, если будет нарушено взаимное расположение плиток фальшпола (сплошных и перфорированных). Такое бывает после проведения регламентных работ, перед началом которых рабочие не сочли нужным зафиксировать исходное положение плиток. В итоге охлаждающий воздух работает вхолостую, а оборудование в верхних отделах стоек перегревается.

Приведенные примеры описывают реальные ситуации, которые мне доводилось наблюдать при осмотре действующих технологических площадок. Причем не только в России, но и за рубежом. В ряде случаев подобные нарушения удается своевременно диагностировать и устранить. В том числе и благодаря квалифицированному температурно-климатическому моделированию, в ходе которого выявляются зоны, наиболее благоприятные для размещения нетипичных для данного помещения устройств. Стоит отметить, что при регулярной актуализации температурно-климатической модели (и не после, а до намеченных преобразований ИКТ-наполнения ЦОДа) вполне можно избежать нештатных ситуаций и дорогостоящих работ, которые обычно сопутствуют их авральному устранению. В отечественной и международной практике достаточно примеров того, как в серверном зале, предназначенном для 2-киловаттных стоек, без ущерба для оборудования размещались стойки или монолитные вычислительные комплексы с энергопотреблением до 6–8 кВт.

Вопросы организационные

В эту группу вопросов в первую очередь входит несогласованность действий персонала, причастного к поддержанию штатной работы оборудования ЦОДа. Речь здесь идет и о сотрудниках ИТ-отдела, и о представителях службы технической эксплуатации, и о снабженцах. Сюда же относится несоблюдение (или отсутствие) корпоративных стандартов в отношении ИКТ- и инженерного оборудования.

Вам никогда не приходилось видеть новую систему, которая очень нужна бизнесу, но запуск которой откладывается из-за физической невозможности подключения? Причина – типы и количество разъемов в местах установки не совпадают. Одни не сказали, другие не спросили. Не до мелочей было.

Другой пример – для обеспечения более качественного ИТ-сопровожения бизнеса (или для выхода на более привлекательные экономические параметры) в компании решили сменить вендора. На обучение персонала тратиться не стали – во-первых, кризис, во-вторых, новое оборудование аналогично по своему функционалу ранее использовавшемуся. Сказано – сделано. Договор оформлен, оборудование пришло. Все отлично, за исключением того, что у новых устройств есть свои особенности эксплуатации, которые приходится постигать на ходу. Хорошо, если не методом неудачных проб и непоправимых ошибок.

Нельзя забывать и о слабых местах, связанных с плохо организованной поставкой запасных частей. Какому бы уровню надежности и типу не соответствовал дата-центр, в нем в любой момент может возникнуть необходимость замены какой-либо детали. Поэтому служба логистики должна позаботиться о том, чтобы такая замена не была связана с простоями, негативно отражающимися на ключевых показателях бизнеса. Как известно, лучший признак хорошей работы логистики – ее незаметность.

Это нестыковки, вызванные проблемами внутренней организации. Есть и другие – обусловленные несогласованностью действий владельца дата-центров и его контрагентов. Например, поставщиков альтернативного топлива. Если в условиях энергетического кризиса в дата-центре случится простой дизель-генераторов, размер ущерба для бизнеса владельца технологической площадки и его арендаторов (если речь идет о коммерческом дата-центре) может быть ужасающим.

Вопросы экономические

Экономика дата-центра в период его эксплуатации примерно на 70% завязана на организацию эффективного энергообеспечения. Сегодня эта тема – одна из самых обсуждаемых международным деловым сообществом. Кризис вызвал и в России заметный рост интереса к проблеме снижения стоимости владения дата-центром за счет более рационального использования подведенных электрических мощностей. Но дальше этого мы пока не пошли. Иначе как объяснить тот факт, что в стойках наших дата-центров все еще много ИТ-систем с КПД на уровне 50% и ниже? При этом электричество эти системы потребляют в режиме, необходимом для их полноценного функционирования. Но это еще полбеды. Хотя бы потому, что устранить эту экономическую брешь можно достаточно безболезненно, оптимально перераспределив информацию между операционными системами и хранилищами данных. Куда более удручающе выглядят цифры, характеризующие энергоемкость неправильно подобранных инженерных систем, главным образом климатических. Во всем мире тщательному подсчету затрат на эксплуатацию инженерных систем присваивается наивысший приоритет при планировании мер по оснащению или модернизации помещения для ЦОДа. Проектировщики принимают во внимание габариты машинного зала, его изометрическую конфигурацию, планируемую модель взаимного расположения стоек и монолитных блоков, их предполагаемую энергоемкость. На основании этих данных выполняется температурно-климатическое моделирование, определяются концептуальные требования к климатической системе, исследуется возможность использования внешнего воздуха, необходимый уровень резервирования по TIA-942 и Uptime Institute и т.д., и т.п. Только после этого рассчитываются финансовые показатели: затраты на приобретение системы и ее эксплуатацию. При наличии двух (реже – трех) альтернативных вариантов предпочтение отдается тому, который позволяет наиболее экономично поддерживать работоспособность дата-центра без ущерба для качества его сервисов. Основной довод в пользу такого подхода – сокращение общей стоимости владения инженерной инфраструктурой дата-центра, а следовательно, смещение финансовой составляющей бизнеса с себестоимости продуктов и услуг на повышение конкурентоспособности и развитие перспективных направлений.

У нас пока такая бизнес-логика скорее исключение, чем правило. Стремясь как можно скорее запустить доходный бизнес, владельцы вводимых сегодня площадок готовы закрыть глаза на то, что экономия в случае установки выбранного ими решения гораздо меньше упущенной выгоды, которую мог бы принести более дорогой по капзатратам альтернативный вариант.

Вопросы проектные

В заключение несколько слов о необходимости документальной фиксации всего, что происходит или не происходит в дата-центре. Ведение такого дневника наблюдений бывает весьма полезным при выборе новой технологической площадки. Во-первых, потому, что накопленная статистика инцидентов и удачных нововведений даст возможность лучше понять и оценить текущие и перспективные потребности самой компании. Во-вторых, при планировании развития информационной инфраструктуры будет легче сформулировать ожидания от проектной команды и контролировать качество ее работы. В-третьих, анализ опыта, полученного в ходе исправления ошибок и просчетов, позволит впредь более ответственно подходить к выбору проектировщиков, подрядчиков, клиентов.

Инвесторы это обязательно заметят.

И оценят. 
Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!