Rambler's Top100
Статьи ИКС № 12 2012
Андрей ПАВЛОВ  Дмитрий БАСИСТЫЙ  Дмитрий КУСАКИН  11 декабря 2012

Типовые отказы ЦОДов и их профилактика

Надежность ЦОДа, как известно, зависит не только от качества установленного в нем оборудования и правильности проектных решений. Может быть, даже в большей степени на нее влияют качество монтажных работ и исполнения процедур эксплуатации.

В данной статье мы расскажем о типовых проблемах в процессе эксплуатации ЦОДа, которые встречались в нашей практике.

Дизель-генераторные установки

Основой бесперебойной работы ЦОДа является беспрерывное энергоснабжение ИТ-оборудования и систем кондиционирования. С учетом качества и надежности отечественных внешних электрических сетей узким местом в системе энергоснабжения ЦОДа становятся ДГУ и ИБП. Причем незапуск ДГУ может принести гораздо больший ущерб, нежели выход из строя ИБП.

Очевидно, что в случае пропадания внешнего городского энергоснабжения последним оплотом бесперебойной работы ЦОДа остается дизель-генераторная установка. А значит, любой сбой в ее работе может привести к остановке всего ЦОДа. При этом сама ДГУ представляет собой сложное инженерное устройство, состоящее из множества компонентов, каждый из которых может стать причиной аварии.

В качестве примера рассмотрим проблему, возникшую в результате поломки системы вентиляции контейнера ДГУ. В одном из ЦОДов произошел следующий инцидент: в момент пропадания напряжения на городских вводах ДГУ запустилась в аварийном режиме, электроснабжение ЦОДа было восстановлено. Дежурная смена, инженеры, присутствовавшие в то время в дата-центре, занялись выяснением причин пропадания внешнего снабжения, при этом перестав уделять внимание «стабильно работающей» системе. Через короткий промежуток времени ДГУ остановилась, ЦОД был обесточен полностью. После выяснения причин аварии оказалось, что в контейнере ДГУ из-за засора всего-навсего не открылись шторки жалюзи вентиляции. Температура в контейнере существенно поднялась, и была подана автоматическая команда на отключение двигателя. А поскольку в ЦОДе отсутствовала централизованная система мониторинга, то информация об ошибке не появилась на мониторах дежурной смены. Аварию удалось устранить, лишь принудительно открыв шторки жалюзи ДГУ.

Один из способов решения данной проблемы – система мониторинга, отслеживающая максимальное количество параметров ДГУ, в том числе температуру в контейнере, и работоспособность и состояние вспомогательных систем. В случае же отсутствия такой системы (что сложно себе представить для ЦОДа) необходимы четкие инструкции дежурной смене, предписывающие личную проверку пуска ДГУ и работоспособности вспомогательных систем.

Электрощитовое оборудование и автоматика

Как показывает практика, некорректные алгоритмы работы и ошибки системы автоматики электрощитового оборудования могут вызвать не менее серьезные проблемы, чем неработоспособность ДГУ.

Например, в одном из дата-центров случился сбой, хотя и не приведший к аварийному останову инженерных систем, но ухудшивший экономические показатели бизнеса. Произошло кратковременное пропадание городского ввода, в результате чего автоматика подала сигнал на запуск ДГУ, но при дальнейшем восстановлении энергоснабжения она не перевела нагрузку обратно на внешний ввод. Дизель-генераторная установка находилась вне зоны прямой видимости дежурной смены, а система мониторинга не отслеживала работу системы автоматического ввода резерва (АВР). В результате ДГУ мощностью 1 МВт проработала не менее 4 ч и сожгла порядка 1 куб. м дизельного топлива, что обошлось ЦОДу в сумму около $1000. Сумма, может быть, и не критичная для устойчивости экономики ЦОДа, но эти расходы были совершенно лишними и их легко было избежать. К тому же, проработай ДГУ еще какое-то время, могло закончиться дизельное топливо, а это спровоцировало бы остановку всего дата-центра.

Случаются на практике и ошибки автоматики другого рода, вызванные некорректной настройкой реле контроля фаз. При приемке вновь построенного дата-центра зачастую не уделяется должного внимания уставкам границ срабатывания АВР. Настройка может проводиться на граничное значение по умолчанию – 400 В, в то время как среднее значение входного напряжения составляет 380 В. Пока ЦОД еще недостаточно нагружен, срабатывания АВР и перехода на ДГУ не происходит, но когда дата-центр начинает приближаться к расчетной мощности, напряжение под нагрузкой проседает на 5–7 В, автоматика может воспринять это как пропадание городского ввода и дать команду на запуск ДГУ и перевод всей нагрузки на резервный источник электроснабжения. Затем городское напряжение начинает расти, происходит обратный переход на городской ввод. Такая ситуация может запустить неконтролируемую цепочку переключений с городского ввода на ДГУ и обратно, которую можно прервать только вручную.

Зачастую во время пусконаладки системы энергоснабжения подрядчик неправильно выставляет настройки селективности групповых и стоечных автоматов, что впоследствии может вызвать каскадное отключение группы потребителей от нагрузки во время короткого замыкания на одном из потребителей. Ток короткого замыкания, возникающий в стойке, при неверных настройках автоматов может пройти на групповой автомат, либо отключив его, либо пройдя еще выше по иерархии электрораспределительной системы и отключив автомат более высокого уровня, включая ГРЩ. Для ЦОДа это достаточно критично, так как ошибка всего лишь в одной стойке способна обесточить от нескольких рядов стоек до всего ЦОДа целиком.

Помимо приведенных примеров работа автоматики электроснабжения может вызвать массу других ошибок в работе дата-центра, так как логика ее работы – суть основа надежности ЦОДа. Чтобы избежать ошибок, связанных с автоматикой электроснабжения, следует обратить на нее пристальное внимание на стадии проектирования, а во время эксплуатации проводить периодические комплексные испытания логики взаимодействия инженерных систем ЦОДа, моделируя всевозможные аварийные ситуации и отслеживая поведение системы.

Источники бесперебойного питания

Продолжая тему ошибок в энергосистеме ЦОДа, нельзя обойти вниманием такой важный элемент системы энергоснабжения, как ИБП. Наиболее типичной аварийной ситуацией с ИБП можно считать короткое замыкание на его электросхемах вследствие некачественного обеспыливания устройства и уборки. В нашей практике было два прецедента, связанных с некачественной уборкой ИБП, которые привели к выгоранию его электрических схем и далее к деградации всей системы бесперебойного энергопитания ЦОДа. Нельзя сказать, что данная проблема – удел исключительно инженерии дата-центра, но с учетом важности этих компонентов для работоспособности ЦОДа и высокой вероятности события из-за больших мощностей ИБП, рекомендуем обратить на нее пристальное внимание в процессе эксплуатации.

Часто также происходят инциденты с батарейными блоками ИБП, приводящие к задымлению и даже пожару. А виной всему некачественная протяжка соединительных перемычек аккумуляторных батарей. Особенно часто это происходит, если при производстве батарей используют свинцовые клеммы. Свинец – пластичный материал, со временем он становится текучим, в буквальном смысле течет. И если периодически не протягивать соединения, то через некоторое время контакт ослабевает, в этом месте возникает локальное повышенное сопротивление, и при прохождении большого электрического тока оно начинает нагреваться. Со временем под воздействием электричества и тепла свинец плавится, что с высокой вероятностью может привести к задымлению и пожару.

Проблема касается не только контактов ИБП, но и в целом всей системы электрораспределения ЦОДа. Как часто говорят, электрика – наука о контактах, и 80% всех проблем с электрикой связаны с некачественно выполненными соединениями. Эти проблемы могут вызвать в ЦОДе пожар, не говоря уж о том, что даже минимальное локальное задымление может привести к значительному простою ЦОДа в результате срабатывания системы газового пожаротушения.

Помимо прочего необходимо уделять повышенное внимание равномерности заряда аккумуляторных батарей (АКБ). В начале эксплуатации ИБП аккумуляторные батареи часто заряжаются и разряжаются крайне неравномерно, что может негативно повлиять на их срок службы и длительность работы ИБП в автономном режиме. Эта проблема возникает вследствие различных уровней заряда батарей в начале их эксплуатации. Частично ее можно устранить, используя метод «раскачки» АКБ – так же, как мы поступаем обычно с батареями мобильных устройств. Перед началом промышленной эксплуатации ИБП желательно несколько раз провести процедуру полного разряда и затем полного заряда батарей.

Система кондиционирования

Известно, что за несколько минут простоя системы кондиционирования температура внутри машинного зала может вырасти на десятки градусов. При этом вероятна, как минимум, остановка ИТ-нагрузки по перегреву, а в худшем случае – потеря важной информации. Поэтому вторым по значимости для работы ЦОДа фактором, после непрерывности энергоснабжения, является поддержание требуемых значений влажности и температуры.

Мы постоянно пропагандируем идею, что ЦОД – это единый организм, живущий по своим правилам, в котором инженерные подсистемы неразрывно взаимодействуют между собой, растут и развиваются вместе с дата-центром. Если нет поддержки и понимания этой идеи, возникает первая проблема – отсутствие оптимизации ресурсов ЦОДа с ростом его энергопотребления. Например, во вновь построенном ЦОДе неопытная служба эксплуатации включает в работу все кондиционеры или большую их часть, не учитывая, что работает только небольшая часть ИТ-нагрузки и, соответственно, выделяется лишь малая часть номинальной тепловой нагрузки. Это провоцирует слишком частые повторения циклов включения и выключения компрессоров, что влечет за собой повышенный износ оборудования и преждевременный выход его из строя. Точно так же необходимо четко и правильно настроить периоды переключения кондиционеров в режиме ротации, чтобы снизить риск преждевременного износа оборудования. Ни в коем случае нельзя допускать частого включения кондиционеров на непродолжительное время.

Стоит обратить внимание и на такую проблему, как обмерзание вентиляторов внешних блоков системы кондиционирования в холодное время года. И хотя частое переключение кондиционеров в режиме ротации приводит к более быстрому износу оборудования, тем не менее зимой эту процедуру стоит проводить чуть чаще, чем в теплый период.

Не работающий длительное время вентилятор зимой вполне может механически заклинить после атмосферных осадков (ледяного дождя, снега) или из-за образования сосулек. При последующем запуске кондиционера это приведет к сбою и к отключению кондиционера по аварии.

Этих проблем можно избежать, просто проведя подготовку кондиционеров к наступающему холодному или теплому сезону, скорректировав количество хладагента в системе и уделив особое внимание обслуживанию внешних блоков.

Касаясь жидкостных систем холодоснабжения, нельзя не отметить проблемы с системой распределения хладагента, т. е. трубопроводами. Как ни старались мы равняться на Запад в области качества проведения монтажных работ, оно по-прежнему оставляет желать лучшего. Особенно это относится к простым, казалось бы, сантехническим работам. Причем, как известно, жидкость – один из основных врагов электрических систем ЦОДа, а жидкость, находящаяся непосредственно в ЦОДе, – это враг в квадрате. Поэтому предотвращение протечек в жидкостных системах холодоснабжения – задача номер один для службы эксплуатации любого ЦОДа. Мы неоднократно сталкивались с авариями в дата-центрах, при которых происходили утечки хладагента непосредственно в машинный зал, и в подавляющем большинстве случаев это случалось в местах подсоединения шкафных кондиционеров к системе трубопроводов. Такие соединения, как правило, выполняются с помощью гибкой подводки, поэтому на этапе строительства необходимо максимум внимания уделить качеству применяемых в данном узле материалов и квалификации персонала, выполняющего работы. Не стоит и забывать о периодической проверке и протяжке креплений этих узлов в процессе эксплуатации.

В завершение темы об ошибках системы кондиционирования расскажем еще об одной проблеме: автоматическом запуске системы фреонового кондиционирования после кратковременного пропадания энергоснабжения либо после переключения на аварийный источник энергоснабжения. Это случается с оборудованием далеко не всех производителей, но если вам не повезло и вы выбрали оборудование, для которого такая проблема существует, лучше диагностировать ее заранее. Дело в том, что некоторые модели прецизионных кондиционеров после пропадания питания или всплесков напряжения трактуют данное событие как «ошибку чередования фаз». Эта авария относится к критическим, автоматически она не снимается, сделать это можно только вручную. Каково же было удивление службы эксплуатации некоего коммерческого ЦОДа, когда после пропадания напряжения на городском вводе и запуске ДГУ все кондиционеры выдали «ошибку по фазировке» и отказались запускаться. Для диагностирования этой аварии рекомендуем провести комплексные испытания ЦОДа при его приемке и обязать подрядчика устранить проблему до начала эксплуатации. В некоторых случаях может помочь перепрограммирование контроллера, а в других придется ставить стабилизатор напряжения или принимать иные меры.

Система видеонаблюдения

Описанную ниже проблему нельзя классифицировать как аварию или отказ, но если вы учтете следующий совет, это позволит вам избежать затяжных споров с подрядчиками по эксплуатации инженерных систем. Старайтесь содержать систему видеонаблюдения в состоянии «полной боевой готовности»! Этой системе, особенно в машинных залах, многие не придают особого значения, считая, что она полностью работоспособна, а по факту нередко нужная камера оказывается не в фокусе, смотрит «в землю», или же запись просто не ведется. Но при «разборах полетов» только видео-запись позволяет однозначно определить виновных и оценить действия персонала в критических ситуациях.

Собственно, этот последний совет касается не столько технической части ЦОДа, сколько организации его службы эксплуатации в целом.

  

Как показывает наш опыт, большая часть аварий в дата-центре происходит из-за повышенного влияния человеческого фактора и зачастую из-за отсутствия у службы эксплуатации опыта, строго прописанных регламентов и технологических карт проведения работ. Резюмируя все сказанное выше, хочется отметить, что четко отлаженная работа службы эксплуатации, способной предотвратить большинство возникающих проблем, как известных, так и новых, – залог надежной и безотказной работы столь сложного объекта, как ЦОД.  

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!