Rambler's Top100
Статьи ИКС № 04 2011
Александр ЖАК  05 апреля 2011

Tier N? Уровни отказоустойчивости инфраструктуры ЦОДа

Ответственный подход к инвестированию в инфраструктуру дата-центра требует отчетливого представления о том, что нужно для поддержки текущих и будущих запросов клиентов. Именно такое представление дает ранжирование ЦОДов согласно стандартам Uptime Institute.

Александр ЖАК, технический директор компании «ДатаДомВ соответствии со стандартами Uptime Institute выделяются четыре уровня отказоустойчивости инфраструктуры ЦОДа (Tier I – Tier IV) и три уровня рейтинга кампуса (Gold, Silver, Bronze). Для классификации ЦОДа используется сводный рейтинг, например, Tier III – Gold.

 

Классификация Tier I – Tier IV описывает инфраструктуру кампуса ЦОДа в целом, как единого комплекса, необходимого для штатного функционирования ЦОДа с разными уровнями отказоустойчивости, но в нее не входят характеристики отдельных систем или подсистем. Стандарт подразумевает, что функционирование ЦОДа в целом с определенным уровнем отказоустойчивости зависит от интегрированной бесперебойной работы большого числа систем (например, систем электропитания, охлаждения и т.д.), каждая из которых должна соответствовать этому уровню отказоустойчивости.

 

Иногда (особенно в России) для описания инфраструктуры ЦОДа прибегают к дробным уровням (например, Tier 2.5, Tier III +, расширенный Tier III или Tier IV-lite). Такие обозначения инфраструктуры ЦОДа являются нелегитимными и попросту вводят в заблуждение. Uptime Institute признает только четыре уровня (Tier), и отклонение от критериев уровня в любой инженерной подсистеме является запретом для сертификации ЦОДа в целом на этом уровне.

 

Классификационные требования

 

Рассмотрим, какими характеристиками должен обладать ЦОД для достижения определенного уровня отказоустойчивости в соответствии со стандартом Uptime Institute.

 

Рейтинги Uptime Institute

 

Признанным мировым авторитетом в области проектирования отказоустойчивой инфраструктуры ЦОДа сегодня является американская организация Uptime Institute. Ею собрано, проанализировано и систематизировано большое количество полученной от действующих ЦОДов разнообразной информации, прямо или косвенно касающейся их отказоустойчивости.  

В документ ANSI/TIA-942-2005 Telecommunications Infrastructure Standard for Data Centers в качестве рекомендованного приложения G вошло подробное описание уровней отказоустойчивости инфраструктуры ЦОДа. В начале 2010 г. появились публикации Uptime Institute, носящие уже законодательный, а не рекомендательный характер, в частности, Data Center Site Infrastructure Tier Standard: Topology и Data Center Site Infrastructure. Tier Standard: Operational Sustainability. Эти публикации дополняют и расширяют понятие инфраструктуры ЦОДа: в частности, вводят новое понятие сводного рейтинга инфраструктуры ЦОДа, дополняющее уровень отказоустойчивости инфраструктуры статусом кампуса ЦОДа.  

Отметим, что исключительное право присвоения ЦОДу сводного рейтинга принадлежит Uptime Institute. Для получения сертификации Uptime Institute должны быть сертифицированы абсолютно все стадии проектирования и строительства ЦОДа начиная с эскизного проекта.  

Tier I: базовый уровень  

 Требования. ЦОД уровня Tier I содержит нерезервированные системы и компоненты и единственный нерезервированный канал коммуникаций (один питающий электрический кабель, один кабель от оператора и т.д.). Предусматривается запас топлива для генератора электроэнергии на 12 ч работы.

 

Доступность. Tier I обычно предполагает два независимых 12-часовых полных отключения ЦОДа в год для обслуживания или ремонтных работ. В дополнение, по многолетнему опыту многих ЦОДов, происходит в среднем по 1,2 ежегодных отказа в обслуживании. Результирующие ежегодные простои составляют 28,8 ч, что соответствует доступности 99,67%.

 

Tier II: резервирование основных компонентов инфраструктуры

 

Требования. ЦОД уровня Tier II содержит резервированные системы и компоненты и единственный нерезервированный канал коммуникаций (один питающий электрический кабель, один кабель от оператора и т.д.). В нем должен иметься запас топлива на 12 ч работы для генератора электроэнергии и для каждого резервирующего его генератора.

 

Доступность. Уровню Tier II обычно соответствуют три остановки на обслуживание за двухлетний период и одно незапланированное отключение электропитания в год. Резервные компоненты топологии Tier II обеспечивают некоторую возможность обслуживания, благодаря чему достаточно полного отключения ЦОДа только раз в год; сокращается также количество отказов, влияющих на работу компьютерного оборудования. Результирующие ежегодные простои – 22 ч, что означает 99,75% доступности.

 

Tier III: параллельно обслуживаемая инфраструктура

 

Требования. ЦОД уровня Tier III содержит резервированные системы и компоненты и множественные независимые каналы коммуникаций компьютерного оборудования. Только один из этих каналов должен быть доступен для обслуживания компьютерного оборудования в любой момент времени.

 

Все ИТ-оборудование имеет двойное электропитание, как определено в выпущенном Uptime Institute документе Fault Tolerant Power Compliance Speci-fication, Version 2.0, и должно быть совместимо с топологией кампуса ЦОДа. В компьютерное оборудование, не имеющее средств управления электропитанием, должны быть добавлены такие устройства (point-of-use switch).

 

Предусматривается запас топлива на 12 ч работы для генератора электроэнергии и для каждого резервирующего его генератора.

 

Доступность. Tier III является топологией параллельного обслуживания, поэтому ежегодные плановые полномасштабные отключения ЦОДа не требуются. Практический опыт показывает, что если системы обслуживаются наилучшим образом, то незапланированные отказы снижаются до одного случая длительностью 4 ч каждые 2,5 года, т.е. в среднем 1,6 ч в год. Tier III демонстрирует доступность 99,98%.

 

Tier IV: отказоустойчивая инфраструктура

 

Требования. ЦОД уровня Tier IV содержит множественные, независимые, физически изолированные системы, которые обеспечивают резервирование целых систем, и множественные, независимые, диверсифицированные каналы коммуникаций, одновременно доступные для компьютерного оборудования. Резервированные системы и диверсифицированные каналы коммуникаций должны обеспечивать подачу полной электри-ческой и холодильной мощности к компьютерному оборудованию ЦОДа при любом отказе инфраструктуры.

 

Все ИТ-оборудование имеет двойное электропитание, как определено в документе Uptime Institute Fault Tolerant Power Compliance Specification, Version 2.0, и должно быть совместимо с топологией кампуса ЦОДа. В компьютерное оборудование, не имеющее средств управления электропитанием, должны быть добавлены устройства point-of-use switch.

 

Резервные системы и каналы коммуникаций должны быть физически изолированы от основных систем и друг от друга, чтобы предотвратить любой случай одновременного физического разрушения обеих систем или каналов коммуникаций.

 

Для ЦОДа требуется непрерывное охлаждение (подробности см. в документе Uptime Institute Continuous Cooling Is Required for Continuous Availability). Предусматривается запас топлива на 12 ч работы для генератора электроэнергии и для каждого резервирующего его генератора.

 

Доступность. Tier IV обеспечивает отказоустойчивую инфраструктуру ЦОДа, опытным путем отказы уменьшены до одного 4-часового случая за пятилетний период. Могут происходить отдельные отказы оборудования или каналов коммуникаций, но они не влияют на работу компьютерного оборудования. Tier IV демонстрирует доступность 99,99%.

 

Итоговые требования к уровням отказоустойчивости ЦОДов сведены в табл. 1.

 

Другие требования к ЦОДам

 

Машинный генератор электроэнергии. Для уровней Tier III и IV машинный генератор электроэнергии выступает как основной источник питания. Местное питание от подводящего электрического кабеля считается более экологичной альтернативой. Отключение питания на подводящем кабеле рассматривается не как отказ, а скорее как ожидаемое эксплуатационное условие, к которому ЦОД должен быть подготовлен.

 

Тесты ЦОДа на соответствие уровням Tier III «Параллельное обслуживание» и Tier IV «Отказоустойчивость» должны проводиться при его электроснабжении от машинного генератора электроэнергии.

 

Из истории вопроса

 

Впервые ИТ-специалисты начали задумываться о критериях оценки надежности функционирования инфраструктуры ЦОДа как его самостоятельной части, не связанной в общем случае с устанавливаемым в ЦОДе серверным оборудованием, в начале 70-х годов прошлого века.

 

Создание ЦОДов, соответствующих Tier I (в нынешнем понимании), началось со строительством помещений для больших компьютеров – мэйнфреймов. В 80-х годах прошлого века основная масса ЦОДов уже проектировалась и строилась с уровнем отказоустойчивости Tier II.

 

ЦОДы уровня отказоустойчивости Tier III начали строить в середине 80-х годов;  в настоящее время они стали за рубежом наиболее распространенной инфраструктурой. Многие из них проектировались с учетом развития в дальнейшем до уровня отказоустойчивости Tier IV.

 

Уровень отказоустойчивости Tier IV стал технически возможным только после появления компьютеров и другого электронного оборудования с двумя взаимно резервирующими источниками питания – в середине 90-х годов прошлого века.

Для ЦОДов уровней Tier III и IV может применяться машинный генератор только непрерывного действия (Prime, Continuous – без ограничения длительности работы). Исполнение с ограниченным сроком моточасов в год (Stand-by) подходит только для ЦОДов уровней Tier I и II.  

Другие характеристики. Существует еще ряд параметров (табл. 2), которые можно рассматривать применительно к ЦОДам. Надо подчеркнуть, что не все из них являются критериями соответствия Tier (см. White Book: Tier Classifications Define Site Infrastructure Performance, Uptime Institute, 2008). Например, присутствующий в таблице параметр высоты фальшпола не является критерием ни одного из уровней Tier. Однако фактически рекомендованная высота фальшполов прямо зависит от потребляемой на единицу площади мощности и эксплуатационных качеств ЦОДа.

 

Требования к кампусу

 

Подробное описание требований для рейтингов кампуса ЦОДа можно найти в упомянутом выше стандарте Data Center Site Infrastructure. Tier Standard: Operational Sustainability. Он содержит ряд требований к местоположению кампуса, характеристикам здания ЦОДа, а также к управлению и текущей эксплуатации дата-центра.

 

Золотой рейтинг: низкие риски, связанные с местоположением кампуса, выполнение всех требований к зданию ЦОДа, выполнение всех требований к управлению и текущей эксплуатации. Показатель времени безотказной работы установленного оборудования полностью достигнут или превышен. Управление и текущая эксплуатация ЦОДа жестко регламентированы, выполняются строго по графику, результаты фиксируются. Установленные правила обеспечивают минимальный риск для достижения целевых показателей доступности в режиме 24×7×365.

 

Период действия Золотого рейтинга до повторной сертификации составляет 5 лет.

 

Серебряный рейтинг: низкие риски, связанные с местоположением кампуса, выполнение большей части требований к зданию ЦОДа, выполнение большей части требований к управлению и текущей эксплуатации. Существуют нереализованные возможности для полного достижения показателя времени безотказной работы установленной инфраструктуры.

 

Период действия Серебряного рейтинга до повторной сертификации составляет 3 года.

 

Бронзовый рейтинг: управляемые риски, связанные с местоположением кампуса, выполнение части требований к зданию ЦОДа, выполнение части требований к управлению и текущей эксплуатации. Есть большое поле деятельности для полного достижения показателя времени безотказной работы установленной инфраструктуры. Достижение целевых показателей доступности подвержено определенным рискам.

 

Период действия Бронзового рейтинга до повторной сертификации составляет 1 год.

 

 

В заключение заметим, что инвесторы, выбирающие для дата-центра уровни Tier I и Tier II, обычно ищут решение краткосрочных проблем. И Tier I и Tier II являются тактическими решениями, когда вопросы стоимости строительства ЦОДа важнее стоимости жизненного цикла и критерия доступности. Строгие требования к продолжительности бесперебойной работы ЦОДа и его долгосрочной жизнеспособности обычно приводят к стратегическим решениям, базирующимся на уровнях Tier III и Tier IV.  

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!