Rambler's Top100
Реклама
 
Статьи
Энди ЛОУРЕНС  Ленни САЙМОН  22 января 2024

Анализ отказов в ЦОДах. Окончание

Отказы в ЦОДах обусловлены в основном проблемами в системах электроснабжения и сетевой инфраструктуре, ошибками в ПО, а также человеческим фактором. Рецепты предупреждения: повышение уровня отказоустойчивости и резервирования, эффективности эксплуатации и компетентности персонала.

Начало статьи см. здесь .

Отказы из-за систем электроснабжения

Как говорилось в первой части этой статьи, проблемы с электроснабжением – главная причина отказов на большинстве объектов. Инциденты, связанные с отключением электропитания, обычно случаются внезапно, могут распространяться на всю площадку и оказывать серьезное влияние на предоставление услуг. Хотя диагностика проблемы и восстановление электропитания обычно производятся достаточно быстро, перезагрузка ИТ-систем и полная синхронизация баз данных могут занять много часов. Поломка же оборудования в результате такого инцидента может привести к тому, что ЦОД еще долго не сможет оказывать услуги в соответствии с SLA – пока отказавшее оборудование не будет заменено.
В исследовании отказоустойчивости ЦОДов (2023 г.) о том, что за последние три года на их объектах произошли серьезные сбои, вызванные проблемами с электроснабжением, сообщили примерно треть операторов. Причем по сравнению с предыдущим годом картина изменилась незначительно. Основная причина отключения электричества – сбой в работе ИБП (рис. 1). С отказами генераторов и АВР столкнулись чуть более четверти операторов.
 
Источник: Uptime Institute Data Center Resiliency Survey, 2023
Рис. 1. Основные причины отказов в системе электропитания

Для выхода из строя статических ИБП есть несколько причин:
  • Поломка вентиляторов, которые постоянно находятся в работе, из-за их низкого качества. Отказ одного вентилятора не приводит к выходу устройства из строя, но когда ломаются несколько, ИБП остановится.
  • Выход из строя демпфирующих конденсаторов из-за износа. Регулярное профилактическое обслуживание сократит количество отказов.
  • Выход из строя АКБ. Они требуют тщательного мониторинга и соблюдения графика замены. Батареи часто выходят из строя именно из-за недочетов в обслуживании.
  • Сбой в работе инверторного блока. Эта причина встречается реже и обычно возникает при перегрузке устройства, хотя износ также может привести к отказу.
Неполадки в ИБП более вероятны при длительном сроке службы, поэтому проблемы с цепочкой поставок/заменой могут привести к увеличению числа сбоев. Операторы ЦОДов, не имеющие возможности отключать любой элемент оборудования для технического обслуживания без прерывания сервисов, с большей вероятностью отложат техобслуживание или замену.

Генераторы надежны, но требуют регулярного техобслуживания, проверок топлива и тестирования. Блоки АВР, как правило, надежны, но в них могут возникать сбои на уровне контроллеров, например при нарушении их электропитания. Менее распространены неисправности, вызванные механическими неполадками, такими как износ подшипников или заклинивание переключателя.

Отказы в сетевой инфраструктуре

В последние годы сетевые неполадки все чаще приводят к отказам в работе ИТ-систем. Исследование отказоустойчивости ЦОДов (2023 г.) показало, что двумя наиболее распространенными причинами перебоев в работе сети и/или обеспечении коннективности являются сбои в управлении конфигурацией/изменениями (45% респондентов) и сбои в работе сторонних сетевых провайдеров (39%), и эти цифры схожи с данными предыдущих лет.

Ни одна из двух этих причин не вызывает удивления. В прежние времена сетевое взаимодействие было гораздо более статичным, изначально настроенные маршрутизаторы и коммутаторы никто без нужды не трогал. Но современные сети с динамической коммутацией и программно определяемыми параметрами постоянно оптимизируются и реконфигурируются. Ошибки неизбежны, и в сложной сетевой среде с высокой пропускной способностью частые мелкие ошибки могут распространяться, приводя к каскадным сбоям, которые бывает трудно остановить, диагностировать и устранить.
 
Источник: Uptime Institute Data Center Resiliency Survey, 2023
Рис. 2. Основные причины отказов, связанных с сетью

Сети сложны не только с технической точки зрения, но и с точки зрения эксплуатации. В то время как корпоративные ЦОДы могут обслуживаться только одним или двумя телеком-провайдерами, в крупных кампусах коммерческих ЦОДов, предоставляющих услуги colocation, присутствует много операторов связи. Некоторые из них могут совместно использовать кабели или оборудование связи, что создает общие точки потенциального отказа или ограничения пропускной способности. Схемы ответственности и отчетность также могут быть сложными. Неудивительно, что 39% респондентов, участвовавших в опросе, за последние три года сталкивались с перебоями, вызванными проблемами в сетях сторонних провайдеров, которые они не контролировали.

Большинство из тех, кто избежал простоев, связанных с сетью, объясняют это принятием таких мер, как обеспечение избыточности и повышение отказоустойчивости сети.

Отказы, связанные с ИТ-системами/ПО

За последние три года более трети операторов столкнулись с серьезными перебоями в работе своих объектов, вызванными системными или программными неполадками (рис. 3). Как и в случае с сетевой инфраструктурой, сбои в работе ИТ-систем/ПО обусловлены сложностью и масштабом современных ИТ-комплексов, а также растущей ролью ПО в обеспечении доступности ИТ-сервисов в распределенных сетях. Проблемы с синхронизацией баз данных, балансировкой нагрузки и управлением трафиком могут привести к частичной или полной остановке ИТ-сервисов, запущенных более чем в одном ЦОДе или в одной зоне доступности.
 
Источник: Uptime Institute Data Center Resiliency Survey, 2023
Рис. 3. Основные причины серьезных сбоев в работе ИТ-систем/ПО

Программные сбои в основном вызваны изменениями конфигурации, обновлениями, патчами и пр., которые приводят к нестабильности и непредвиденным ошибкам. Если они распространяются по сетям, локализовать проблему труднее. Примерно каждая десятая организация заявила, что отказы были вызваны кибератаками, например программами-вымогателями и DDoS-атаками. Это меньше, чем в предыдущие годы, однако, когда такие инциденты случаются, они могут быть чрезвычайно серьезными и дорогостоящими.

Каковы бы ни были причины отказов, основными методами их предотвращения всегда называют отказоустойчивость и резервирование. Это не удивительно и подтверждает обоснованность многолетних масштабных инвестиций в ЦОДы и совершенствование архитектур критически важных объектов. Повышение эффективности процессов эксплуатации и управления, а также компетентности персонала – также распространенное средство предотвращения отказов.

Ошибки, связанные с человеческим факторов

Эксперты Uptime Institute считают, что человеческие ошибки следует рассматривать отдельно от других причин отказов. Это очень важный фактор, но редко он является единственной причиной или первопричиной. По данным Uptime, собираемым более 25 лет, человеческая ошибка так или иначе имела место в большей части отказов – от 2/3 до 4/5 всех инцидентов.

Анализировать человеческие ошибки операторам ЦОДов всегда было сложно. Сбой может быть связан с недочетами в организации процесса эксплуатации, с усталостью персонала, недостаточной его обученностью или обеспеченностью ресурсами, а также с тем, что само оборудование оказалось неоправданно сложным в эксплуатации. Такие факторы, как усталость, в конечном счете могут быть обусловлены дефицитом персонала или длинными сменами.

Классифицировать причины отказов также нелегко. Например, если оборудование выходит из строя из-за ошибки в ПО, допущенной на заводе, следует ли относить ее к человеческому фактору? Человеческая ошибка часто может играть определенную роль и в перебоях в работе, которые объясняются другими причинами.

В наших недавних исследованиях по отказоустойчивости мы пытались понять причины некоторых отказов, связанных с человеческими ошибками. Такие отказы в основном вызваны либо несоблюдением персоналом процедур (даже в тех случаях, когда они согласованы и кодифицированы), либо недостатками самих процедур (рис. 4).
 
Источник: Uptime Institute Data Center Resiliency Survey, 2023
Рис. 4. Наиболее распространенные причины отказов, связанных с человеческим фактором

В ходе глобальных ежегодных опросов, проводившихся с 2019 по 2022 гг., подавляющее большинство менеджеров и операторов ЦОДов заявили, что их недавние наиболее значимые отключения можно было бы предотвратить при улучшении управления и процессов эксплуатации (рис. 5).
 
Источник: Uptime Institute Global Survey of IT and Data Center Managers, 2022
Рис. 5. Большинство операторов считают, что отказ можно было предотвратить

Приведенные цифры подчеркивают важность рекомендации, которую эксперты Uptime всегда дают владельцам и операторам ЦОДов: хорошее обучение и хорошо продуманные и отрепетированные процессы эксплуатации играют ключевую роль в сокращении числа простоев, причем все эти меры можно реализовать без больших затрат.

Цена отказов

Данные, полученные нами в ходе исследований за несколько лет, ясно показывают, что простои обходятся все дороже. В глобальном опросе 2022 г. четверть респондентов заявили, что прямые и косвенные издержки их последнего отключения превысили $1 млн. Это подтверждает тенденцию к росту стоимости инцидентов (рис. 6). Еще 45% респондентов заявили, что последнее отключение обошлось им в сумму от $100 тыс. до $1 млн. Очевидно, аргументы в пользу увеличения инвестиций в отказоустойчивость (и обучение) становятся все более вескими.
 
Источник: Uptime Institute Global Survey of IT and Data Center Managers, 2019-2022
Рис. 6. Цена отказов ЦОДов

Почему цена отказов увеличивается? Это может быть связано с целым рядом факторов, начиная от инфляции, повышения штрафов за нарушения SLA, стоимости рабочей силы, запасных частей и их замены, но самая главная причина – растущая зависимость экономической деятельности компаний от цифровых сервисов и ЦОДов. Потеря критически важной ИТ-службы часто напрямую и незамедлительно приводит к сбоям в работе бизнеса и потере доходов.

Мы не рассчитываем среднюю стоимость простоев, поскольку полученная информация редко бывает полезной – последствия сбоев сильно различаются для разных отраслей и предприятий. Каждый год несколько крупных аварийных отключений обходятся настолько дорого, что могут исказить общую картину. Некоторые из них приводят к компенсациям, штрафам и потере бизнеса, а затраты исчисляются миллионами или даже десятками миллионов долларов. В 2022 г. стало известно о нескольких отключениях, которые обошлись более чем в $150 млн.

Тенденция к росту затрат, связанных с отказами в ЦОДах, вероятно, сохранится, поскольку зависимость от цифровых услуг увеличивается. Более строгие соглашения SLA, на которых настаивают многие заказчики, могут сделать перебои в работе ЦОДов еще более дорогостоящими для их владельцев/операторов, а также привести к повышению штрафов регулирующих органов и компенсаций клиентам. Это также оправдывает увеличение инвестиций в обеспечение отказоустойчивости.

Публичные аварии: продолжительность и примеры

Чем дольше длится отключение, тем больше вероятность того, что его последствия будут дорогостоящими и разрушительными и оно привлечет внимание СМИ. Данные по публичным авариям показывают, что последствия большинства (70%) громких инцидентов устраняются в течение 12 ч, а многих гораздо быстрее. Однако начиная с 2019 г. (данные до этого года менее надежны) наблюдается тревожная тенденция: растет число отключений, полноценное восстановление после которых не удалось завершить даже через 48 ч.

Причин этого может быть несколько: например, серьезные пожары и сложности синхронизации распределенных данных и систем управления. Очевидно и то, что масштабные атаки программ-вымогателей, которые обычно требуют отключения всех потенциально уязвимых систем, случаются все чаще.
 
Источник: Uptime Institute Intelligence, 2023
Продолжительность публичных отключений

В последнее время каждый год происходит примерно 15–20 отказов, которые по классификации Uptime относятся к серьезным и тяжелым (категории 4 и 5), т.е. могут привести к высоким финансовым потерям, ущербу репутации, угрозам жизни или безопасности и существенным нарушениям нормативных правил.

Крупнейшие отказы в 2022-м и начале 2023 гг.

 Компания/ организация Категория Год (квартал)  Причина Последствия
 Федеральное управление гражданской авиации (США) 5 2023 (I) Конфигурация ПО / ошибка в БД Запрет на вылет всех рейсов в США. Тысячи рейсов были отменены или задержаны
 Kakao (Южная Корея) 5 2022 (IV)  Пожар в батарейной комнате Большинство пользователей в Южной Корее сталкивались с отказом в обслуживании в течение 8 ч. CEO был уволен. Правительство инициировало специальное расследование. Множество судебных разбирательств
 KDDI (Япония) 5 2022 (III) Сетевая инфраструктура / ошибка в конфигурации 39 млн пользователей получали отказ в обслуживании в течение 86 ч. Были затронуты критические сервисы в разных отраслях
 Google (глобально) 4 2022 (III)  Проблема при обновлении ПО Поисковик Google и использующие его приложения (в частности, Google Maps и Google Images) в течение 40 мин по всему миру находились в режиме офлайн или их работа существенно замедлилась
 CommonSpirit Health (США) 4 2022 (IV)  Кибератака Вторая по размерам сеть некоммерческих госпиталей в США испытывала проблемы с работой ИТ-сервисов более недели. Часть данных была утеряна. Цена аварии превысила $150 млн
 AWS (США) 4 2022 (III)  Потеря электропитания / авария переключателя Нарушение работы основной зоны доступности AWS отразилось на тысячах бизнес-пользователей. Каскадирование ошибок при восстановлении затронуло сторонние сервисы
 Национальная служба здравоохранения (Великобритания) 4 2022 (III)  Перегрев / авария системы охлаждения В одном из крупнейших госпиталей NHS в Лондоне была нарушена работа всех сервисов. Стоимость простоя – £1,4 млн
 Microsoft (Европа/ глобально) 4 2022 (III)  Потеря электропитания / авария переключателя  Заказчики, в основном из Западной Европы, столкнулись с большими задержками и нарушением доступа к приложениям Microsoft 365
Источник: Uptime Institute Intelligence, 2023

Крупнейшие отказы, о которых публично сообщалось в 2022-м и начале 2023 гг. (см. таблицу), затронули в основном компании, предоставляющие телекоммуникационные, облачные и/или цифровые услуги, т.е. сектора, в которых перебои в работе ИТ-систем отразятся на многих пользователях. Государственный сектор и здравоохранение также весьма чувствительны к отказам ИТ-систем.

Выводы

Высокая доступность и отказоустойчивость (что означает предотвращение простоев и эффективное восстановление) – приоритетные цели для всех участников рынка цифровой инфраструктуры. Иногда думают, что прогресс в этой области столь же непременен, как закон Мура в последние три десятилетия. Но это не так: наши данные показывают, что улучшения достигаются с трудом, а сбои обходятся все дороже. Более того, некоторые тенденции могут свести на нет достижения в повышении надежности оборудования и совершенствовании процессов эксплуатации и управления.

Во-первых, переход к распределенным архитектурам, когда все больше ИТ-функций выполняется в стандартных ИТ-системах, часто распределенных или реплицируемых на многих сайтах, конечно, снижает влияние некоторых локализованных сбоев. Но он также может вызвать дополнительные проблемы с сетью, ПО или самими ИТ-системами.

Во-вторых, переход к возобновляемым источникам энергии и распределенной генерации и хранению энергии, по мнению многих экспертов, снизит надежность электросети. Хотя сбои в электросетях не считаются основной причиной отказов в работе ЦОДов, они создают дополнительную нагрузку на их энергосистемы и процессы управления.

В-третьих, роль опытного и хорошо обученного персонала, который следует проверенным процессам управления, имеет решающее значение для обеспечения отказоустойчивости. Однако во многих регионах наблюдается серьезная нехватка квалифицированных кадров.

Предотвращение отказов в ЦОДах – это задача, требующая постоянного мониторинга и внимания, инвестиций и анализа. Ключевые составляющие ее решения: повышение уровня резервирования, тестирование, постоянный анализ меняющихся угроз и новых технологий и, возможно, прежде всего инвестиции в персонал и обучение.

Энди Лоуренс, исполнительный директор по исследованиям, Uptime Institute
Ленни Саймон, старший научный сотрудник, Uptime Institute

Печатается с разрешения Uptime Institute.


Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!