| Рубрикатор | ![]() |
![]() |
| Статьи | ![]() |
![]() |
| Энди ЛОУРЕНС  Дэниел БИЗО  Макс СМОЛАКС  Дуглас ДОННЕЛЛАН  Джей ДИТРИХ  Рэнд ТАЛИБ  | 16 апреля 2026 |
Проблемы вырастут вместе с масштабом
На фоне роста масштабов и концентрации дата-центров, влияния задач ИИ на профиль вычислительной нагрузки и уменьшения стабильности энергосистемы из-за структурных проблем обеспечивать высокую отказоустойчивость ЦОДов станет все сложнее и дороже.
«ИКС» продолжает публикацию прогнозов развития отрасли ЦОДов, которые эксперты Uptime Institute Intelligence представляют в начале каждого года. С первым , вторым и третьим прогнозами можно ознакомиться на нашем сайте.
На протяжении десятилетий в отрасли ЦОДов сложились общие принципы обеспечения устойчивости физической инфраструктуры: хотя полностью избежать сбоев невозможно, риск и последствия отказов можно минимизировать за счет хорошо отработанных проектных и эксплуатационных практик. Речь идет, в частности, о независимости от электросети и других коммунальных служб, резервировании критически важных систем для обслуживания без отключения полезной нагрузки (т.е. нулевого планового простоя). Устойчивость объекта к отказам повышается также дополнительными проектными и эксплуатационными мерами.
Отрасль разделяет эту философию устойчивости, и она доказала свою эффективность. Согласно данным опроса Uptime Institute, количество сбоев на один объект имеет тенденцию к снижению.
Тем не менее Uptime Intelligence ожидает, что в ближайшие несколько лет устойчивость вновь станет одним из главных предметов внимания и беспокойства в отрасли. Приведут к этому сразу несколько причин.
- Структурные, долгосрочные проблемы централизованного энергоснабжения в сочетании с растущей концентрацией и укрупнением ЦОДов повысят вероятность нестабильности и сбоев в работе электросетей.
- Развитие ИИ меняет профиль нагрузки, специфику работы и распределения ИТ-мощностей, вследствие чего реализовать несколько зон доступности и распределенную отказоустойчивость станет сложнее и/или дороже.
- Увеличивающаяся зависимость от дорогостоящей крупномасштабной генерации электроэнергии на площадках ЦОДов приведет к тому, что операторы ЦОДов будут использовать генерирующие мощности совместно. Кроме того, им придется более тесно сотрудничать с электросетевыми компаниями, чтобы активнее управлять рисками и мощностями и согласовать свои потребности в устойчивости и интересы партнеров по энергосистеме.
При этом, несмотря на то что крупные сбои в масштабе отрасли теперь менее вероятны, последствия отказов, по данным Uptime Intelligence, становятся серьезнее. Например, потеря основного облачного сервиса может повлиять на тысячи сторонних приложений и сервисов, а автоматическое перенаправление трафика может привести к дальнейшим каскадным сбоям в работе сервисов из-за перегрузки сети.
Регуляторы обратили внимание на эти риски для национальных экономик. Одни из них в качестве первого шага к более активным мерам определили ЦОДы как критически важную национальную инфраструктуру. Другие планируют принять новые законы, направленные на повышение устойчивости.
Концентрация и масштаб объектов растут
Региональная концентрация поставщиков ИТ-услуг и операторов волоконно-оптических сетей когда-то представляла собой серьезную проблему для устойчивости интернета, но эта проблема уже в значительной степени решена. Однако сегодня высокая концентрация ЦОДов сопряжена с риском для тех регионов, где они расположены, например Северная Вирджиния (США) или район Дублина (Ирландия).
Существуют три основные проблемы. Во-первых, сочетание растущего уровня электрификации, устаревания передающего оборудования и увеличения доли прерывистой генерации в энергетическом балансе уменьшает стабильность энергосистемы. В сентябре 2025 г. Министерство энергетики США предупредило, что к 2030 г. количество отключений электроэнергии в сети может вырасти в 100 раз.
Большинство ЦОДов спроектированы таким образом, чтобы справляться с отключениями электроэнергии, переходя на собственные генераторы. Однако более частые сбои и отключения в электросети увеличивают нагрузку на критически важные электрические системы. А крупный сбой также может привести к задержкам доставки топлива, увеличению выбросов твердых частиц в населенных районах и проблемам, вызванным потерей связи и нехваткой персонала.
Во-вторых, подключение крупных кампусов дата-центров может перегрузить электросеть и повлиять на ее стабильность. Вот лишь два примера: колебания напряжения в электросетях в Северной Вирджинии (в июле 2024 г.) и в Ирландии (в декабре 2022 г.) привели к почти одновременному отключению многих ЦОДов от сети, вызвав скачки напряжения (из-за избытка электроэнергии), что в обоих случаях едва не привело к масштабным отключениям.
Учитывая эти уроки, власти и операторы передающих сетей в ряде стран, включая США, Австралию, Сингапур, Великобританию и большую часть Европы, в настоящее время работают над новыми правилами подключения ЦОДов к сети. Эти правила обяжут операторов допускать более сильные колебания напряжения, а во время перебоев в сети не отключать нагрузку или делать это плавно.
Третья проблема заключается в том, что крупные отключения электроэнергии могут затруднить доставку топлива в ЦОД или даже парализовать ее. Так, во время отключения электроэнергии в Испании в начале 2025 г. ЦОД Airbus в Мадриде столкнулся с критической нехваткой дизельного топлива, поскольку его поставщики оказались перегружены. Крупное отключение электроэнергии, затронувшее лондонский аэропорт Хитроу в Великобритании, также заставило некоторых операторов пересмотреть свои подходы к топливоснабжению. Обычно в первую очередь занимаются увеличением запасов топлива, но операторы все чаще прорабатывают процедуры экстренного пополнения запасов. В некоторых регионах классификация ЦОДов как объектов критически важной национальной инфраструктуры поможет обеспечить приоритетный доступ к топливу во время крупномасштабных отключений.
Устойчивость ИТ-инфраструктуры
На протяжении десятилетий высокодоступные и отказоустойчивые кластеры на основе нескольких ЦОДов использовались для отдельных критически важных приложений. Появление облачных зон доступности наряду с новыми подходами к разработке приложений распространило подход многосайтовой отказоустойчивости на гораздо более широкий спектр приложений. Новые ИТ-приложения все чаще размещаются на нескольких площадках, а доступ к ним осуществляется с помощью балансировщиков нагрузки. Правда, с этим подходом сопряжен ряд проблем: проектировать соответствующее ПО и устранять единые точки отказа весьма сложно, а региональные сети, необходимые для быстрой репликации данных, обходятся дорого.
Методы распределенной отказоустойчивости не являются ни универсальными, ни абсолютно надежными, но они доказали свою эффективность для сервисов, разработанных для облачной эпохи. Сегодня распределенная устойчивость ИТ-инфраструктуры все чаще дополняет устойчивость инженерной инфраструктуры на уровне отдельных площадок, и по мере того как эти методы становятся более надежными, они смогут в некоторых сценариях использования заменить средства инженерной устойчивости.
Из-за развертывания систем с генеративным ИИ эта тенденция, вероятно, нарушится. Избыточность вычислительных мощностей для ресурсоемких ИИ-задач, таких как крупномасштабный инференс, — вещь дорогая, поэтому вновь встает вопрос отказоустойчивости физической инфраструктуры. Для задач обучения ИИ распределенная отказоустойчивость вообще неприемлема.
В зависимости от допустимого уровня риска и особенностей ИТ-архитектуры одни компании продолжат нести расходы на обеспечение высокой устойчивости физической инфраструктуры для всех приложений, включая ИИ, другие же будут тщательно изучать, какие механизмы устойчивости применимы для тех или иных приложений и сервисов. По мере совершенствования аналитических инструментов в этой области определение приемлемого типа отказоустойчивости может стать более точным.
Устойчивость без компромиссов
С 2021 г. Uptime Intelligence насчитала по всему миру по более 300 проектов создания ЦОДов мощностью более 100 МВт, а некоторые проекты предусматривают мощность свыше 1 ГВт.
Реализация полноценного резервного электроснабжения на объектах таких масштабов требует колоссальных затрат, зачастую исчисляющихся десятками миллионов долларов. Однако капитальные затраты — это лишь часть проблемы. Все более трудоемким становится процесс тестирования и обслуживания двигателей и топливных систем. Кроме того, пополнение запасов топлива в столь крупных масштабах — отдельная логистическая проблема.
В борьбе между OpenAI, Google и другими за обучение наиболее эффективных ИИ-моделей отказоустойчивость не была приоритетом — в Кремниевой Долине принято действовать быстро и рисковать. Это породило представление о том, что в дата-центрах для обучения ИИ может не предусматриваться возможность обслуживания без отключения полезной нагрузки или даже вообще не быть резервного электропитания.
Однако, несмотря на дороговизну и сложность обеспечения высокой отказоустойчивости, вряд ли многие строители новых ЦОДов последуют такому подходу. Uptime Institute известно о целом ряде крупных проектов, в которых компании не идут на компромисс в вопросах устойчивости.
Как уже говорилось, многие крупные ЦОДы, вероятно, будут строить собственную инфраструктуру генерации и распределения электроэнергии. Повышение уровня резервирования основной генерации обойдется дешевле, чем обеспечение автономного резервного электроснабжения, особенно с учетом того, что часть этой мощности может быть продана обратно в сеть в рамках программ управления спросом. В любом случае затраты на ИТ-инфраструктуру значительно превысят стоимость повышения устойчивости энергоснабжения.
За исключением небольшого числа высокоплотных ЦОДов для высокопроизводительных вычислений большая часть объектов, вероятно, будет поддерживать широкий спектр рабочих нагрузок. Поскольку определить технические требования на несколько лет вперед очень сложно, операторы захотят снизить риски инвестиций в инфраструктуру. А большинство клиентов ЦОДов будут по-прежнему требовать надежных гарантий устойчивой работы таких объектов.
Ключевые тенденции
- Растут опасения по поводу серьезных и системных сбоев, вызванных повышением нестабильности энергосистем, а укрупнение и концентрация новых ЦОДов только усугубляют риски.
- По мере того, как задачи искусственного интеллекта встречаются чаще, операторам, возможно, придется пересмотреть свои взгляды на зоны доступности и обеспечивать устойчивость для разных рабочих нагрузок по-разному.
- Крупные инвестиции в локальную генерацию и резервирование оборудования, вероятно, приведут к тому, что операторы будут использовать свои активы совместно, что потребует более комплексного подхода к обеспечению устойчивости.
Дэниел Бизо, директор по исследованиям;
Энди Лоуренс, исполнительный директор по исследованиям;
Джей Дитрих, директор по исследованиям в области устойчивого развития;
Дуглас Доннеллан, аналитик-исследователь;
Макс Смолакс, аналитик-исследователь;
Д-р Рэнд Талиб, аналитик-исследователь
Публикуется с разрешения Uptime Institute
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!
















