Rambler's Top100
Статьи ИКС № 2 2022
Олег НЕЧАЙ  15 июня 2022

Автоматизация и роботизация в дата-центрах: время пришло

По уровню автоматизации и роботизации ЦОДы нередко уступают сооружениям, которые эксплуатируются в других, далеко не самых передовых отраслях. Внедрение современных методов управления и обслуживания позволит снизить затраты, повысить отказоустойчивость и энергоэффективность.

Технологии искусственного интеллекта (ИИ), машинного обучения (МО) и автоматизированная роботизация процессов успешно применяются в промышленности, логистике и торговле. На этом фоне дата-центры, построенные на основе представлений более чем 20-летней давности, выглядят излишне консервативно и давно нуждаются в цифровой трансформации. 

Эксперты Uptime Institute включили автоматизацию, в том числе с применением ИИ и систем удаленного мониторинга, в список основных трендов развития ЦОДов в 2022 г. Одним из ключевых движущих факторов повышения интереса к автоматизации стала пандемия COVID-19, серьезно осложнившая физический доступ персонала к оборудованию и стимулировавшая повсеместный переход на удаленный и гибридный форматы работы. По итогам опроса более 300 владельцев и руководителей дата-центров, проведенного Uptime Institute в июле 2020 г., 73% респондентов намерены расширять автоматизацию ЦОДов, а 90% – увеличить использование удаленного мониторинга и управления объектами. Пандемия ускорила переход от базовых элементов мониторинга оборудования без сведения воедино информации от различных систем инфраструктуры к более глубоким уровням интеграции с применением программных систем управления инфраструктурой (DCIM) и технологий ИИ/МО.

Автоматизация ЦОДов сегодня и в ближайшей перспективе

В настоящее время автоматизация ЦОДов наиболее развита на уровне инженерной инфраструктуры: систем энергоснабжения, кондиционирования и охлаждения. Различные датчики обеспечивают сбор и передачу данных о состоянии и расположении оборудования, об энергопотреблении и параметрах рабочей среды. На основании анализа этих данных системы управления инфраструктурой дата-центра (DCIM) формируют и отправляют сообщения о статусе и аварийные сигналы. В самом базовом варианте они способны автоматизировать простые задачи, к примеру, управлять системой кондиционирования.

Для управления кабельной инфраструктурой применяют системы AIM (Automated Infrastructure Management). Они регистрируют факты подключения/отключения коммутационных шнуров и предоставляют в реальном времени информацию, которая позволяет контролировать происходящие в сети процессы. В 2016 г. был принят стандарт AIM, определивший базовые функциональные возможности таких систем и необходимость наличия открытых программных интерфейсов для их интеграции с другими системами. 

Эксперты Uptime Institute отмечают, что пандемия усилила тренд автоматизации дата-центров: если до нее большинство ЦОДов обходилось описанными выше средствами, то из-за новых условий они вынуждены переходить на более высокие уровни функциональности. В частности, отслеживание физических характеристик оборудования, внешней среды и энергопотребления с помощью DCIM начинают использовать для оптимизации работы дата-центра и снижения рисков. Следующий уровень – интеграция данных от инженерных подсистем и информационных моделей ЦОДа. При этом результаты моделирования работы дата-центра (например, распределения температур и воздушных потоков в машинных залах) задействуются для прогнозирования, управления и обслуживания оборудования практически в реальном времени. Для корректировки моделей применяются технологии ИИ, анализирующие данные, которые постоянно поступают из DCIM.

Более высокий уровень автоматизации предполагает интеграцию DCIM и систем автоматизации на основе ИИ. Это означает управление работой ЦОДа в реальном времени с наилучшим использованием ресурсов как самого дата-центра, так и ИТ-инфраструктуры, в соответствии с целями, правилами и сервисными требованиями на протяжении всего его жизненного цикла.

ИИ на основе большого массива информации о штатных и аварийных режимах работы способен прогнозировать возможные неисправности и выход из строя оборудования. В результате становится возможным обеспечить предиктивное обслуживание объекта вместо регламентного: вместо дорогостоящего ремонта по факту поломки устранять неполадки до того, как они начнут сказываться на работе систем, увеличивать интервалы между ТО, вести заблаговременную подготовку к необходимой модернизации.

Однако повышение уровня автоматизации с использованием DCIM и технологий ИИ/МО вызывает у операторов ЦОДов закономерные опасения. Вендорам DCIM неизменно задают один и тот же вопрос: а не сможет ли их ПО перехватить управление дата-центром? При этом автоматизация в ИТ-инфраструктуре, в частности балансировка нагрузки или сетевая маршрутизация, никогда не вызывала подобных сомнений.

Операторы ЦОДов, не считающие необходимым внедрение интегрированных систем DCIM, могут выбрать облегченные облачные варианты DCIM-lite или DMaaS («управление дата-центром как услуга»), которые со временем можно преобразовать в полноценные облачные DCIM-системы с отдельными локальными функциями. В течение этого времени DCIM будут накапливать большие массивы данных, необходимые для глубокой аналитики с использованием ИИ и МО. 

Edge-ЦОДы – флагманы автоматизации

На передний край автоматизации дата-центров в ближайшее время могут выйти edge-ЦОДы – небольшие объекты, расположенные в непосредственной близости к потребителю и обеспечивающие максимальную скорость доступа к наиболее востребованным локальным сервисам или быструю обработку информации, поступающей от датчиков интернета вещей. Речь, в частности, идет о системах видеонаблюдения, удаленного управления, автомобильных автопилотах, СКУД и охранных комплексах.

Edge-ЦОДы имеют одно принципиальное отличие от крупных централизованных объектов: если в большом дата-центре может постоянно находиться дежурная смена инженеров и технических специалистов, то для десятков тысяч небольших объектов такой подход в принципе неприменим. Поэтому конструкция edge-ЦОДов не предполагает регулярного техобслуживания, и в идеале необходимость в нем должна отсутствовать на протяжении всего срока службы. Именно подобные дата-центры, а не огромные гиперЦОДы в первую очередь нуждаются в максимальной автоматизации. 

Постройка дата-центров, которые могли бы функционировать с минимальным вмешательством человека или вовсе без такового, обсуждалась давно, но считалась труднодостижимой. Эксперимент, проведенный корпорацией Microsoft, доказал, что современный уровень развития технологий сделал такие ЦОДы реальностью. Весной 2018 г. в рамках проекта Natick на дно океана у берегов Шотландии был погружен дата-центр Northern Isles, запечатанный в герметичный и заполненный азотом контейнер. ЦОД с энергопотреблением 240 кВт, состоящий из 12 стоек и 864 серверов, получал питание через кабель от возобновляемых источников энергии (на 100% от ветра и солнечного света) и управлялся удаленно. Дата-центр провел под водой два года и был поднят на поверхность летом 2020 г. (рис. 1), после чего эксперты изучили его техническое состояние. Как утверждают в Microsoft, благодаря отсутствию кислорода, влажности и перепадов температуры, а также вмешательства обслуживающего персонала в подводном ЦОДе произошло в восемь раз меньше отказов серверов, чем при обычной наземной эксплуатации. Кроме того, дата-центр показал себя не только чрезвычайно надежным, но и экологически чистым – как в плане энергоснабжения, так и в плане охлаждения, для которого не требовалось дополнительной подачи воды. 
Фото: news.microsoft.com
Рис. 1. Дата-центр Northern Isles, поднятый со дна моря после двух лет пребывания под водой

Эксперты Data Centre Dynamics отмечают, что необслуживаемые edge-ЦОДы должны обладать избыточными ресурсами и мощностями, чтобы минимизировать время простоя: в случае отказа сервера его должен оперативно заменять резервный. Использование стандартизированного и сертифицированного оборудования и API для взаимодействия и управления, применяемых в «обычных» больших дата-центрах, поможет упростить и удешевить конструкцию, сделать ее совместимой с DCIM. Все данные от систем энергоснабжения и ИБП, отопления, охлаждения, кондиционирования и вентиляции должны бесперебойно поступать в систему мониторинга и управления.

Применение платформы ИИ для управления ИТ – следующая ступень автоматизации, которая способна обеспечить функционирование edge-ЦОДов в полностью автономном режиме. Непрерывные обработка и анализ больших данных на базе ИИ и МО позволят системе управления реагировать на любые аномалии и сбои в работе объекта и устранять их в режиме реального времени без участия оператора. ИИ на основе большого массива информации о штатных и аварийных режимах работы сможет прогнозировать возможные неисправности и выход из строя оборудования и принимать меры по предупреждению потенциальных проблем.

Рынок edge-ЦОДов постоянно увеличивается благодаря экспоненциальному росту числа устройств IoT, которые подключаются к интернету либо для передачи данных в облачные сервисы, либо для получения информации из них. По прогнозам Gartner, к 2025 г. 85% инфраструктурных решений будут включать в себя локальные объекты (on-premise), colocation, облачные и edge-объекты, в то время как в 2020 г. доля таких интеграций составляла 20%. В Global Market Insights полагают, что мировой рынок edge-ЦОДов вырастет с $5,5 млрд в 2019 г. до более чем $20 млрд в 2026 г.

Роботизированная автоматизация в ЦОДах

Широко распространенная на производстве, в логистике и торговле роботизированная автоматизация процессов практически отсутствует в ЦОДах. Между тем в условиях пандемии и ограниченного физического доступа персонала на объекты роботизация обслуживания и ремонта оборудования стала особенно актуальной. По прогнозу Gartner, к 2025 г. половина облачных центров обработки данных будет использовать роботов с возможностями ИИ и МО, что позволит на 30% повысить операционную эффективность.

На первый взгляд, задача внедрения роботизации в ЦОДах упрощается тем, что крупные дата-центры похожи на склады, и, как и там, для выполнения большинства задач робот должен переместиться в конкретную точку и проделать ряд манипуляций. Однако особенности оборудования и специфика функционирования объектов, работающих с данными, осложняют реализацию таких проектов.

Пока существуют единичные примеры роботизации ЦОДов, причем далеко не все из этих решений внедрены и реально эксплуатируются. Еще в 2013 г. компании IBM и EMC провели эксперимент с доработанной версией беспроводного робота-пылесоса Roomba от iRobot: аппарат передвигался между стойками дата-центра и собирал данные о температуре и влажности. Однако позже от этого проекта отказались.

За два года до этого Корейский институт передовых технологий провел испытания похожей, но более сложной системы мониторинга дата-центра SCOUT: несколько мобильных роботов передвигались по маршруту, обозначенному NFC-метками, и следили за состоянием серверов. 

В 2018 г. Google начала задействовать в своих ЦОДах промышленных роботов для уничтожения списанных жестких дисков. Раньше вышедшие из строя накопители помещали в шредер вручную, сегодня этим занимаются роботы. Представители Google подчеркивают, что такая автоматизация не только повышает производительность труда, но и упрощает обеспечение безопасности данных. На тот момент в компании считали, что роботы могут справляться с элементарными операциями в дата-центрах, но недостаточно приспособлены для извлечения серверов или отключения кабелей. 

Между тем уже в том же 2018 г. роботы научились работать с кабелями: одна из крупнейших в мире точек обмена интернет-трафиком DE-CIX во Франкфурте выпустила Patchy McPatchbot, а годом позже и целое семейство «соединяющих роботов»: Sir Patchalot и Margaret Patcher. Перемещаясь по телекоммуникационным стойкам в двухмерной системе координат, роботы умеют находить нужные порты на оптических кроссах и устанавливать в них волоконно-оптические кабели.

В дата-центрах китайского гиганта интернет-коммерции Alibaba Group с 2020 г. работает уже второе поколение роботизированной системы контроля Tianxun на основе ИИ. Роботы способны без вмешательства человека выявлять и заменять вышедшие из строя накопители.

С началом пандемии COVID-19 роботы стали активнее использоваться в системах безопасности ЦОДов. Традиционный порядок, при котором персонал охранной службы отслеживает изображения с камер видеонаблюдения и осуществляет патрулирование, в условиях пандемии был заморожен, и операторы были вынуждены искать автоматизированные альтернативы. 

Оператор дата-центров Switch в 2020 г. разработал полностью автономную роботизированную систему безопасности SENTRY для защиты периметра объектов (рис. 2). Мобильный робот высотой около 1,8 м и массой 113 кг оснащен камерами с обзором 360° и системой ночного видения, ультразвуковыми датчиками, 32-канальным лидаром, системой 3D-навигации с картографическим модулем, сигнализацией, а также аудиовизуальной коммуникационной системой на базе ИИ для взаимодействия с живыми нарушителями. Аппарат перемещается на колесном шасси с полным приводом и активной системой стабилизации. Робот может работать в полностью автономном режиме либо управляться человеком на расстоянии.
 
Фото: switch.com
Рис. 2. Роботы-охранники Switch SENTRY

Неожиданное решение в ходе роботизации своих ЦОДов приняла компания Novva: она намерена внедрить в автоматизированную систему мониторинга и управления дата-центра специально доработанных собак-роботов Spot (рис. 3), созданных в Boston Dynamics. Проект реализуется совместно с Университетом Бригама Янга (шт. Юта, США), в котором расположен крупный дата-центр Novva. Как заявили представители компании, эти машины будут выполнять в кампусе университета несколько кри­тически важных задач, включая мониторинг температуры и наблюдение за оборудованием, приветствие гостей, а также функцию СКУД по­средством сканирования и распознавания лиц. В проекте участвуют студенты университета, и несмотря на кажущуюся курьезность, работа над ним может подсказать множество перспективных решений в области робототехники. 
Фото: bostondynamics.com
Рис. 3. Робот-собака, используемый в ЦОДе Novva

В Novva рассказали, что некоторые посетители кампуса относятся с опаской к собакам-роботам и приходят в замешательство, когда к ним приближается такое устройство и в особенности, когда оно приветствует их по имени. Робот безобиден, но он довольно крупный и тяжелый и действительно выглядит не слишком дружелюбно. Между тем механические роботы всегда будут в той или иной степени представлять опасность для живых сотрудников и оборудования, и эти риски следует правильно оценивать. К примеру, известен случай, когда в одном из ЦОДов Google робот для облегчения поднятия тяжестей прижал к стене сотрудника. Причинами такого поведения техники могут быть не только сбои, но и несовершенство ПО, из-за которого робот неправильно оценивает ситуацию и окружающую обстановку. По словам старшего вице-президента компании Unity по ИИ Дэнни Ланге, для минимизации опасности в модели поведения роботов добавляют произвольный шум и случайные события. Но в любом случае нужно предусмотреть способы предотвращения ситуаций, когда роботы-охранники могут сами стать угрозой для безо­пасности. С другой стороны, подобные риски можно исключить, создавая ЦОДы, которые будут функционировать и управляться полностью автоматически без присутствия людей. 

***

2022-й может стать годом особенно активного внедрения автоматизации и роботизации в дата-центрах. Ключевые факторы, стимулирующие интерес к этим решениям, – это пандемия COVID-19, высокий интерес к edge-ЦОДам и внушительные достижения в области искусственного интеллекта. Среди главных направлений автоматизации можно назвать повышение автономности edge-ЦОДов, широкое применение ИИ и нейросетей в целях мониторинга и техподдержки, роботизация техобслуживания и ремонта.

Заинтересованность бизнеса в повышении автоматизации дата-центров обусловлена возможностью снижения затрат, повышения уровня отказоустойчивости, упрощения масштабирования и сокращения штата сотрудников невысокой квалификации, занятых на плановом обслуживании объектов. 

Наконец, проект Natick корпорации Microsoft по эксплуатации edge-ЦОДа в герметичном контейнере на морском дне показал, что автоматизация способна не только снизить затраты и повысить надежность работы оборудования, но и обеспечивать соответствие постоянно ужесточающимся требованиям «зеленых» стандартов, увеличивать энергоэффективность и уменьшать PUE, что в обычных условиях становится все труднее.
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!