Rambler's Top100
Статьи ИКС № 4 2019
Ирина РУНДЕЛЬ  06 сентября 2019

Будущее сейчас: технологии ИИ в дата-центрах

Гетерогенность современных ИТ-систем и тенденция к автоматизации и оркестровке ИТ-операций диктуют новые правила администрирования ИТ-инфраструктуры ЦОДов.

Чтобы эффективно использовать вычислительные мощности дата-центров, специалисты должны иметь целостное представление о работе всех его компонентов в режиме реального времени. В этом им приходят на помощь решения на основе технологий искусственного интеллекта.

Новые требования = новые технологии

Из-за непрерывной генерации новых данных, которым нужно гарантировать надежное хранение и быстрый доступ, требования к ЦОДам в последнее время заметно возросли. В первую очередь дата-центры стараются снизить энергопотребление (и, соответственно, операционные расходы), одновременно повышая производительность и доступность инфраструктуры. Задача не из легких, и пока ее пробуют решить с помощью ПО на основе машинного обучения и анализа больших данных. Аналитики Gartner считают, что к 2020 г. более 30% ЦОДов, которые не смогут внедрить эти технологии, будут обречены на потерю работоспособности и рентабельности.

Отметим, что машинное обучение и некоторые виды когнитивных вычислений уже сейчас применяются в дата-центрах, например для того, чтобы обеспечить самовосстановление сервисов, рационально использовать аппаратные средства и снизить расходы на эксплуатацию, а также для умного управления физической площадкой и интеллектуальной автоматизации процессов. Эти технологии позволяют операторам ЦОДов увеличивать рабочую нагрузку на один процессор за счет анализа большого объема разрозненных данных, получаемых в режиме реального времени.

Какие решения существуют сейчас?

Современный ЦОД можно сравнить с оркестром, в котором множество механических и электрических компонентов должны действовать синхронно и слаженно, «прислушиваясь» друг к другу. Однако отследить огромное количество взаимных зависимостей, которые присутствуют в дата-центрах, чтобы в итоге оптимизировать и автоматизировать все ИТ-операции, человеку, увы, не под силу. Зато неплохие результаты показывают решения, в основе которых лежат алгоритмы машинного обучения и методы анализа больших данных. Различные экспертные системы, системы рекомендаций на основе нейронных сетей, предиктивное моделирование ЦОДа, интеллектуальные хранилища, когнитивные сети, системы кибербезопасности и т.д. – все это должно изменить привычную работу дата-центров и, возможно, сам их формат уже в недалеком будущем.

Ниже мы представляем краткий обзор продуктов, которые уже успешно применяются в современных дата-центрах, и некоторых моделей, которые только обсуждаются в исследовательских кругах. Все они направлены на то, чтобы облегчить повседневную работу ИТ-администратора ЦОДа и поддержать его в принятии правильных решений.

Экспертная система Cognitive Insights от Logz.io

Эту ИИ-платформу с технологией Unified Machine Intelligence (UMI) разработали израильские программисты. Она осуществляет интеллектуальный анализ логов, на основе которых потом строит прогнозы и предсказывает возможные перебои в работе сервисов дата-центра.

В основе UMI лежат алгоритмы машинного обучения с учителем, которые сопоставляют данные о взаимодействии человека с журналом логов и релевантную информацию, опубликованную на известных форумах (StackOverflow или Serverfault) и репозиториях с открытым исходным кодом (GitHub), пытаясь найти взаимосвязь между ними. Затем система отображает полученные результаты в пользовательском интерфейсе Logz.io. Поскольку количество логов огромно, а большая их часть малоинформативна, применение Cognitive Insights значительно сокращает время поиска верного решения в случае критических инцидентов, которые ставят под угрозу стабильность ИТ-системы.

Когнитивное DCIM-решение от Nlyte и IBM

Компания Nlyte, которая занимается разработкой ПО для управления инфраструктурой дата-центров (DCIM) с 2004 г., имеет в своей линейке продукт Nlyte Energy Optimizer (NEO). В режиме реального времени он осуществляет мониторинг энергопотребления и тенденций его изменения, а также тревожных событий в информационной и телекоммуникационной инфраструктуре ЦОДа.

NEO работает в тесной связке с решением IBM под названием PMO (Predictive Maintenance and Optimization). К данным, собранным с помощью NEO, PMO применяет заранее определенные шаблоны, выявленные с помощью алгоритмов машинного обучения на основе данных из всех распределенных и виртуальных источников (IBM Watson). Полученные результаты NEO использует для подготовки отчетов о работе конкретного дата-центра или принятия нужных мер (например, контроля заданных точек на выделяющем тепло оборудовании). Тандем NEO и PMO позволяет собрать данные из всех распределенных источников, таких как серверы, системы отопления, вентиляции и кондиционирования, распределители питания, построить обширную аналитику и визуализировать результаты, что опять же, помогает ИТ-администраторам быстро определить текущее положение дел в дата-центре.

Предиктивное моделирование дата-центров: IT Operations Analytics от SAP и 6SigmaDCX от Future Facilities

Моделирование дата-центров становится все популярнее. Наиболее известные на сегодня вендоры – SAP с решением IT Operations Analytics (ITOA) и Future Facilities с 6SigmaDCX. Их продукты рассчитаны главным образом на провайдеров услуг colocation и ЦОДы малых и средних компаний.

В SAP рассказывают, что идея ПО для интеллектуального анализа и моделирования дата-центра возникла из собственного опыта компании. По данным ресурса datacenter-insider.de, в своих ЦОДах SAP регистрировала полмиллиарда событий каждый день и использовала до 20 (!) программ мониторинга ИТ-операций. Ее решение ITOA позволило объединить функциональность этого множества систем в одном пакете.

В свою очередь, решение 6SigmaDCX от Future Facilities интегрируется с инструментами DCIM от ведущих поставщиков и собирает данные о состоянии серверов, энергопотреблении, температуре в помещении, режимах кондиционирования и т.д. в качестве отправной точки для моделирования будущих событий в ЦОДе. Это дает провайдерам услуг colocation возможность анализировать отчеты об изменениях температуры, работе систем вентиляции и т.п., а также моделировать размещение различных компонентов, не оказывая влияния на повседневную работу ЦОДа. ПО также имеет доступ к библиотеке, включающей параметры более 800 ACU (Array Configuration Utility) и 2400 серверов, и использует технические данные этих устройств для моделирования виртуального дата-центра.

Интеллектуальное хранилище Nimble Storage от HPE

Сегодня дисковые системы хранения данных нередко заменяются all-flash-массивами, так как они обеспечивают лучшую производительность. Но хранилище – лишь часть ИТ-инфраструктуры, которая должна слаженно работать с другими компонентами и, что не менее важно, учитывать особенности различных приложений.

Все массивы памяти Nimble с самого начала оснащаются датчиками с предустановленным специализированным ПО, с помощью которого информация об устройствах оправляется в облачную систему поддержки HPE InfoSight. В систему передаются данные о пропускной способности, параметры ввода-вывода (IOPS), время задержки, а также данные мониторинга работы приложений, пиковые нагрузки и т.д. Решение InfoSight создано в результате анализа базы знаний, собранных со всех машин, использующих Nimble Storage. На сегодня в мире работает 30 тыс. хранилищ Nimble, с которых каждые пять минут в облако InfoSight отправляются данные о конфигурации, состоянии процессоров, DRAM, сетевых компонентов, производительности приложений и т.п. InfoSight сравнивает информацию, полученную от разных машин, между собой, ищет нерегулярности или события, являющиеся предвестниками возникновения ошибок, а потом отправляет сообщения или прогнозы клиентам. Причем, по данным HPE, с помощью решения InfoSight можно автоматически устранять 86% зарегистрированных ошибок, из которых 54% связаны не с хранилищами данных, а с другими компонентами ЦОДа.

Системы рекомендаций на основе искусственных нейронных сетей

Пару лет назад ИТ-ресурсы пестрили сообщениями о том, как Google сумела сократить энергопотребление в своих ЦОДах на 40% с помощью технологии DeepMind. Система DeepMind AI анализировала значения 120 переменных, которые отражают состояние таких компонентов ЦОДа, как вентиляторы, система охлаждения, общую загрузку серверов (в киловаттах) и др. По данным Telehouse, в 2014 г. Google потребила 4 402 836 МВт·ч электроэнергии, поэтому можно предположить, что DeepMind помогла компании сэкономить миллионы долларов.

Искусственные нейронные сети оказались мощным инструментом для интеллектуального анализа, в частности для вычисления корреляции между огромным количеством переменных. Например, сеть может предложить регулировку температуры охлаждающей воды в определенной области дата-центра или указать наиболее подходящее время для переноса рабочих нагрузок в случае обновления оборудования.

Когнитивные сети, определяемые знаниями

Одна из наиболее сложных и критически важных задач для любого ЦОДа – оптимизация производительности сети. Как показало недавнее исследование IDG, сегодня большой популярностью пользуется технология SDN (Software-Defined Network), в которой централизованная функция управления позволяет обозревать все процессы, происходящие в сети. В свое время ее появление действительно оказалось прорывом, и сейчас некоторые эксперты склоняются к тому, что следующим этапом эволюции сетей станет Knowledge-Defined Network – сеть, определяемая знаниями, действующая на основе алгоритмов машинного обучения. Маршрутизация, распределение ресурсов, виртуализация сетевых функций (NFV), цепочка сервисных функций (Service Function Chaining, SFC), обнаружение аномалий, анализ загруженности сети – все эти пункты способна взять на себя KDN.


Схема использования сети KDN

Напомним, сеть SDN имеет три уровня – уровень данных (отвечает за хранение, передачу и обработку пакетов данных), уровень контроля (обменивается информацией о рабочем состоянии сети с уровнем данных для того, чтобы обновить на нем правила сопоставления и обработки пакетов) и уровень управления (обеспечивает правильную работу и производительность сети в долгосрочной перспективе, определяет топологию сети, конфигурирование и настройку сетевых устройств). В отличие от SDN, сеть, определяемая знаниями, предполагает наличие четвертого уровня – уровня знаний (Knowledge Plane, KP), который обеспечивает возможность интегрировать поведенческие модели сети и процессы, направленные на автоматическое принятие решений, в сеть SDN.

По сути, в рамках KP с помощью алгоритмов машинного обучения осуществляется анализ сетевых данных, а полученные результаты используются для принятия решений (как автоматически, так с вмешательством человека).

В рамках KDN подлежат анализу такие категории данных:
  • данные уровня пакета и потока, анализируемые обычно системами DPI (Deep Packet Inspection): гранулярность потока данных и соответствующие характеристики трафика;
  • состояние сети: физические, топологические и логические конфигурации сети;
  • состояние контроля и управления: информация, содержащаяся в контроллере SDN и инфраструктуре управления, – политика сети, виртуальная топология, информация, касающаяся приложений и т.д.;
  • телеметрия на уровне обслуживания: данные о поведении приложения или сервиса в связке с производительностью сети, ее загрузкой и настройкой;
  • внешняя информация.
Сетевая модель, полученная с помощью алгоритмов машинного обучения – с учителем или с подкреплением, может использоваться для автоматизации работы и оптимизации текущей конфигурации сети. При обучении без учителя сделанные моделью выводы можно применить для автоматического улучшения производительности сети через интерфейс контроллера SDN. Например, определив корреляцию между трафиком, маршрутизацией, топологией и результирующей задержкой, можно смоделировать оптимальные конфигурации маршрутизации, которые минимизируют задержку. Модель, полученную путем обучения с учителем, можно использовать для тестирования предварительных изменений в системе или в качестве инструмента оценки производительности и анализа «что-если».

Однако отметим, что KDN – пока лишь концепция, живущая в умах ученых. Одна из серьезных трудностей при применении машинного обучения для интеллектуального управления сетью заключается в том, что сети представляют собой распределенные системы, где каждый узел (коммутатор, маршрутизатор) имеет только «частичное представление» о работе системы в целом, поэтому возникает проблема репрезентативности данных, на основе которых будет строиться обучаемая модель.

Когнитивная кибербезопасность

Ученые ожидают, что когнитивные сети не только помогут оптимизировать производительность сети, но и выведут кибербезопасность на новый уровень. Например, британская компания Darktrace использует машинное обучение для мониторинга нормального поведения сети, что позволяет вовремя обнаружить и устранить угрозы, вызванные отклонением от этой нормы. Пока дата-центры пытаются предотвратить киберриски путем ограничения доступа к сетям и создания «непроницаемых» межсетевых экранов. Однако из-за постоянного увеличения потока пользователей такие методы скоро не смогут гарантировать должный уровень безопасности.

Эксперты пророчат, что именно когнитивная киберзащита в конечном счете заменит обычные системы обнаружения инцидентов информационной безопасности. Но и здесь разработчики сталкиваются с проблемами: например, злоумышленники могут обучать когнитивные системы на фальшивых данных с помощью ботнетов.

* * *
Сегодня технологии искусственного интеллекта влияют на развитие ЦОДов минимум двумя способами. Во-первых, приложениям на основе ИИ самим нужно больше вычислительных мощностей, которые им должен обеспечить дата-центр. В связи с этим все чаще обсуждаются различные варианты так называемых ускорителей ИИ. Во-вторых, приложения, использующие алгоритмы машинного обучения, способны повысить производительность ЦОДа и уже это делают. В частности, решения для управления инфраструктурой дата-центров, в основе которых лежат технологии ИИ, пользуются большим спросом. Они помогают обрабатывать данные, получаемые от различных компонентов ЦОДа, в режиме реального времени, строить прогнозы и давать рекомендации специалистам. Конечно, говорить о том, что это ПО способно заменить человека, пока не приходится. Но одно можно сказать точно: взяв на себя рутинную работу, эти приложения помогают ИТ-администраторам сосредоточиться на более важных и творческих аспектах поддержания эффективности ЦОДа, а в форс-мажорных ситуациях принять самое верное решение.

Ирина Рундель, аналитик, Colobridge
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!