Rambler's Top100
Статьи
Георгий ЛИ  13 мая 2019

Искусственный интеллект: смена парадигмы в хранении данных

Ленты, съемные диски, жесткие диски, твердотельные накопители – развиваясь, индустрия хранения сильно меняется. Искусственный интеллект также не остался в стороне, он обещает сделать способы хранения информации более гибкими и экономически эффективными.

Компании, которые хотят надежно хранить постоянно растущий объем данных (в диапазоне нескольких петабайт), теперь могут выбирать из множества вариантов, но сделать выбор правильно стало намного сложнее.

Итак, как ИИ может изменить среду хранения?

В основном ИТ-менеджеры хотят, чтобы данные хранились на максимально быстрых носителях для обеспечения оперативного доступа к ним в любое время. Но насколько разумно всегда хранить все данные на самых мощных носителях? Да, флэш-память намного быстрее, чем диски Nearline SAS, но она и намного дороже. В любом случае не имеет смысла хранить все данные на флэш, так как большая их часть используется редко. При этом некоторая информация по определенным правилам должна храниться в течение длительного срока, а какие-то данные требуются периодически, к примеру, для проведения анализа за большой отрезок времени. Файлы резервных копий не нужно хранить на флэш – они необходимы только при восстановлении данных. Поэтому ИТ-менеджеры должны постоянно пересматривать стратегию хранения данных, чтобы определить оптимальный носитель для каждого случая.

Трудоемкое ручное управление

До настоящего времени определенные заранее политики использовались, чтобы точно установить, какие данные и где хранятся. Правила обычно принимаются в самом начале, когда создаются соответствующие структуры. Далее они остаются в основном неизменными, даже если в процессе работы в них по мере необходимости вносятся незначительные изменения. Но важно помнить, что количество и, главное, характер данных быстро меняются.

В прошлом данные были в значительной степени стандартизированы из-за ограниченных возможностей и производительности ИТ-систем, но сегодня все выглядит иначе. Постоянная ручная настройка политик становится все более сложной и увеличивает количество вовлеченных в этот процесс людей, которые не могут в полной мере выполнять другие важные задачи. Более сложные структуры данных требуют еще более регулярных корректировок, так как неправильный выбор места хранения может создавать дополнительную нагрузку на бюджет из-за дорогостоящего хранения неактуальных данных или из-за прерывания операций по причине более медленного доступа к необходимым данным.

Инновационное решение на основе искусственного интеллекта

Но как решить эту проблему? Один из вариантов – применение искусственного интеллекта. С его помощью в правила выбора места хранения данных можно вносить изменения каждую секунду без необходимости ручного вмешательства, что позволяет компаниям использовать более экономически эффективное хранилище. Действуя на основе машинного обучения, механизм ИИ может оценить поведение пользователя и характер доступа к данным и определить соответствующее место хранения. Кроме того, он может проектировать шаблоны, в соответствии с которыми должен осуществляться доступ для будущего использования.

Такой подход может применяться для прогнозирования потребности в памяти и производительности в будущем, что отразится в планировании инфраструктуры и бюджета. Важной целью здесь является предотвращение использования ненужных ресурсов.

«Умные» решения с нейронным кэшем

Искусственный интеллект может работать, например, с помощью нейронного кэша. Нейронный кэш задействует алгоритмы машинного обучения для сканирования пула данных и анализа шаблонов для того, чтобы найти скрытые корреляции. В результате он решает, какие данные можно предоставить приложениям или непосредственно пользователю для немедленного доступа. Данные, к которым обращаются часто, хранятся в оперативной памяти, которая работает на несколько порядков быстрее, чем флэш. Затем идут «теплые» данные, которые хранятся на флэш, а наиболее редко используемая информация размещается на дисках Nearline SAS, которые намного рентабельнее.

В массиве хранения, который объединяет динамическую память с произвольным доступом (DRAM), флэш-носители и диски Nearline SAS, нейронный кэш уменьшает задержку и ускоряет доступ для чтения/записи. Большинство приложений являются транзакционными и требуют как минимум двух отдельных операций ввода-вывода. Одна операция – это запись транзакции в журнал, вторая – непосредственно запись данных. Это означает, что задержки могут оказать сильное влияние на производительность. При этом время отклика метаданных влияет на максимальную производительность приложения. Операции со структурой метаданных, когда записываются новые данные, вносятся изменения или удаляются старые данные, обрабатываются с одинаковым временем ожидания.

Эти операции выполняются без предварительной обработки – удаления дубликатов, сжатия и шифрования непосредственно в DRAM контроллера хранения. Между тем копия операции записи делается в DRAM другого узла хранения с прямым доступом к памяти (RDMA) с малой задержкой, и только после этого подтверждение отправляется хосту. Запись непосредственно в DRAM, подключенную к центральному процессору контроллера, уменьшает общую задержку и выполняется быстрее, чем прямой доступ к внешнему флэш-устройству. Кроме того, использование единого большого пула памяти для обработки записи, в отличие от традиционной архитектуры, где кэш записи делится на более мелкие секции, обеспечивает возможность обработки больших всплесков по записи. Данные, которые часто меняются, перезаписываются с задержкой DRAM. В результате нейронный кэш накапливает статистику и может интеллектуально решать, на каком носителе могут быть сохранены те или иные блоки данных. Более длительное хранение данных в кэше записи означает, что процессор и бэкенд становятся менее загруженными. Нейронный кэш также может ускорить операции чтения, храня самые активные данные в DRAM.

* * *
Искусственный интеллект набирает опыт при обработке больших наборов данных и определении паттернов ввода-вывода. Это помогает ИТ-менеджерам сократить затраты на хранение данных, которые уже стали главной статьей расхода в их бюджетах, и позволяет перераспределить средства в пользу инвестиций в инновации и преобразования.

Георгий Ли, глава представительства, Infinidat, Россия и СНГ
Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!