Rambler's Top100
 
 
Статьи
Юрий БАРАБАНЩИКОВ  Дмитрий ГРАЧЕВ  09 февраля 2021

Храните данные надежно, масштабируемо и гибко

С ростом объема данных сложность их хранения увеличивается многократно. То, что раньше требовало минимум внимания, времени и техподдержки, с удвоением объема может полностью парализовать работу компании.

Данные сегодня принято делить на структурированные (в основном речь идет о базах данных) и неструктурированные (файлы). Принимая это деление за верхний уровень, посмотрим, какие еще свойства данных можно выделить, исходя из актуальных технологий и продуктов, применяемых для их хранения, и на что стоит обращать внимание при выборе оптимального решения.

Типы данных

Данные, с которыми в настоящее время идет активная работа – дополнение, корректировка, анализ, – чаще всего называют оперативными. Это та информация, к которой нужен доступ здесь и сейчас. В противовес им архивными данными являются те, которые могут потребоваться в перспективе. Они не должны изменяться, и доступ к ним может предоставляться не сиюминутно, а спустя какое-то время.

С точки зрения ценности данные можно поделить на критичные и «не очень». Критичными (или бизнес-критичными, если владельцем данных является бизнес) называют данные, потеря или кража которых приводит к финансовым и/или репутационным потерям. Владельцы таких данных пытаются их защитить и сохранить, а злоумышленники и порой конкуренты заинтересованы в противоположном.

Выделим три, на наш взгляд, самых характерных типа бизнес-критичных данных:
  • оперативные структурированные («горячие», «холодные»);
  • оперативные неструктурированные («горячие», «холодные»);
  • архивы неструктурированных данных.
Хранение структурированных данных

Часто данные удобно хранить в табличном формате, т.е. в виде совокупности строк, столбцов и ячеек. Такие данные называют структурированными. При этом доступ к ним зачастую осуществляется случайным образом: записи и чтению подлежат ячейки разных таблиц, хранящихся в разных местах. Множества таблиц формируют базы данных. Для управления ими используют системы управления базами данных (СУБД). Наиболее популярны в России Microsoft SQL Server, Oracle Database, MySQL, PostgreSQL, IBM DB2.
Работа со структурированными данными строится на основе транзакций и чаще всего требует высокой производительности и надежности систем хранения. Примером могут служить операции со счетами клиентов в банках, где во главу угла ставятся скорость и гарантия целостности, а простой недопустим вовсе. Схожие требования предъявляются к обработке заказов на торговых площадках, в сфере телекоммуникаций. Практически все высоконагруженные системы полностью или частично работают со структурированными данными.

В настоящий момент максимальной производительностью обладают накопители, построенные на основе технологии энергонезависимой памяти flash. Они хорошо подходят для хранения структурированных данных с преимущественно случайным доступом. Это возможно благодаря отсутствию в них подвижных частей: нет необходимости ждать, пока диск с данными сделает новый оборот и головка накопителя сможет считать или записать их. Как показывает практика, минусом flash-накопителей является только относительно высокая цена. 

Если средства позволяют, для хранения критичных структурированных данных все чаще выбирают выделенные системы хранения, полностью построенные на основе flash-накопителей (all-flash СХД). Обычно такие системы лучше оптимизированы для работы с flash-накопителями, а некоторые модели имеют довольно специфическую архитектуру, изначально спроектированную только для flash. В индустрии просматривается четкая тенденция к переходу на all-flash СХД, и все идет к тому, что в ближайшем будущем flash-накопитель станет стандартом для хранения оперативных данных. Если же бюджет небольшой или процент критичных данных невелик, то можно использовать гибридные СХД, которые содержат как flash-накопители, так и классические механические диски. В таких массивах решение, на каком виде накопителей хранить те или иные данные, принимается автоматически на основе профиля нагрузки или администратором в принудительном порядке.

Все более популярным становится протокол NVMe, который позволяет раскрыть всю мощь flash-накопителя. Дело в том, что протокол и набор команд SCSI, который сейчас так или иначе используется в большинстве систем хранения, был разработан в конце 70-х годов прошлого века для работы именно с механическими дисками и учитывал их специфику. И хотя SCSI может работать с flash, в силу некоторых особенностей он не способен эффективно использовать весь их потенциал. Несколько лет назад на рынке начали появляться массивы, поддерживающие NVMe внутри себя, однако их приобретение во многом не было оправданным, так как перемещение данных между вычислительными комплексами и СХД продолжало осуществляться на основе команд SCSI. Сейчас ситуация начинает меняться, и все больше ведущих производителей системного ПО и систем хранения добавляют к своим продуктам поддержку NVMe на протяжении всего пути перемещения данных.

При большой популярности различных горизонтально масштабируемых и конвергентных решений классическая архитектура с отдельными вычислительным кластером и централизованной системой хранения зачастую более эффективна для работы со структурированными данными при больших нагрузках.

Хранение неструктурированных данных

Если данные не имеют какой-либо структуры, а являются, например, сплошным текстом или множеством файлов различных форматов, то такие данные можно назвать неструктурированными. Хороший пример – информация в социальных сетях: текстовые комментарии, изображения, аудио, видео и т.п. Все это нужно как-то хранить с возможностью дополнительной обработки. Зачастую успех проекта в интернете зависит от того, насколько успешно владельцы обрабатывают и в дальнейшем используют накопленные данные.

Еще одна особенность неструктурированных данных – их объем. Часто на них приходится 70–80% всех данных заказчиков. В больших компаниях с разветвленной сетью офисов и несколькими ЦОДами эффективное хранение неструктурированных данных становится весьма нетривиальной задачей. Образуются изолированные скопления данных в разных системах хранения, которые трудно обработать как единое целое. И объемы данных постоянно растут.

Для решения этих проблем в настоящее время используют централизованные горизонтально масштабируемые системы хранения с файловым или объектным доступом к данным. В качестве файловых протоколов доступа применяются в основном CIFS (SMB) и NFS, а в качестве объектных – S3, SWIFT и SOAP. Обычно такие СХД масштабируются стандартными блоками, содержащими дисковую емкость, вычислительную часть и порты ввода-вывода. Таким образом, расширение осуществляется линейно, а процессоры и память массива не являются узким местом, замедляющим работу.

Каждый из блоков подобных систем хранения может принимать запросы на чтение и запись от конечных серверов, обрабатывать их для всего объема данных и возвращать ответ. При этом крайне важно, каким именно образом реализуется связность между блоками на физическом и логическом уровнях. Ранее для этого часто использовали протокол InfiniBand, чья популярность сегодня значительно снизилась. Сегодня производители часто выбирают Ethernet, ведь его скоростью 100 Гбит/с уже никого не удивишь. Наиболее производительным решением является реализация на основе PCIe, однако из-за сложностей, связанных с коммутацией, оно подходит только для относительно небольших систем. В основном же блоки в таких СХД соединяются друг с другом с помощью коммутаторов с применением топологии core-edge. Главная сложность – обеспечение равномерной загрузки блоков, ведь если весь ввод-вывод будет выполняться только через их небольшую часть, то образуется узкое место. Проблема должна решаться на уровне подключения массива к сети и корректной реализации алгоритма, определяющего, какому из блоков передать запрос.

Все вышеописанное в какой-то степени справедливо и для программно определяемых СХД, которые также широко применяются для хранения неструктурированных данных. В них в качестве блоков используются серверы стандартной архитектуры, а коммутация их между собой выполняется, например, средствами существующего сетевого оборудования. Все это объединяется в единую систему хранения специальным ПО. Большим плюсом является тот факт, что зачастую производитель оборудования не имеет значения, т.е. могут использоваться любые привычные серверы при условии подходящей конфигурации.

Хранение архивных данных

Одной из важнейших задач хранения архивных данных является снижение операционных затрат с одновременным обеспечением доступа к данным и их защиты. Как правило, эта задача решается с помощью систем хранения с отчуждаемыми носителями. Основное преимущество такого подхода заключается в том, что в то время, когда доступ к данным не требуется, системы практически не потребляют питание и не выделяют тепло, а значит, экономят энергию.

Вторая не менее важная задача – обеспечение целостности и неизменяемости хранимых данных. Ценность архива в том, что на протяжении всего срока хранения можно получить достоверную информацию. Этого можно добиться, применяя специализированные программные средства, программно-аппаратные комплексы, а также носители с возможностью однократной записи.

Наибольшее распространение здесь получили системы хранения на магнитной ленте, включая ленточные библиотеки, автолоадеры и приводы. Самым распространенным форматом является LTO, а в недалеком прошлом широчайшей популярностью пользовались устройства хранения на оптических дисках, применяемые сегодня только в некоторых сферах.

Хорошо известные форматы оптических дисков CD, DVD, Blu-ray уходят в прошлое, чему в немалой мере способствуют увеличение скорости доступа в интернет и стремительное развитие flash-накопителей. Медленный относительно других технологий прогресс в плотности записи и скорости доступа привел к тому, что оптические диски крайне редко используются в домашнем и в корпоративном сегментах. В результате о технологии оптических носителей с торговой маркой Archival Disc знает только небольшой круг специалистов. А ведь в прошлом году вышло уже второе поколение таких носителей, разработанное компаниями Sony и Panasonic. Что же в них такого, что удерживает эту технологию на плаву?

По совокупности свойств накопители на оптических дисках хорошо подходят для «холодных» данных, т.е. архивов. Во-первых, они надежны. Производители говорят о возможности хранения данных более 100 лет (по результатам тестов с искусственным старением). Не требуют специальных условий для хранения: от -10 до +55 град. С при относительной влажности 3–90%. Оптические диски собраны в картридж, с которым работают приводы, – это снижает возможность их физического повреждения при транспортировке. При многократном чтении данных не происходит физического контакта устройства считывания с диском, как в случае с магнитными лентами. По сравнению с той же лентой при произвольном чтении оптический диск имеет преимущество. Практически полная обратная совместимость позволяет не переписывать данные со старых носителей при смене поколений.

Несмотря на совместную разработку носителя данных компаниями Sony и Panasonic, их системы хранения имеют значительные различия. Так, Sony, помимо оптических библиотек с подключением по FC, предлагает USB-привод, который может быть подключен к персональному компьютеру. Другими словами, картридж, хранящийся вне библиотеки, может быть прочитан или записан на рабочей станции архивариуса. А библиотеки Panasonic позволяют работать одновременно с половиной дисков картриджа, что повышает скорость чтения/записи, а также обеспечивает дополнительную защиту от повреждения поверхности дисков с помощью RAID. Обе компании предоставляют ПО для работы с оптическими библиотеками. Приятная новость: российская компания «Рэйдикс» также выпускает программное обеспечение, которое позволяет работать с оптическими библиотеками по привычным файловым протоколам SMB и NFS.

На наш взгляд, системы хранения на оптических дисках имеют право на жизнь. Если речь идет о хранении небольших объемов данных, экономика не в их пользу. Но для крупных медиаархивов и больших файлов эта технология – хорошая, а в некоторых случаях единственная замена LTO. Кроме того, для критичных данных правило «3-2-1» (3 копии, 2 разных типа носителей, 1 копия на удаленной площадке) может применяться не только для резервных копий, но и для архива. В этом случае оптические диски хорошо подходят в качестве одного из типов носителей.

К выбору решения для хранения данных нужно подходить максимально внимательно. Оно должно быть надежным, масштабируемым и гибким одновременно. Чтобы такая инфраструктура была экономически эффективной, надо хорошо ориентироваться в продуктах, предлагаемых рынком, и привлекать опытных специалистов к ее построению.

Юрий Барабанщиков, руководитель отдела ЦОД, «ЛАНИТ-Интеграция» (ГК ЛАНИТ)
Дмитрий Грачёв, ведущий инженер отдела «Инфраструктура», «ЛАНИТ-Интеграция» (ГК ЛАНИТ)
Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!