Rambler's Top100
Статьи ИКС № 03 2014
Евгения ВОЛЫНКИНА  11 марта 2014

СХД: больше, быстрее, эффективнее

Системы хранения данных как часть ИТ-инфраструктуры неизбежно находятся в тренде всего ИТ-рынка, отвечая на его вызовы: лавинообразный рост генерируемого контента, интернет вещей, облака, Big Data... Все это требует не только соответствующей аппаратной основы, но и ПО, роль которого растет с каждым годом.

Евгения ВОЛЫНКИНАВ принципе требования бизнеса к СХД ничем не отличаются от требований ко всей ИТ-инфраструктуре: каждая компания хочет иметь устраивающие ее уровни надежности работы, доступности данных, скорости их обработки, масштабируемости, безопасности и общей стоимости владения данными. Это означает в первую очередь необходимость максимальной консолидации корпоративных данных на СХД. При этом, отмечает Виктор Урусов (DEPO Computers), нужно обеспечить уровень производительности не хуже, чем был у серверов с отдельными дисковыми подсистемами, уложиться в бюджеты и повысить общую доступность данных. Именно консолидация данных на СХД обеспечивает уровень производительности и доступности, необходимый для виртуализации серверов, для построения частных и гибридных облаков IaaS и PaaS на всех ведущих платформах виртуализации.

Из-за бурного роста объема данных изменился подход заказчиков к выбору СХД. По словам Андрея Вересова (HP в России), все большим спросом пользуются системы, способные расти в соответствии с развивающимися потребностями бизнеса. Причем речь не только об увеличении емкости, но и о производительности и отказоустойчивости СХД. В связи с этим НР отмечает кардинальную перестройку продаж в среднем сегменте своих СХД (массивы high-end и раньше хорошо масштабировались): от классических двухконтроллерных систем EVA заказчики переходят на многоконтроллерные СХД StoreServ 3Par и StoreVirtual LeftHand, где количество контроллеров в одной системе можно увеличить с двух до 8–16. Значительно вырос спрос и на высокоэффективное резервное копирование, а кроме ленточных библиотек заказчики начинают активно использовать дисковые библиотеки с дедупликацией, что позволяет проводить оперативное резервное копирование и быстрое восстановление критичных данных.

SSD и/или HDD

Если бизнесу необходима высокая скорость доступа только к части имеющихся данных, то для минимизации общей стоимости владения пока не придумано ничего более эффективного, чем архитектура многоуровневого хранения данных. В такой архитектуре на одном из уровней используются высокопроизводительные SSD-диски на основе флеш-памяти, имеющие малое время отклика для операций ввода-вывода со случайным доступом. В лабораторных условиях модули флеш-памяти могут обрабатывать один запрос за 0,1 мс, в серийных SSD-дисках на это уходит не более 1 мс, что намного лучше показателей традиционных жестких дисков HDD (6–7 мс). Поэтому SSD-диски актуальны для ускорения работы баз данных в биллинговых системах операторов, для обработки банковских данных и финансовых транзакций.

технологии многоуровневого хранения, по мнению Александра Яковлева из компании Fujitsu, выходят сейчас на качественно новый уровень. Если в рамках обычного массива хранения данных одновременно использовать и SSD-диски, и эти же SSD-диски в качестве кэш-акселераторов, и накопители PCI-SSD, удается резко увеличить производительность хранилища и при этом эффективно обрабатывать большие объемы данных. А применение целого спектра механизмов предоставления гарантированного уровня сервиса (QoS) позволяет динамично выделять часть ресурсов массива для ресурсоемких аналитических задач.

Правда, пока широкое распространение SSD-дисков сильно сдерживается их высокой по сравнению с HDD ценой (хотя она за последние пару лет заметно снизилась и уже достигла рубежа $1 за 1 Гбайт). Но в многоуровневых системах хранения, где часто запрашиваемые данные имеют небольшой объем, использование SSD-дисков вполне оправдано и экономически эффективно, уже довольно многие заказчики могут себе это позволить. Например, компания IBM предлагает для СХД технологию многоуровневого хранения на уровне блоков IBM EasyTier, которая позволяет сократить общее количество дисков за счет добавления небольшого количества SSD-накопителей и оптимизации размещения на них «горячих» блоков. Тем самым снижается общая стоимость массива, потребляемой им энергии, охлаждения и занимаемой площади.

Вместе с ценовыми ограничениями у SSD-дисков есть и свои технические проблемы – низкая скорость записи данных и малый ресурс перезаписи ячеек. Эти проблемы производители стараются решать комплексно. В числе предпринимаемых мер – переход в производстве SSD-дисков от дорогой технологии SLC (Single Level Cell) с одноуровневой структурой ячеек памяти к MLC (Multi Level Cell), позволяющей хранить в одной ячейке два бита информации и более, и постепенное совершенствование этой более дешевой технологии. Кроме того, как отмечает Алексей Силин (Hitachi Data Systems), некоторые производители решают проблемы с записью на SSD-диски, увеличивая интеллект внутреннего контроллера диска. По этому пути пошла, например, компания Hitachi, выпустив на рынок флеш-модули FMD на базе SSD-технологии. Высокопроизводительный контроллер, используя специализированную микросхему ASIC, буферизирует запись на модуль, сжимает поступающие данные и равномерно распределяет интенсивность записи между всеми ячейками диска. Этим достигается увеличение как производительности, так и срока службы диска.

Правда, Владимир Слизов (IBM в России и СНГ) предупреждает, что не следует смешивать термины «твердотельные накопители» и SSD, поскольку последние являются эмуляторами HDD-дисков, т. е. имеют такой же формфактор и внешние интерфейсы, что облегчает их внедрение в существующую инфраструктуру, но снижает производительность. Но на рынке уже представлены и «настоящие» полностью твердотельные СХД – IBM FlashSystem, которые спроектированы для максимально эффективного использования NAND-памяти и не содержат рудиментов, присущих SSD. Благодаря этому время отклика IBM FlashSystem составляет порядка 100 мкс, что совершенно недостижимо для систем, основанных на SSD.

Однако даже самые продвинутые SSD-диски не дадут выигрыша в производительности всей СХД, если ее узким местом является контроллер, не справляющийся с обработкой данных с большого количества дисков. Такой эффект, напоминает А. Вересов, характерен для старых архитектур SSD-массивов. Нагляден в этом смысле тест производительности SPC-1, демонстрирующий, сколько операций ввода может обработать массив, и позволяющий определить, на каком этапе контроллеры начинают испытывать перегрузку.

Как отмечалось выше, SSD-диски намного обходят по скорости традиционные дисковые накопители HDD не при всех типах нагрузок. При работе с приложениями, использующими потоковый доступ к данным, т. е. при выполнении последовательных операций записи и чтения блоков данных большого размера (от 512 Кбайт), SSD-диски не дают существенного прироста производительности по сравнению с HDD. Аналогичная ситуация имеет место с хранением разного рода контента и архивов, где применение SSD-дисков также в настоящее время нецелесообразно. Что же касается дальнейших перспектив, то по прогнозам IBM, HDD в ближайшие годы будут постепенно терять свои позиции в корпоративном сегменте, но сохранят доминирование, по крайней мере до 2020 г., в таких областях, как системы хранения медиаконтента, видеонаблюдения и т.п. Компания NetApp полагает, что уход со сцены высокопроизводительных дисков с интерфейсами SAS произойдет еще раньше – в 2015 г. «Уже сейчас 3,5-дюймовые диски со скоростью вращения шпинделя 15 тыс. об./мин исчезающе редки, а в будущем сходная участь ждет и диски со скоростью 10 тыс. об./мин», – отмечает Роман Ройфман из NetApp Россия и СНГ. В свою очередь А. Силин считает, что в ближайшее время низкоскоростные механические диски, скорее всего, займут нишу резервных и архивных хранилищ, поскольку такое хранение гарантирует целостность данных – в отличие от лент, которые по прошествии времени могут стать нечитабельными. А при условии сопоставимых цен на ленточные и дисковые хранилища последние окончательно вытеснят ленты из решений долговременного хранения.

Вечная лента

Однако ленточные накопители, которым каждый год пророчат скорую смерть, не сдают своих позиций, хотя сфера их применения теперь не очень широка. По мнению Евгения Красикова из EMC, ленты оправданы прежде всего в больших долговременных архивах (например, мультимедиа-данных), где требуется низкая стоимость терабайта хранения. А. Силин полагает, что они будут популярны до тех пор, пока стоимость дешевых дисков NL-SAS/SATA не снизится до уровня лент, а это может произойти либо эволюционным путем в процессе совершенствования NAND-технологии памяти (она используется сейчас при производстве SSD-дисков), либо революционным, когда нынешние SSD-диски начнет теснить накопитель нового типа с более впечатляющими характеристиками.

Но есть эксперты, которые предсказывают ленточным накопителям не только долгую жизнь, но и активное технологическое развитие. Как считает В. Слизов, ленты имеют огромный потенциал для роста объемов хранения в расчете на картридж и скорости обмена данными в силу того, что плотность записи на них на два порядка меньше, чем на современных дисках. Во всяком случае теоретических ограничений на создание «суперленты» нет, зато уже есть опытные образцы ленточных приводов с картриджем емкостью 35 Тбайт и производительностью ввода-вывода 11 Гбайт/с. С дисковыми накопителями и флеш-памятью все обстоит в точности наоборот: обе эти технологии в своем развитии приблизились к границам, за которыми стоят нерешенные проблемы фундаментальной физики, а простыми инженерными разработками с ними не справиться. «Пока ”суперлента” еще не востребована. Но с развитием технологий когнитивных вычислений, Big Data и просто c повышением разрешающей способности медиаконтента рост объемов данных еще ускорится, и ленты получат дальнейшее развитие», – добавляет В. Слизов.

В общем, новые технологии не только кардинально изменяют подходы к управлению данными и построению СХД и стимулируют развитие средств автоматизации, но и дают мощный импульс развитию старых. «Большие данные» требуют организации эффективных во всех отношениях систем хранения и обработки информации, что, в свою очередь, может быть достигнуто за счет технологий дедупликации и компрессии данных, а также переноса части информации на ленточные накопители в соответствии с заданными политиками хранения. Именно эта сумма технологий, считает А. Яковлев, позволит экономически эффективно хранить лавинообразно растущие данные и предоставлять к ним доступ достаточно быстро. Преимущество хранения на ленте становится очевидным – ведь при последовательном доступе к данным по скорости работы лента сравнима с SAS-диском, в то время как стоимость хранения на ней в среднем в 20 раз меньше. Во всяком случае сама компания Fujitsu уже давно комбинирует хранение на дисках и на лентах в соответствии с заданными политиками и требованиями заказчика в своих решениях для резервного копирования и архивного хранения. Такой подход позволяет не только решить проблемы хранения «больших данных», но и предложить целый ряд облачных сервисов для резервного копирования и архивирования с гарантированным предоставлением требуемых ресурсов с заданной пропускной способностью.

Готовность к Big Data

Многие производители СХД активно затачивают свои системы под требования обработки «больших данных», хотя в этих задачах вполне могут применяться и существующие технологии СХД. Например, на СХД NetApp E-Series построена дисковая подсистема в одном из самых быстрых суперкомпьютеров из списка Top500 и на этих же СХД, по словам Р. Ройфмана, работает самая большая база данных в мире.

Тем не менее многие компании специально акцентируют поддержку в своих продуктах технологий Big Data. Именно так позиционирует ETegro Technologies свои серверы хранения данных, в которых совмещаются функции высокоплотного хранения и обработки информации. Эта линейка серверов представлена моделями ETegro Hyperion RS220 G4 с поддержкой до 18 дисков диаметром 3,5 дюйма в корпусе высотой 2U и двухузловой системой ETegro Hyperion RS430 G4 с поддержкой до 70 дисков 3,5 дюйма в корпусе высотой 4U. А компания НР включила в свое семейство СХД 3PAR решения для Big Data после приобретения компаний Vertica и Autonomy: технологии Vertica ориентированы на работу со структурированными, а Autonomy – с неструктурированными данными. Есть у HP и еще одна специализированная СХД для работы с неструктурированными большими данными – StoreAll 8000 Storage, которая может хранить до 16 Пбайт данных в едином файловом пространстве, а благодаря технологиям Autonomy обеспечивает поиск неструктурированных данных в 100 тыс. раз быстрее, чем обычная файловая система.

Тем не менее за всеми этими цифрами, подчеркивает Владимир Кондаков («Аквариус»), не стоит забывать о том, что смысл термина Big Data не в объеме хранимых данных, а в качестве их обработки, ведь основная цель здесь – получить из массивов данных максимум осмысленной, полезной для бизнеса информации, которую можно затем применять для решения прикладных задач.

Многоуровневая синергия

Эффективная стратегия построения систем хранения – использование гибридных многоуровневых СХД, объединяющих все виды носителей для данных с разной интенсивностью использования: емкость в них обеспечивается за счет дисковых накопителей с интерфейсами SAS/SATA, а производительность операций ввода-вывода – за счет SSD. На таком принципе построена, например, линейка СXД Fastor компании ETegro Technologies.

Как отмечает Е. Красиков, HDD- и SSD-диски, устанавливаемые в нынешних СХД, одинаковы фактически у всех производителей, а разница в производительности работы и эффективности систем достигается исключительно за счет программных решений. При растущих объемах хранимых данных администратор перестает справляться вручную с их оптимальным размещением и распределением нагрузки по компонентам накопительной системы. Здесь на помощь приходят технологии, автоматизирующие анализ нагрузки, дедупликацию и компрессию данных, а также их распределение по уровням хранения в зависимости от частоты обращения к ним. Благодаря тонкому выделению ресурсов (thin provisioning), многоуровневому хранению, дедупликации, новым схемам защиты данных снижается количество аппаратного обеспечения (в том числе дисков), необходимое для решения задачи, что приводит к экономии на его приобретении и эксплуатации. Современные технологии автоматизации сокращают затраты на администрирование и снижают риск ошибок, влекущих за собой простои и связанные с ними расходы. Администратор лишь задает требуемый уровень сервиса, а система «сама» выбирает способ решения. Нынешние СХД имеют интуитивно понятный интерфейс управления, они могут хранить десятки терабайт данных и выполнять десятки тысяч операций ввода-вывода в секунду, занимая лишь несколько юнитов в стандартной стойке (буквально пять лет назад СХД с такими функциями представляла собой огромный шкаф с дисками).

Список преимуществ функционального ПО в СХД дополняет В. Слизов: «Оно позволяет не только снизить закупочную стоимость и ТСО систем хранения, но и снизить риски потери данных, а технологии репликации и сервис копирования могут радикально сократить время простоя ИТ-сервиса из-за недоступности данных». Автоматизированное управление СХД способствует и снижению затрат на администрирование, и ускорению внедрения решений заказчиков. Например, с помощью ПО IBM SmartCloud Storage Access можно организовать облачный доступ к инфраструктуре хранения: пользователь запрашивает требуемый ресурс, система сама проводит одобрение запроса в соответствии с принятой процедурой, автоматически выделяет емкость и начинает вести учет ее использования для выставления счетов клиенту.

СХДaaS

Облачный подход к хранению и предоставлению доступа к данным интересует сейчас все большее число заказчиков. Однако, как указывает Роман Налепов (DEPO Computers), заказчик хочет купить не просто «гигабайты жесткого диска в облаке», а некий удобный для работы конечного бизнес-пользователя сервис, позволяющий решать его конкретные задачи. Это может быть хранение резервных копий, портал документохранилища для группы сотрудников, объектное хранилище большого объема для обмена медиаданными или сервис хранения данных с высокими требованиями к скоростным характеристикам СХД (базы данных, аналитика).

Облачные хранилища позволяют гибко выделять ресурсы по требованию, легко наращивать дисковые и вычислительные ресурсы облака хранения данных, мигрировать между площадками. По мнению А. Силина, в решениях для облачного хранения сейчас активно набирают популярность облака хранения, охватывающие более одного дата-центра. Такой подход к построению облачного хранилища позволяет решать сразу несколько задач, таких как балансировка нагрузки между несколькими ЦОДами, защита от катастроф локального и регионального уровней. В случае выхода из строя одного дата-центра или проведения в нем сервисных работ ресурсы облака хранения гибко перераспределяются между оставшимися, так что облачное хранилище может продолжать выполнять свои основные функции. Такой подход, в частности, реализован в аппаратно-программном решении для СХД Hitachi Content Platform: оно позволяет построить распределенное файловое хранилище и, используя репликацию между отдельными системами, объединить в единое отказоустойчивое облако более трех дата-центров.

Для работы с облачными хранилищами данных предназначен и предлагаемый компанией ЕМС сервис Syncplicity, который позволяет создавать гибридные облака и предоставлять простой доступ к файловым данным, хранящимся на площадке заказчика, через интернет. Причем заказчик может самостоятельно регламентировать права доступа к этим данным в соответствии со своими политиками информационной безопасности. На чисто частное облако и на среды сервис-провайдеров рассчитана платформа ЕМС VMAX Cloud Edition, в которой проблема защиты данных решена хотя бы в силу того, что в этом решении корпоративная информация не покидает пределы информационной системы компании.

Правда, по мнению Р. Ройфмана, интеллектуализация СХД имеет и оборотную сторону: «Чем “умнее” СХД, тем больше в этой системе степеней свободы, тем больше нужно принимать решений по управлению системой, а это входит в противоречие с постоянной тенденцией снижения уровня подготовки персонала. Люди, а точнее говоря, умные люди, это самый трудно восполняемый ресурс». Решением может стать система автоматизации, интегрированная с порталами самообслуживания. NetApp предлагает использовать бесплатные инструменты автоматизации WFA (workflow automation), которые могут работать совместно с решениями оркестрации, уже принятыми в качестве стандарта на предприятии.

Свой метод автоматизации процессов управления работой СХД есть фактически у каждого производителя. Например, DEPO Computers в своей СХД DEPO Storage 4600 использует технологию динамических дисковых пулов DDP. В обычной СХД диски разбиты на группы, каждая из которых собрана в определенный RAID-массив, а каждый массив разбит на логические блоки LUN, назначаемые для использования определенным серверам, подключенным к СХД. В случае выхода из строя одного из физических дисков любого RAID-массива он заменяется на запасной, но на восстановление данных необходимо довольно много времени, и в этот период работа СХД далека от оптимальной. При использовании технологии DDP все диски в СХД объединяются в один или несколько динамических дисковых пулов, и в каждом таком пуле идет автоматизированный процесс выравнивания нагрузки на диски за счет распределения между логическими блоками LUN. При этом независимо от того, что именно происходит в СХД – добавление диска или восстановление данных на новый диск, процесс всегда занимает в разы меньше времени, чем у обычного RAID, что позволяет сократить убытки от вынужденных простоев.

Программно определяемое всё

Вслед за модным термином «облака» в обиходе ИТ-рынка появилось и выражение «программно определяемые», дополняемое словами «дата-центры», «сети», а теперь и «системы хранения данных». Точно так же, как это было с облаками, трактовка понятия «программно определяемая СХД» (software-defined storage, SDS)  пока остается неоднозначной. Некоторые считают, что программно определяемые СХД – это больше маркетинг, чем реальность, а есть вендоры, в том числе такие крупные разработчики, как IBM, HP, EMC, VMware и NetApp, которые прямо называют свои новые решения программно определяемыми. Например, А. Вересов напоминает, что компания НР за несколько лет продала уже более 170 тысяч лицензий на ПО HP StoreVirtual VSA, которое превращает в узел СХД любой х86-сервер с установленным гипервизором от VMware или Microsoft, а в июне 2013 г. появились лицензии на ПО HP StoreOnce VSA, превращающего тот же сервер в виртуальную ленточную библиотеку (VTL), что позволяет заказчикам использовать однотипные серверы как СХД или дисковые библиотеки путем приобретения необходимых лицензий.

По мнению А. Силина, ситуация с программно определяемыми СХД очень напоминает ситуацию с виртуализацией 5–7 лет назад, когда эта технология широко освещалась в СМИ, к ней проявляли интерес множество заказчиков, но реализованных проектов виртуализации серверной инфраструктуры было немного. Вот и сейчас интерес к технологии программно определяемых СХД есть, но нет сведений о сколько-нибудь крупных проектах, реализованных за последнее время, – либо эти проекты были небольшими, либо все ограничилось тестированием. «В настоящее время SDS представлены только фрагментированными решениями, и пока никому не удалось продвинуться дальше первого этапа, который характеризуется виртуализацией и оптимизацией. Так что пока программно определяемые СХД остаются лишь привлекательной концепцией, которая полностью соответствует современному вектору развития инфраструктуры ЦОДов, поэтому есть все основания полагать, что скоро SDS станут обязательным компонентом дата-центров, а большинство функций SDS будут представлены в продуктах, выпускаемых производителями средств серверной виртуализации», – добавляет В. Кондаков.

Как бы там ни было, но SDS уже явно не маркетинговый лозунг. Свидетельством тому, например, недавний выпуск книги «Программно определяемые СХД для чайников» (Software-Defined Storage for Dummies). Если технология дошла до уровня «чайников» (пусть даже этим «чайникам» в предисловии рекомендовано иметь хотя бы базовые представления о дата-центрах и виртуализации), это уже серьезно. 

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!