Rambler's Top100
Статьи ИКС № 05-06 2015
Ирина ЯХИНА  01 июня 2015

Хранить нельзя отбрасывать

Компании из ряда отраслей сегодня интересуются технологиями хранения и обработки Big Data, однако немало еще и тех, у кого данные накоплены, а понимания, как извлечь из них пользу для бизнеса, нет.

Ирина ЯХИНА

О том, какой вклад в развитие рынка готовы внести производители ИТ-инфраструктуры, – Ирина ЯХИНА, руководитель подразделения технологических решений Hitachi Data Systems.

– Ирина, IDC относит к «большим» те данные, у которых есть хотя бы один из трех признаков – скорость (velocity), объем (volume), разнообразие (variety). Отличаются ли стратегии заказчиков в области Big Data в каждом из этих случаев?

– Разумеется, во всех трех случаях используются совершенно разные подходы. Например, в ритейле, отрасли, которая дальше всех продвинулась в работе с Big Data, накопленные объемы данных невелики. Для розничных сетей важна скорость, с которой они смогут вычленять из данных, поступающих с касс, семантическую составляющую. Вот почему когда мы внедряли свою платформу в «М.Видео», то стремились сделать так, чтобы скорость создания отчетов выросла. Понятно, что если отчет готовится 8 часов, то решение в результате принимается на основе достаточно старых данных.

Если ключевой характеристикой данных является объем, то нужно максимум внимания уделить их хранению. Исходить следует из того, что использование для этой цели «быстрых» носителей будет стоить в разы дороже, чем обычных SATA-дисков. И тут важно понимать, какие данные хранить, а какие нет.

Что касается разноформатных данных – видеофайлов, отсканированных копий документов, то при работе с ними стоит задача привести их к общему знаменателю, поскольку анализировать несравнимые данные невозможно. Она решается программными средствами.

– Как посчитать стоимость хранения «больших данных»?

– Довольно просто. Данные хранятся на дисках, соответственно, чем больше данных, тем больше требуется дисков.

Почему так много говорят о Big Data? Раньше они хранились в базах данных, их было не очень много, так что в любой момент можно было к ним обратиться и посмотреть. А сейчас данных становится все больше, хотя бы за счет увеличения числа устройств, которые могут их создавать. И возникает вопрос: связываться с их обработкой или нет?

– На какой срок хранения Big Data стоит ориентироваться заказчикам?

– Есть данные, хранение которых регламентируется законодательством, и определенные им сроки компании должны соблюдать. Если же говорить о данных, не подпадающих под регулирование, то исходить надо из целесообразности. Ситуация на рынке постоянно меняется, и любой бизнес должен к этим изменениям адаптироваться. Вряд ли в этом ему помогут большие объемы данных пятилетней давности. К тому же здесь еще нужно понять, можно ли из этих «накоплений» выделить полезную семантическую составляющую.

– Какие способы монетизации «больших данных» вы сегодня видите?

– Выявлением ценности тех или иных данных для бизнеса конкретной компании должен заниматься редкий специалист – data scientist. Найти человека с такой компетенцией, это я по своему опыту знаю, непросто.

Если речь идет о ритейле, то там модель монетизации «больших данных» очевидна. Есть данные чеков, с высокой скоростью поступающие в систему бизнес-аналитики со всех кассовых аппаратов в магазине. И если у его руководителей появится возможность в режиме реального времени получать из BI-системы отчеты, они смогут оперативно и гибко управлять логистическими цепочками, закупками, отношениями с поставщиками.

Другой пример – разведка газовых и нефтяных месторождений, где «большие данные» начали использовать еще тогда, когда на рынке о них громко не говорили. Чем лучше проведена разведка, тем выше точность предлагаемых ею данных и, соответственно, тем меньше будет ошибок при выборе площадок для бурения скважин. Это применимо и к другим отраслям. За счет ускорения принятия мотивированных управленческих решений обеспечивается существенная экономия.

Сейчас производители ИТ-инфраструктуры, аналитических инструментов занимаются детальным изучением изменяющихся потребностей заказчиков, чтобы предложить им решения, позволяющие извлекать из данных больше пользы для бизнеса.

– Самим вендорам при этом, наверное, тоже приходится меняться?

– Могу говорить только о нашей компании. До недавних пор компания HDS была известна как поставщик аппаратных решений для хранения данных – объектных хранилищ, файловых систем. Однако, поскольку развитие сегмента «больших данных» постепенно ускоряется и рост его продолжится в будущем, руководством компании было решено усилить в нем свое присутствие.

С этой целью наши разработчики создали аппаратно-программную платформу, представляющую собой специальную файловую систему для такого open source-продукта, как Hadoop. Это решение программно управляется, может хранить большие данные и при необходимости – выделять вычислительные ресурсы, на которых можно развернуть аналитику. Ожидается, что оно позволит крупным компаниям, которые уже используют для обработки Big Data технологии Hadoop, постепенно перейти от ПО с открытым кодом к решению корпоративного класса.  

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!