Rambler's Top100
Статьи ИКС № 01-02 2014
Виктор БУЛГАКОВ  27 января 2014

Big Data для расширения возможностей развития

Объем хранилища данных «ВымпелКома» – более 400 Тбайт, целый оркестр аналитических инструментов помогает бизнес-пользователям с ними работать, в каталоге корпоративных и персональных отчетов – свыше 3,5 тыс. видов. Какие преимущества дает здесь внедрение технологий Big Data? Об этом – Виктор БУЛГАКОВ, руководитель департамента управленческой информации «ВымпелКома».

Виктор БУЛГАКОВ, руководитель департамента управленческой информации «ВымпелКома». – Телекоммуникационная отрасль в использовании «больших данных» находится на переднем крае. Ежедневно с коммутатора приходят миллиарды записей, и это только вершина айсберга. Базовые станции, сетевые элементы, платежные платформы генерируют огромный объем технических данных. Бытует мнение, что одному звонку соответствует всего одна запись с коммутатора. На самом деле во время коммутации маршрут звонка проходит через несколько коммутаторов: бывает через два или три, а бывает и через 15. Каждый факт коммутации регистрируется, и в итоге появляется 15 записей на один звонок клиента!

Сетевые элементы предоставляют большой объем данных, поэтому важно извлекать из него именно полезную информацию. Это отдельная наука, и здесь нам помогает Big Data. С ее помощью можно превратить данные из разнородных источников в готовую информацию для управления бизнесом и для удовлетворения клиентов.

– В вашем хранилище используется технология Hadoop. Но ведь многие считают, что ее «конек» – неструктурированные данные?

– Наша практика и опыт показывают, что область применимости Big Data значительно шире. Решения на базе Hadoop успешно справляются и с расчетными задачами на структурированных данных. Особенно показательны результаты в задачах, где требуется «грубая вычислительная сила». Для наглядности приведу пример проверки операций за день по 45 млн абонентов. В 2007 г. по традиционным технологиям такого рода расчет требовал до пяти суток. В настоящий момент решение той же задачи с еще большим количеством абонентов укладывается в три часа. Конечно, серверное оборудование развивается и позволяет проводить расчеты быстрее, но такой революционный скачок в скорости расчетов обеспечивают именно технологии Big Data.

В работе с неструктурированными данными Hadoop и NoSQL DataBase также выглядят очень привлекательно, об этом свидетельствует опыт Yandex, Mail.ru и других интернет-компаний. Таким образом, для телекоммуникационных компаний Big Data является полезным инструментом повышения эффективности.

– В последнее время поставщики хранилищ корпоративного уровня предлагают технологию обработки в оперативной памяти In-Memory. Почему вы не прибегли к ней?

– Да, все поставщики реляционных хранилищ двигаются в эту сторону для увеличения производительности и пропускной способности их решений. Нужно только помнить о важной особенности: построить решение, работающее online, непросто. Технологии обработки данных In-Memory эффективны, и особенно эффективны технологии типа In-Memory Data Grid (IMDG). Мы внимательно изучаем области применения и экономику этих решений. Разделив задачи на два сегмента – на bat-загрузки и online-задачи, – мы ясно видим возможности. Так, решения на базе Hadoop для bat-загрузки можно эффективно дополнить решениями In-Memory для решения online-задач.

– Решение на Hadoop интегрировано с большим корпоративным хранилищем данных на Oracle?

– Интеграция – ресурсоемкая задача. Получив позитивные результаты от использования Hadoop,ё мы запланировали более плотное взаимодействие с корпоративным хранилищем данных. Для интеграции мы собираемся использовать технологии Informatica Big Data Edition. Это упрощает ИТ-архитектуру, одновременно обеспечивая расширение возможностей, и снижает затраты на разработку и поддержку.

– Какую долю данных, собранных в хранилище на Hadoop, вы сразу используете?

– В наших проектах основной движущей силой являются потребности бизнеса. Сегодня в работе находятся более 40 кейсов, и под каждый из них мы подобрали необходимый набор источников данных. Мы это называем «фабрикой идей», это конвейер, где сценарии, требующие применения «больших данных», пекутся как пирожки. Из 44 бизнес-кейсов десять уже реализовано.

В отличие от работы с традиционными хранилищами данных, подключая источники к Big Data, мы стараемся сразу забрать максимальное количество информации. И что более интересно, на первых этапах процент использования собранных данных у нас близок к 100%. Скорее всего, это обусловлено ранними этапами развития и высокой заинтересованностью бизнеса.

– А как вы работаете с уже собранными в Hadoop из разных систем данными?

– Сейчас мы находимся на первых этапах проектов, поэтому с хранилищем Big Data работают только системные аналитики, а бизнес-аналитиков сознательно отгораживаем. В реляционном хранилище доступ к данным у нас четко регламентирован – и по колонкам, и по столбцам, и т.д., и т.п. А в Hadoop, где основной упор сделан на высокую производительность, разделение доступа к данным регламентировано в меньшей степени. А раз так, вопросы безопасности для нас сегодня на первом месте, поскольку в этой единой системе хранится вся детальная информация об абонентах. Первоначально необходимо отработать наиболее продуктивную методологию работы и организовать безопасный доступ к данным.

– Как вы планируете оценивать эффективность вашего решения Big Data?

– Финансовый блок провел оценку эффективности вложений в новую технологию на базе Hadoop, и эта оценка оказалась достаточно позитивной, чтобы стартовал целый портфель проектов.

– Итак, резюмируя: чем компании «ВымпелКом» полезна технология Big Data?

– Технология Big Data позволяет своевременно и объемно понимать потребности наших клиентов, что дает нам возможность заботиться о каждом из них. Технология Big Data позволяет маркетингу решать задачи нового поколения, как с точки зрения скорости, так и с точки зрения окупаемости. Инвестируя в технологии Big Data, мы получаем сразу два преимущества: быстроту и эффективность. Это хороший пример стратегии win-win, когда все нравится и бизнесу, и нам, ответственным за технологию, потому что с помощью новых инструментов мы создаем среду, помогающую быстро открывать для бизнеса новые возможности.
Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!