Rambler's Top100
Все новости Новости отрасли
Екатерина ШЛЫК 28 февраля 2014

Data mining в приоритете

Когда заходит речь о big data, всегда возникает вопрос о точном определении этого термина. И это неизбежно, если пытаться дать «большим данным» количественное определение.

Так 50 лет назад «большими данными» измерялись в мегабайтах, 20 лет назад – в гигабайтах, сейчас – в пета- и экзабайтах… Так что попытки определить «огромность» данных через байты – занятие неблагодарное. Но можно взглянуть на проблему с другой стороны, со стороны технологии.

По мнению Андрея Пивоварова, руководителя группы перспективных технологий проектного консалтинга компании Oracle, высказанному на Oracle Big data & BI Forum, большие данные действительно были всегда, но сейчас появились новые технологии работы с этими данными, это, фактически, интернет-технологии, вышедшие в офф-олайн.

Дело в том, говорит Пивоваров, что теоретически можно построить сколь угодно большое хранилище данных, но если компания не будет иметь возможности быстро и качественно извлекать из этих массивов требуемую информацию, то все хранение всех этих петабайт будет бессмысленно. Конечно, были специальные решения для работы с данными, но на больших объемах они оказываются слишком дорогими или же работа занимает слишком больше времени. Поэтому новые (для оффлайна) принципы работы, такие как data mining, становятся востребованными. А вместе с этими технологиями «всплывает» и тема данных как таковых.

С такой точкой зрения согласна и Ольга Горчинская, директор по исследованиям компании ФОРС. По ее словам, в случае работы с большими данными, приоритет (по крайней мере, поначалу) отдается не вычислительным, а поисковым технологиям. Правильное извлечение неструктурированных данных из больших массивов невозможно ни с помощью BI-систем, ни с помощью реляционных баз данных. Если у компании есть масса информации, куда входят как, например, информация с датчиков, установленных у клиента, так и активность этого клиента в соцсетях, и все это – на протяжении нескольких лет, то никакими средствами «привычных» систем невозможно эту информацию обработать и придать ей ценность, сделать ее качественными данными, пригодными для дальнейшего анализа. Вот тут на помощи  и приходят интернет-технологии поиска данных, причем важнейшим компонентом становится лингвистический модуль.

Впрочем, как отмечают эксперты, пока речь все же идет не столько о востребованности big data у клиентов, сколько об интересе к новым технологиям. Рынок присматривается, оценивает выгоды и риски. Банки, телеком-компании, госсектор и ритейл уже внедряют у себя те или иные пилотные решения. В целом, по данным Gartner, расходы на технологию big data в 2013 году в мире составили $34 000 млн. В 2016 году, уверяют в IDC, рынок big data составит $23,8 млн., а среднегодовой рост составит 31,7%.

Интересно, что, по словам Ольги Горчинской, с точки зрения big data Россия если и отстает от «продвинутых» стран, то лишь совсем немного. Однако, у нас есть отставание другого порядка: наши компании не научились в полной мере работать с теми данными, которые у  них уже есть внутри самой организации. У нас недостаточно и не в полной мере используются BI-системы. И, образно говоря, хранить данные российские компании научились, а извлекать из них агрегированную и проанализированную информацию – не вполне. Поэтому переход к big data, в которых помимо собственных, внутренних данных используются и данные сторонние, может показаться отечественному бизнесу довольно резким.

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!
Поделиться:

Оставить свой комментарий:

Для комментирования необходимо авторизоваться!

Комментарии по материалу

Данный материал еще не комментировался.