Rambler's Top100
Статьи ИКС № 05-06 2015
Михаил ЛЕВИЕВ  01 июня 2015

Data scientists – свои или чужие?

Если дата-майнинг не является сутью вашего основного бизнеса, то держать у себя команду ученых в области данных, data scientists, экономически неэффективно, убежден Михаил ЛЕВИЕВ, гендиректор компании «АлгоМост», молодого и амбициозного игрока формирующегося рынка дата-майнинга и дата-консалтинга.

Михаил ЛЕВИЕВ, гендиректор компании «АлгоМост»

Полпути позади

От мысли о том, что раз все говорят о «больших данных», то о них стоит подумать, до понимания, какие задачи с помощью анализа Big Data хочет решать компания, путь долгий. Российские компании прошли его примерно наполовину. Сейчас их движение вперед сдерживают такие факторы, как неразвитая ИТ-инфраструктура для сбора, обработки, хранения и анализа данных. Далеко не все имеют качественную систему CRM.

При этом надо понимать, что одним лишь ИТ-решением, даже самым продвинутым, потребность в анализе «больших данных» не закрыть, поскольку это задача не только техническая. Если смотреть на дата-майнинг как на пирамиду, то ее основание – это аппаратно-программная часть, обеспечивающая хранение данных и взаимодействие с ними. Середина – программные средства, которые позволяют данные анализировать. Такое ПО может быть как коммерческим продуктом, так и продуктом на базе открытого кода.

А вершина – ученый в области данных, data scientist, который может с помощью инфраструктуры и аналитических инструментов погрузиться в данные в поисках красоты, т.е. закономерности, и выявить ценность, которая в них скрывается. Только data scientist способен высчитать коммерческий потенциал всех накопленных компанией данных и трансформировать их в эффективные решения для бизнес-подразделений.

Сегодня в России компаний, которые обладают ресурсами, необходимыми для работы с «большими данными», единицы. У подавляющего большинства таких ресурсов нет. Проблема заключается даже не в том, что многие компании какие-то накопленные ими данные не обрабатывают, а в том, что большое количество компаний, причем достаточно крупных, возникающие в процессе их бизнеса данные утилизируют, просто потому что возможность их хранения и последующей обработки в их инфраструктуре не реализована. Тем самым они лишают себя возможности использовать анализ «больших данных» для совершенствования своих технологических и бизнес-процессов, а значит, и повышения эффективности бизнеса. Кроме того, они не могут использовать их как ресурс для продажи на рынке.

Купи-продай

Индустрия продажи данных в России только формируется, а в США ее объем исчисляется миллиардами долларов. Понятно, что речь идет не о персональной информации клиентов (паспортных данных, адресах, номерах телефонов и т.п.), а о знании их предпочтений, о неких поведенческих моделях. Для компаний, работающих на массовом рынке, но не накопивших еще собственных данных, приобретение такой обезличенной информации на рынке позволяет узнать и понять своих клиентов, предугадать их реакцию на те или иные предложения. И потому они готовы платить за это деньги.

Однако едва ли можно получить много, продавая «сырые» данные. Другое дело, если предлагать рынку «сигналы» – продукты обработки данных, своего рода концентраты. Тут предобработка обеспечивает добавочную стоимость, и потому цена «сигналов» намного выше. В этом случае данные можно сравнить с рудой. Порода, которую достали из земли и в которой есть крупицы драгметалла, стоит не так дорого, как слиток золота.

Для того чтобы «переработать» данные в дорогой металл, нужно прибегнуть к услугам data scientist. Такие специалисты способны сделать из «сырых» данных аналитический продукт, который востребован рекламными агентствами, розничными сетями, логистическими и транспортными компаниями, авиаперевозчиками.

Кроме того, в обезличенных клиентских данных заинтересованы разработчики приложений, которые перед выводом продукта на рынок должны обучить встроенные в него алгоритмы. Поскольку своей аудитории пользователей у них еще нет, они для этой цели приобретают данные на рынке. Также данные закупаются для научных исследований и исследований рынка. Заинтересованных в покупке внешних данных сторон настолько много, что мы не сомневаемся: развитие платформ торговли данными в России – это дело времени.

Где искать data scientist?

Стремление компаний, работающих в сегменте B2C, основываясь на анализе «больших данных», понять, как непростая экономическая ситуация влияет на предпочтения клиентов, на клиентский трафик, – явный тренд на российском рынке.

Однако их владельцы и топ-менеджеры пытаются сэко­номить и совершают ошибку, привлекая для работы с данными, которые стоят порой дороже самой компании, талантливую молодежь, владеющую инструментами дата-майнинга, либо находя исполнителей среди ученых, сотрудников институтов, которые готовы за небольшую плату построить для них модели.

Такая «экономия» несет в себе серьезные риски. Первый из них – это нарушение конфиденциальности, т.е. риск утечки информации. Второй риск связан с тем, что результат такой аналитической работы может оказаться неустойчивым или некачественным, а компания поймет это только тогда, когда, воспользовавшись им, начнет терять деньги.

Между тем ученые (специалисты) в области данных могут, как в детективе, найти закономерность, распутать ее, понять, о каких процессах она свидетельствует и какие знания дает. При этом разработанные ими в рамках дата-майнинга алгоритмы будут отличаться высокой точностью и устойчивостью, а могут и привести к неожиданным результатам. Например, наша команда, участвуя в проекте в области медицины, решала задачу по «очистке от шума» показаний устройства для считывания пульсовой волны. Когда мы выявили закономерности и обосновали их, оказалось, что мы совершили маленькое открытие в индустрии, которая существует уже 20 лет.

Компаниям, особенно напрямую не связанным с ИТ- и интернет-бизнесом, вряд ли стоит пытаться развивать компетенции по высокоуровневому анализу данных in-house. В этом случае им придется принять на себя риски, связанные с экономической эффективностью, с профессиональным уровнем команды, с ее загрузкой.

Услуги дата-консалтинга и дата-майнинга в той или иной форме сегодня уже представлены на рынке, например, наша клиентская база с начала 2015 г. выросла в 6 раз. К тому же стоимость таких услуг несоизмеримо меньше того экономического эффекта, который обеспечивает высокоуровневый анализ «больших данных». 

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!