Rambler's Top100
Статьи ИКС № 01-02 2014
Анатолий ИЛЬИН  27 января 2014

Неструктурированные данные для «Гугла» интересны, а для банка – нет

Объемы информации, которые агрегируются в Банке Москвы, измеряются десятками терабайт, и все они используются для решения аналитических задач (управленческой отчетности, задач финансового блока, оценки рисков, сегментации клиентской базы). О работе c данными и подготовке к росту их объема – Анатолий ИЛЬИН, заместитель ИТ-директора Банка Москвы.

Анатолий ИЛЬИН, заместитель ИТ-директора Банка Москвы.– Из каких источников – внутренних или внешних – вы сегодня собираете данные?

– Собираем данные как из внутренних, так и из внешних источников. Внутренних данных, поступающих из наших корпоративных информационных систем, значительно больше. Извне мы берем котировки из систем Reuters, Bloomberg, информацию Центробанка РФ о курсах и котировках, разыскиваем данные о клиентской базе. Иными словами, всю информацию, которая может пригодиться и которая хоть как-то характеризует либо клиентов, либо сделки, мы пытаемся собрать.

– Каково в общем объеме соотношение структурированных и неструктурированных данных?

– Неструктурированных данных у нас практически нет, хотя сейчас вводится в эксплуатацию специализированная система, в которой наряду с обеспечительной документацией будут храниться образы документов. Неструктурированные данные могут также использовать специализированные поисковые системы, но это скорее исключение, чем правило.

– А какие системы бизнес-аналитики вы используете?

– Если посмотреть по инструментариям, то это SAS, Hyperion, KRM для решения задач управления рисками, внедрили системы на базе разработок отечественной компании «Прогноз». Есть у нас и аналитические системы собственной разработки.

– С какими проблемами, связанными с ростом объемов данных, сталкивается ИТ-служба банка?

– Главная проблема – качество данных. Нашей системе 15 лет, и за эти годы она очень сильно изменилась. Какой была система на старте и какой она стала сейчас, это, как говорят в Одессе, «две большие разницы». Все наши бизнес-подразделения просят, чтобы аналитическая информация отражала сегодняшнее состояние дел. Но по своему составу данные, например по клиентским сегментам, которые мы собирали еще даже два года назад, сильно отличаются от тех, которые вводятся в систему сегодня. Вот и приходится отсутствующую информацию либо как-то восполнять, либо восстанавливать с помощью quality-инструментов. Это первая проблема.

Вторая проблема заключается в том, что люди, которые вводят информацию в систему, не всегда делают это качественно, иногда они заводят не все данные или делают это с ошибками, например в адресе, номере телефона. Проблемы также возникают, если нарушить какую-то существовавшую ранее технологию сбора данных: может оказаться, что сводная информация есть, а аналитики нет. Сейчас, когда мы пытаемся каким-то образом обработать информацию и видим, что это не получается, мы сами разрабатываем специальные средства, чтобы ситуацию выправить.

– А кадровый голод – нехватку ИТ-специалистов, аналитиков – вы испытываете?

– С этой проблемой, наверное, сталкиваются все. Хотя по отношению к общему количеству сотрудников ИТ-специалистов у нас меньше, чем в других банках. И это несмотря на то, что свои системы мы в основном разрабатываем сами. Если же говорить о внутреннем стандартном делении, предполагающем, что в ИТ-департаменте есть аналитики, разработчики, тестировщики, документаторы, то в процентном отношении разработчиков у нас, конечно, больше, чем всех остальных. А потому нам не всегда хватает специалистов для качественной подготовки ТЗ, для всестороннего тестирования решений. Проблему эту мы решаем за счет распределения задач между группами сотрудников, привлечения к тестированию бизнес-заказчиков, подключения к аналитической работе разработчиков.

– Используете ли вы в своем решении для обработки данных Hadoop или технологию In-Memory?

– Инструменты open source мы используем очень ограниченно: только если продукт соответствует нашим требованиям высокой надежности и если на рынке есть компании, которые его поддерживают.

Технологию In-Memory пока только изучаем, но применять не планируем. Почему? Внедрение новых технологий требует привлечения новых сотрудников: разработчиков, специалистов по эксплуатации, по базам данных, имеющих соответствующие компетенции, – чьи услуги стоят дорого. Кроме того, приходится эксплуатировать разнотипную технику, а это усложняет вопросы поддержки. А результат, в общем-то, для меня пока не очевиден. Я не считаю, что внедрение модной технологии, ведущее к значительному увеличению штата сотрудников, это правильное решение.  

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!