Рубрикатор |
Все новости |
Победители конкурса «Цифровой прорыв» рассказали о разработке алгоритма для работы с большими данными
10 июня 2020 |
Совместная команда digital-интегратора DD Planet и выпускников ТулГУ стала победителем конкурса «Цифровой прорыв». Участники команды поделились опытом разработки решения, занявшем 1 место в кейсе анализа геоданных от Ассоциации больших данных и Сбербанка.
В задании Ассоциации больших данных и Сбербанка командам требовалось разработать интеллектуальную систему предобработки почтовых адресов, не подвергающуюся разложению существующим Нормализатором банка.
Нормализатор адресов – программа, которая на вход принимает произвольную строку адреса с перечисленными через разделитель составляющими (город, улица, дом и др.), а на выходе – структурированную запись с разложенными показателями. Результатом предложенного решения должен был стать алгоритм, корректирующий адрес так, чтобы он успешно обрабатывался Нормализатором.
Команда-победитель под названием «Фирмачи» представила решение, которое позволяет структурировать адреса, убирает лишние знаки препинания, незначимые или мешающие распознаванию блоки и приводит адрес к стандартному виду. Алгоритм основан на выявленных с помощью статистического анализа плохих и хороших адресах и позволяет компаниям с большой базой данных быстро их актуализировать. Решение является автоматическим, что обеспечивает минимум вложений для его поддержки.
«В ходе разработки алгоритма мы столкнулись с проблемой – не могли проверять свое решение на Нормализаторе Сбербанка. Поэтому наша команда создала классификационную модель, которая с точностью более 98% определяет, распознает ли Нормализатор адрес или нет. Благодаря статистическому анализу мы определили блоки адреса, которые «ломают» Нормализатор. Их мы удаляли или преобразовывали. Такой подход позволил нам получить более 67% распознанных плохих адресов с минимальной потерей информации. Мы сразу адаптировали свое решение к высоким нагрузкам, реализовав его на Java + Apache Spark», – рассказал Юрий Басалов, ведущий программист digital-интегратора DD Planet.
Оставить свой комментарий:
Комментарии по материалу
Данный материал еще не комментировался.