Rambler's Top100
Реклама
 
Статьи
Юлия ХРИСТОВА  30 сентября 2020

Обработка данных для машинного обучения: чем поможет аутсорсер

«Правильные», хорошо подготовленные данные способны помочь искусственному интеллекту творить чудеса. Но для того чтобы должным образом собрать данные для машинного обучения, провести их предварительную обработку, требуются специальные знания и умения.

Объемы информации растут день ото дня, и их грамотное использование открывает бизнесу все более широкие горизонты. Одно из безусловно перспективных направлений работы с данными – их применение для машинного обучения (Machine Learning, ML). Новые возможности для развития бизнеса, оптимизация процессов для решения бизнес-задач, быстрое построение смелых и верных прогнозов, делегирование ряда полномочий роботам, наделенным искусственным интеллектом, – все эти заманчивые перспективы открываются каждой компании, «принявшей в штат» обученные машины. Однако машинам, как и людям, для успешного обучения требуются учитель и учебный материал. В случае с ML это – специалисты в области машинного обучения и анализа данных и сами исходные данные, подготовленные определенным образом. А еще – ИТ-специалисты, поддерживающие программно-аппаратную часть «учеников»… 

Подготовка данных – кому ее доверить?

Технологии машинного обучения на основе анализа данных появились довольно давно – еще 70 лет назад, когда в 1950 году стартовали разработки программ для игры в шашки. Сейчас вычислительные мощности компьютеров позволяют внедрять ML в самых разных сферах. И пусть далеко не все компании взяли на вооружение применение своих данных в процессах ML (год назад, по статистике Forbes Insights, стратегии обработки данных в масштабах предприятия придерживались всего 11% опрошенных компаний), уже в ближайшей перспективе использование машинного обучения может стать одним из корпоративных стандартов.

Казалось бы, успех применения ML напрямую зависит от количества данных, которыми компания располагает в связи с той или иной своей задачей. Действительно, прежде чем запустить процесс машинного обучения, в компьютер необходимо ввести определенный объем исходного материала. Но в случае с ML важно не только и не столько количество, сколько качество данных – т.е. степень их подготовленности. Введенные в компьютер «правильные», хорошо подготовленные данные способны помочь искусственному интеллекту творить чудеса. «Неправильные» данные не научат вашу машину ничему действительно полезному.

Здесь становится очевидным, что на пути развития ML стоит рядовая кадровая проблема. В каждой ли компании найдется «продвинутый» аналитик, который знает, как правильно собрать данные для машинного обучения, провести их предварительную обработку: очистить, привести к единообразию, отформатировать и разметить, удалить дубликаты, уплотнить, преобразовать непрерывные атрибуты в категориальные для более простого использования в целях ML и т.д.? Даже если компания может позволить себе штатного специалиста в области машинного обучения и анализа данных, его труд стоит слишком дорого для того, чтобы поручить ему выполнять все операции по ML от и до, среди которых – особенно в части подготовки данных – немало рутинных.

Есть ли спасение в краудсорсинге?

Стремясь избавиться от рутинных задач в области обработки и подготовки данных, компании зачастую находят выход в краудсорсинге. Безусловно, такой пусть имеет право на существование. Среди всем известных плюсов краудсорсинга можно выделить основной – относительно низкую стоимость, ведь участники «коллективного творчества», как правило, привлекаются по довольно низкой ставке.

К сожалению, есть у краудсорсинга и оборотная сторона – отсутствие единого стандарта качества. Когда речь идет о «толпе», сложно установить единые правила, точнее сложно получить результат в строгом соответствии с заданными параметрами.

Работа с данными на аутсорсинге

Оценивая риски, многие клиенты обращаются к аутсорсингу, получая при этом не просто выполненные задачи, а полноценный сервис. Подготовка данных для последующего машинного обучения силами аутсорсера имеет ряд преимуществ. Перечислим основные.

Работая с аутсорсером, клиент получает управляемое качество сервиса. Он вправе рассчитывать на строгое соблюдение договоренностей как по времени проверки данных, так и объему ошибок. Договором также обеспечивается конфиденциальность данных. А наличие менеджерской надстройки гарантирует единый стандарт проверки.

Сотрудничество с аутсорсером – это снижение затрат на предоставление доступа к данным. Бюджет такого взаимодействия всегда прозрачен и исключает необходимость непредвиденных вложений в ходе проекта. У заказчика нет необходимости планировать бюджет мотивации и поддерживать интерес исполнителей к выполнению «непопулярных» задач, как это бывает при краудсорсинге. Чем шире в функциональном плане проект с применением ML и чем более развитая управленческая надстройка требуется для его функционирования, тем больше экономит заказчик в случае обращения к аутсорсеру.

Административные затраты со стороны заказчика тоже сокращаются до минимума: подрядчик управляет всем сервисом в целом, в том числе непосредственными исполнителями, объемом работ и всеми другими связанными с подготовкой данных моментами.

Если клиент заинтересован в как можно более быстром старте проекта, то это еще один повод отдать подготовку данных для ML на аутсорсинг. Специализированные компании обладают моделями и платформами для работы, а значит, необходимость тратить время на разработку этих инструментов не возникнет. За счет того, что штатная команда заказчика сосредоточена на основных бизнес-функциях, а непрофильная экспертиза передана сторонней компании, эффективность основной работы внутренних специалистов повышается.

ИТ-составляющая под контролем

Для того чтобы обработка данных для дальнейшего их использования была качественной, целесообразно предоставить аутсорсеру возможность провести оценку качества выполнения заданий. Следует сравнить результаты (в виде фотографий, документов или иных объектов) выполнения той или иной задачи пользователем с представленным образцом.

Аутсорсинг в сфере подготовки данных для ML привлекателен еще и тем, что среди аутсорсеров можно найти таких, кто способен выполнять гораздо более широкий круг задач, чем только сбор и обработка данных, например, взять на себя обслуживание и техподдержку аппаратной части заказчика, задействованной в сборе данных.

Таким образом, аутсорсер, компетентный как в части поддержки ИТ-решений, так и в части аналитики, способен оказать заказчику содействие на протяжении практически всего цикла работы с данными для ML, начиная от обеспечения работоспособности ИТ-инструментов и поддержки пользователей до непосредственной подготовки данных к машинному обучению.

Юлия Христова, директор, Ventra IT
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!