Rambler's Top100
Все новости Новости отрасли

«Исторический прорыв Microsoft» был совершен с помощью российских разработчиков

01 ноября 2016

В «историческом достижении» Microsoft в области распознавания речи использованы разработки резидента «Сколково». Российские разработчики из ЦРТ рассматривают рынок распознавания речи в глобальном масштабе и нацеливаются на распознавание редких языков.

Как стало известно CNews, группа исследователей Microsoft в области искусственного интеллекта по автоматическому распознаванию телефонных разговоров удалось добиться рекордного результата с помощью методики, разработанной резидентом «Сколково», компанией «ЦРТ-инновации», входящей в группу ЦРТ, «Центр речевых технологий». 

На днях компания Microsoft объявила, что ее система распознавания речи по уровню точности сравнялась с распознаванием речи живым человеком, при этом ошибка распознавания речи составила 5,9% — то есть, более 94% слов система распознаёт верно. Такой же результат в аналогичных условиях показали профессиональные стенографисты. 

«Мы достигли уровня человека. Это историческое достижение», — заявил главный инженер исследовательской группы Microsoft по работе с искусственным интеллектом Сюэдунь Хуань (Xuedong Huang). 

Согласно данным научной публикации исследователей из Microsoft, наибольший вклад в улучшение результата внесло использование метода, предложенного Группой ЦРТ на международной конференции Interspeech сентябре 2016 г. в Сан-Франциско.

На вопрос CNews о том, почему эксперимент производился с английским языком, Александр Затворницкий, руководитель отдела распознавания речи ЦРТ, ответил, что в русском языке в простых задачах вроде распознавания команд или дикторской речи порядок ошибки составляет 5-7%, в телефонных диалогах 15-25%. Ситуация бывает и хуже и лучше в зависимости от темпа беседы, темы, интеллигентности беседующих.

По словам Александра, английский является наиболее изученным и довольно простым, поскольку относится к языкам, в котором грамматические отношения, в основном, передают не словоизменением, а служебными словами. В итоге, словарь на 50 тыс. словоформ для английского - это довольно много, а для русского нужно не менее 200 тыс. По его словам, сложны флективные или аглютинативные языки (русский, арабский и другие), а также малоизученные языки. Но человеческая речь постоянно преподносит сюрпризы: например, распознавание малоизученного аглютинативного грузинского на практике оказалась не очень сложной задачей.

Где деньги?

По словам Александра, владение даже основами технологии распознавания дает преимущества даже на нынешнем этапе: «распознавание речи используется все чаще на мобильных устройствах, потому что из-за небольшого экрана набирать текст с помощью клавиатуры не всегда удобно. Этому способствует как развитие облачных технологий, так и увеличение мощности самих гаджетов. Технология применяется как в голосовых помощниках,  так и просто для быстрого набора текста. Голосовые помощники становятся все более «умными» благодаря развитию технологий, и пользователи начинают активнее ими пользоваться. В корпоративном сегменте распознавание речи активнее всего используется в голосовых IVR и в бизнес-анализе». 

На российском рынке, по словам Александра, «ЦРТ-инновации» преуспели в обоих сегментах, для завоевания мирового рынка нужно развивать распознавание других языков (помимо русского): «Мы сделали распознавание английского как наиболее распространенного и намерены делать локализацию наших продуктов для него, но также наша стратегия в этом отношении – занять нишу редких языков. Мы первые сделали распознавание казахского, готовое к промышленному внедрению, и распознавание египетского диалекта арабского».

В настоящее время разработки «ЦРТ-инноваций» активно внедряются в отечественной индустрии. Например, один из продуктов компании, Smart Logger II, позволяет использовать распознавание речи в бизнес-анализе. Его активно используют аналитики контакт-центров (например, в Ростелекоме) для решения таких задач, как выявление лучших и худших практик в продажах, анализ причин длительных и повторных обращений, анализ причин возникновения претензий, оценка продвижения сервисов самообслуживания, анализ соблюдения операторами скриптов и стандартов обслуживания клиентов, а также выявление причин оттока клиентов.

Принцип работы алгоритма основан на первичном распознавании речи всех 100% фонограмм диалогов клиентов с операторами. Затем они анализируются по параметрам, заданным аналитиком: от поиска ключевых слов, сигнализирующих что-то конкретное, до разделения всех диалогов на тематические кластеры (используется для выявления, например, непрофильных тем обращений) и анализа эмоционального фона.  

Продукт «ЦРТ-инноваций», специально разработанный для создания систем голосового взаимодействия, называется VoiceNavigator. Он позволяет автоматизировать предоставление большего количества услуг и справочной информации, чем существующие IVR-меню на DTMF. В качестве примера Александр привел тиичную ситуацию со звонком клиента в банк с типовым вопросом, по поводу которого нет смысла ждать освобождения оператора – на вопрос может ответить и робот, синтезированным голосом. Подобные системы, по словам Александра, уже работают в РЖД, Интер РАО ЕЭС, клинике Алмазова и др. 

Как это работает?

Эксперты ЦРТ отмечают, что сейчас идёт вторая волна революции глубокого машинного обучения. Первая была примерно 2005 г. - тогда появились новые алгоритмы машинного обучения на обычных сетях прямого распространения. Сети прямого распространения устроены просто: они состоят из нескольких последовательно расположенных слоёв. Но их, благодаря новым алгоритмам обучения, стали делать более глубокими и получать рекордные результаты.

Сейчас идёт вторая волна - развиваются сверхглубокие нейронные сети и рекуррентные сети. Рекуррентные нейронные сети тоже изучаются очень давно и в некоторых областях, таких, как языковое моделирование, они являются стандартом де-факто. При этом, они неидеальны: существует проблема быстрого "затухания" памяти: их память очень кратковременная. 

Применяемая на практике архитектура LSTM является одним из вариантов рекуррентных нейронных сетей, позволяющих решить эту проблему (LSTM, long short-term memory, "длинная кратковременная память", или "продление кратковременной памяти"). 

Использование такого рода рекуррентных нейронных сетей позволило получить рекордные результаты в акустическом моделировании, чем "открыло" вторую волну революции глубокого обучения в распознавании речи. Эти наработки сейчас активно исследуют и применяют такие компании, как Google, IBM, Microsoft, ЦРТ и   ведущие университеты - Cambridge, MIT, John-Hopkins University, ИТМО.

По словам разработчиков, заслуга ЦРТ заключается не в изобретении LSTM-сетей, что было сделано достаточно давно, а в удачном применении и разработке нового алгоритма их обучения для языкового моделирования спонтанных телефонных диалогов. Свежее решение было подхвачено на конференции и IBM, и Microsoft. Последняя помогла преодолеть барьер, остававшийся Microsoft до получения её рекордного результата. 

О проблеме распознавания речи российские разработчики рассказали CNews множество интересных подробностей. Оказывается, задача распознавания речи интересна тем, что достигнуть «человеческого» уровня невероятно сложно, этого еще не сделал никто. Отдельные успехи сделаны в ряде задач. 

В распознавании дикторской речи или распознавании команд (как сейчас в смартфонах) близкий к человеческому уровню результат был получен уже давно, а распознавание спонтанных телефонных диалогов – задача гораздо более сложная. Но сейчас покорилась и она. Тут уровень ошибки составляет порядка 4-7%. 

Но есть ещё задачи, на которых до человека технологиям далеко. Так, на русскоязычных спонтанных диалогах ошибка составляет 15-25% (хотя, бывают очень сложные диалоги со значительно большей ошибкой). Что касается телефонных диалогов на арабском, ошибка доходит до 50% (по результатам международного конкурса, в котором участвовали крупные университеты и разработчики IBM, BBN, и др. Организатор - Национальный институт стандартизации и технологий США).

Задача распознавания записей совещаний пока также очень далека от решения – процент ошибки также составляет порядка 50%. Человек распознает речь в широком диапазоне акустических условий, в разных стилях, адаптивно. Системы распознавания решают каждую из этих задач отдельно, используя разные алгоритмы. Пока наши системы не станут распознавать так же, как человек, задачу распознавания нельзя считать решённой.


Источник: CNews

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!
Поделиться:

Оставить свой комментарий:

Для комментирования необходимо авторизоваться!

Комментарии по материалу

Данный материал еще не комментировался.