Лилия ПАВЛОВА	28 марта 2008

28 марта 2008

Высший пилотаж по-русски

Системы автоматического распознавания речи, предлагаемые на российском рынке западными вендорами, все же не могут одолеть "великий и могучий" в его разговорной ипостаси - слишком много фонетических и грамматических особенностей. Похоже, что ближе всех к выполнению фигур высшего пилотажа стоит российская компания.

Санкт-петербургская компания "Центр Речевых Технологий" (ЦРТ, разработчик высокотехнологичных решений и продуктов в области речевых технологий, записи и компьютерной обработки звука) в начале этого года завершила работу над технологией распознавания слитной русской речи на 30 тыс. словоформ. ЦРТ работал над проектом более трех лет, вложив в разработку около $5 млн. собственных средств. По данным компании, для работы над проектом в ЦРТ использовали уникальный для России набор речевых баз данных, в который входят записи более чем 3000 дикторов общей длительностью около 300 часов, собранных с учетом 5 диалектных групп русского языка. Эти базы были использованы для создания акустических моделей звуков русской речи. Для создания языковых моделей в ЦРТ была собрана текстовая база русского языка объемом 35 миллионов слов. Поскольку создание качественной системы распознавания невозможно без обширных экспериментальных исследований, в ЦРТ был развернут мощный вычислительный кластер с производительностью около 1012 операций в секунду. Важной частью проекта стало создание базового речевого декодера, который, используя оригинальные акустические и языковые модели русского языка, преобразовывает речевой сигнал в текст. В настоящее время ЦРТ работает над аппаратной реализацией технологии распознавания слитной русской речи, и уже в 2008 г. компания планирует вывести на рынок несколько продуктов, построенных на основе этой технологии (в частности, систему интерактивного голосового управления для контакт-центров, системы управления промышленными объектами).

"Центр Речевых Технологий" на CCW'2008 представил:

*Voice Navigator - набор программных инструментов и технологий для создания интерактивных телефонных сервисов, основанных на распознавании и синтезе русской речи. Демонстрация проводилась в рабочем режиме. Участники форума могли позвонить в офис ЦРТ и убедиться в высоком качестве и удобстве речевого интерфейса.

*VoiceKey Service - web-ориентированная система биометрической верификации по голосу для управления доступом к персонализированным web-ресурсам, подтверждения личности клиента в системах самообслуживания.

*SmartLogger/Незабудка II - система регистрации телефонных переговоров для call-центров.

На круглом столе "Интеллектуальная связь: распознавание речи в процессе оптимизации работы call-центров" участники обсуждали хоть и разноотраслевые, но моновендорные проекты (реализованные на базе SpeechPearl от Nuance). Когда аудитория молчаливо согласилась с утверждением, что распознавание естественной русской речи - дело неблизкой перспективы, "слово из зала" взял генеральный директор ЦРТ Михаил Хитров: "В прошлом году мы создали продукт, ничем не уступающий SpeechPearl'у. А через год-два у нас появится система распознавания слитной речи без подстройки под диктора для русского языка. Может быть, она не будет такой совершенной, какую сейчас делает для английской речи компания Nuance, но она будет развиваться. Хотелось бы в этой связи обратить внимание: Nuance - это огромная структура, скупившая все "речевые" компании мира, и ее продукт основан на обработке огромнейшего количества речевых корпусов и речевых баз. Например, есть система распознавания английской речи для южных штатов США, есть система распознавания английской речи для Канады, отдельно - для Австралии, для Великобритании и т.д. Речевые корпуса нужны даже для акцентов. И все эти работы финансировались государством.

В русском языке насчитывается 40 акцентных групп. Чтобы собрать по ним полную базу, требуются огромные деньги. У нас есть, конечно, отдельные базы, но надо работать. Система распознавания речи - как ребенок, который постоянно учит слова, и на это обучение требуются средства".

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!

Телеком	ТВ и медиа	Облака	ПО	Кадры
ИТ	Информационная безопасность	IP-сервисы	Аналитика	Регулирование
Интернет	ЦОД	Оборудование	Аутсорсинг	M&A
ИТ в образовании	ИТ в медицине	Big Data	E-commerce	Спутниковая связь
Блокчейн

Высший пилотаж по-русски

Читайте также: