Rambler's Top100
Все новости Новости компаний

ЦРТ разработал первую русскоязычную технологию Audio Data Mining

11 февраля 2008

Компания «Центр Речевых Технологий» завершила работу над уникальной технологией поиска «ключевых» слов в фонограммах речи для русского языка – Voice Digger.

Компания «Центр Речевых Технологий» завершила работу над уникальной технологией поиска «ключевых» слов в фонограммах речи для русского языка – Voice Digger. Это первая в России коммерческая разработка в области audio data mining -  одного из самых перспективных направлений цифрового компьютерного рынка в мире. 

Voice
Digger позволяет осуществлять автоматическое определение «ключевых» слов и словосочетаний в потоке слитной речи без предварительного прослушивания и, таким образом, становится незаменимым помощником в работе с аудио архивами и мониторинге аудиоинформации. Новая технология способна минимизировать усилия, требующиеся  в  процессе обработки звуковой информации, и значительно экономить ресурсы.

Voice Digger основан на непрерывном распознавании речи, реализуемом на акустических скрытых Марковских моделях (HMM). Ключевые слова задаются в виде обычного набранного текста, по которому система строит НММ модель каждого слова. Кроме того в системе задается так называемая фоновая модель - модель общей речи. При построении моделей ключевых слов используется транскриптор русского языка и акустические модели фонов для русского языка. На выходе VoiceDigger предоставляет ссылку на звуковой документ и местоположение искомого слова или словосочетания. Метод является достаточно быстрым и не зависит от словаря. Уровень ошибки составляет всего 8%.

По мнению специалистов, новая технология будет пользоваться спросом  в крупных системах обработки, хранения и анализа данных. Модули, созданные на базе Voice Digger, позволят оперативно обработать не только текстовые, но и мультимедиа-данные и получить на выходе систематизированные выборки по интересующей пользователя тематике. Известный поисковый портал Google уже объявил о начале собственных разработок в этой области. Правда, в своих изысканиях он ориентируется прежде всего на англоязычную аудиторию. Voice Digger стал первым в мире коммерческим продуктом подобного класса для русского языка.

«В связи с все более активным использованием естественного интерфейса и, в частности голоса, для общения с техникой возросло и значение аудиозаписи как единицы-носителя информации. Появилась потребность в системах, способных быстро и эффективно обслуживать аудио архивы и находить нужную информацию в большом объеме записи. Voice Digger  - первая на российском рынке технология способная существенно облегчить работу в этом направлении» - отметил генеральный директор Центра Речевых Технологий Михаил Хитров.

Источник: ЦРТ

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!
Поделиться:

Оставить свой комментарий:

Для комментирования необходимо авторизоваться!

Комментарии по материалу

Данный материал еще не комментировался.