Россияне научили компьютер распознавать эмоции человека по голосу

09 ноября 2017

Специалисты из Высшей школы экономики (ВШЭ) создали компьютерную систему, которая различает эмоции, звучащие в голосе говорящего человека.

Сотрудники факультета информатики, математики и компьютерных наук Нижегородского филиала ВШЭ представили доклад, посвященный изобретению, на международной конференции Neuroinformatics-2017. Конференция, прошедшая в Москве в начале октября, посвящена нейросетям, адаптивному поведению и когнитивным исследованиям.

Авторы проекта отмечают, что распознавание устной речи и представление ее в письменном виде уже давно не представляет трудности для компьютера. Однако смысл одного и того же слова или высказывания может меняться в зависимости от того, какая эмоция присутствует в голосе говорящего, и эти оттенки смысла компьютер не улавливает.

Разработчики приводят следующий пример: допустим, на вопрос «Все в порядке?» человек отвечает «Конечно». Смысл этого «конечно» варьируется в зависимости от того, каким тоном слово было произнесено — спокойно, вызывающе, жизнерадостно и т. д. В результате, используя одно и то же слово, говорящий может дать на вопрос совершенно разные ответы.

Благодаря самообучающейся нейросети специалисты ВШЭ Анастасия Попова, Александр Рассадин и Александр Пономаренко добились от компьютерной системы распознавания восьми эмоциональных оттенков голоса — нейтрального, спокойного, счастливого, грустного, злого, испуганного, а также демонстрирующего отвращение или удивление. Используемая для этого нейросеть представляет собой сверточную сеть глубокого обучения с архитектурой VGG-16.
Чтобы легче было работать с голосом, специалисты ВШЭ используют спектрограммы

По словам разработчиков, компьютер угадывает эмоцию с точностью в среднем 70%, однако для каждой эмоции этот показатель разный. С нейтральным и спокойным тоном у компьютера возникает меньше всего проблем. При этом счастливую интонацию система склонна путать с испуганной или печальной, а удивление зачастую распознается ею как отвращение.

Чтобы со звуком было легче работать, исследователи преобразовывают его в изображения, так называемые спектрограммы. Для их анализа можно использовать методы, которые обычно используются при распознавании графики.

Искусственная нейронная сеть — это программный или аппаратный комплекс, построенный по аналогии с нервной системой живого организма. Сеть состоит из искусственных нейронов — простых программ или процессоров, которые занимаются выполнением своих частных несложных задач. При этом в совокупности они способны справиться с достаточно трудными заданиями.

В сети присутствует три типа нейронов: входные, через которые поступает информация, выходные, через которые выдается решение, и расположенные между ними скрытые нейроны. Отличием нейросети от других программных и аппаратных платформ является то, что ее не программируют, а обучают. Все задачи она выполняет с учетом предыдущих попыток и ошибок, допущенных в ходе этих попыток.

Чтобы обучить нейросеть распознавать какие-либо объекты или явления, необходимо показать ей множество отличающихся друг от друга вариантов этих объектов или явлений, указывая в каждом случае, что именно она видит. Когда будет пройден определенный порог вариативности, нейросеть сама начнет соотносить поступающие образцы с нужными категориями.

Источник: CNews

Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!

Оставить свой комментарий:

Для комментирования необходимо авторизоваться!

Комментарии по материалу

Данный материал еще не комментировался.

		Апрель 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Телеком	ТВ и медиа	Облака	ПО	Кадры
ИТ	Информационная безопасность	IP-сервисы	Аналитика	Регулирование
Интернет	ЦОД	Оборудование	Аутсорсинг	M&A
ИТ в образовании	ИТ в медицине	Big Data	E-commerce	Спутниковая связь
Блокчейн

Россияне научили компьютер распознавать эмоции человека по голосу

Читайте также:

Оставить свой комментарий:

Комментарии по материалу