Во время посещения сайта вы соглашаетесь с тем, что мы обрабатываем ваши персональные данные с использованием метрик Яндекс Метрика, top.mail.ru, LiveInternet.

Ученые улучшили распознавание эмоций по голосу с помощью искусственного интеллекта

Ученые улучшили распознавание эмоций по голосу с помощью искусственного интеллектаФото Sber

Новый AI-инструмент работает с высокой точностью в режиме реального времени и может повысить качество работы контакт-центров

Исследователи лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ представили AI-модель Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER) для распознавания эмоций человеческой речи. Модель достигла высокой взвешенной точности 74,6% на одном из наиболее сложных для проверки функционала модели датасетов IEMOCAP (Interactive Emotional Dyadic Motion Capture), качество ее работы превосходит большинство существующих методов.

Научная статья "CA-SER: распознавание эмоций в речи на основе механизма внимания и объединения акустических признаков" (CA-SER: Cross-Attention Feature Fusion for Speech Emotion Recognition) опубликована в сборнике ECAI 2024 — одной из ведущих конференций по искусственному интеллекту в Европе.

Предложенная учеными AI-модель объединяет самообучение (Self-Supervised Learning) с использованием предобученной модели wav2vec 2.0 и спектральных акустических признаков, таких как мел-кепстральные коэффициенты (MFCC, Mel-Frequency Cepstral Coefficients), через механизм перекрестного внимания (cross-attention). CA-SER позволяет эффективно комбинировать высокоуровневые представления от SSL-моделей с низкоуровневыми спектральными признаками.

Другими словами, сначала система детектирует важные характеристики речи, а затем добавляет к ним данные о звуках голоса (например, их громкость и тональность). Эти два типа информации объединяются с помощью специального механизма, эффективно соединяя общие характеристики речи с ее детальными особенностями, что помогает точнее определять эмоции говорящего человека.

Этот инструмент решает проблему несоответствия чистых аудиоданных, на которых обучены SSL-модели, и эмоциональных датасетов с различной интонацией и интенсивностью. Он будет полезен в системах автоматического взаимодействия с человеком –– голосовых чат-ботах, кол-центрах, а также в приложениях цифрового мониторинга психологического здоровья и других областях, где нужно анализировать эмоции в режиме реального времени.

Исходный код модели доступен в open source, поэтому исследователи и другие ученые могут использовать инструмент в своих исследованиях, чтобы провести дополнительные эксперименты для проверки обобщаемости модели на другие языки и датасеты, повысить ее универсальность и применимость в реальных условиях. Так, модель можно обучать на русскоязычных эмоциональных корпусах и затем применять в голосовых помощниках и контакт-центрах.

...

  • 0

Популярное

Последние новости