На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Газета.ру

8 691 подписчик

Свежие комментарии

  • Дмитрий Варфоломеев
    уже вторая такая статья, вы или пишите кто заказчик или работайте в другом месте.ТАСС: организатор...
  • mgb Морозов
    Кстати, по поводу поведения Трампа 90 лет назад очень четко писал К. И. Чуковский в своей сказке "Тараканище". Один к...Финляндия по прос...
  • Михаил Гринжук
    да на хрен теперь никому не нужны.Вам лет 50 понадобится чтоб хотя бы 10 процентов русских вернулось.Экс-глава МИД Фин...

FIP: нейросеть точно определила эмоции людей по аудиороликам длиной 1,5 секунды

Немецкие исследователи из Института человеческого развития Макса Планка в Берлине выяснили, что некоторые модели искусственного интеллекта (ИИ) способны идентифицировать эмоции человека по коротким аудиозаписям так же хорошо, как это делают люди. Статья опубликована в научном журнале Frontiers in Psychology (FIP).

"Мы показали, что машинное обучение можно использовать для распознавания эмоций по аудиоклипам продолжительностью всего 1,5 секунды. Наши модели достигли точности, сравнимой с человеческой, при классификации бессмысленных предложений с эмоциональной окраской, произнесенных актерами", — отметил ведущий автор статьи Ханнес Димерлинг.

Исследователи использовали лишенные смысла реплики на канадском и немецком языках, чтобы выяснить, может ли ИИ точно определить эмоции независимо от их содержания и культурно-лингвистических нюансов.

На основе данных обучения ученые создали ИИ-модели, которые работали одним из трех способов. Глубокие нейронные сети (DNN) подобны сложным фильтрам, которые анализируют компоненты звука, такие как частота или высота тона (например, когда голос становится громче из-за того, что говорящий злится), чтобы выявить скрытые эмоции.

Сверточные нейронные сети (CNN) сканируют закономерности в визуальном представлении саундтреков, подобно тому, как определяют эмоции по ритму и текстуре голоса.

И гибридная модель (C-DNN) объединяет оба метода, используя как аудио, так и визуальную спектрограмму для прогнозирования эмоций. Затем модели были протестированы на эффективность на обоих наборах данных.

"Мы обнаружили, что DNN и C-DNN достигают большей точности, чем использование только спектрограмм в CNN", — отметил Димерлинг.

Полученные результаты показали, что возможно разработать системы, которые смогут мгновенно интерпретировать эмоциональные сигналы и обеспечивать немедленную и интуитивную обратную связь в широком диапазоне ситуаций.

Это может помочь создать масштабируемые и экономически эффективных приложений в различных областях, таких как терапия и технологии межличностного общения.

 

Ссылка на первоисточник
наверх