Студенты Санкт-Петербургского государственного университета аэрокосмического приборостроения (ГУАП) разработали тренажер для корректировки произношения на английском языке с использованием нейронных сетей. Об этом "Газете.Ru" рассказали в ГУАП.
Система на основе нейросети Wav2Vec2 преобразует устную речь пользователя в цифровой формат, анализируя акустические сигналы.
Для этого используются технологии автоматического распознавания речи – такие, как модели, обученные на больших объемах данных для распознавания фонем (звуков), слов и фраз.Пользователь может записывать свое произношение, получать его транскрипцию и сравнивать ее с эталонной версией. Программа анализирует ошибки, дает рекомендации и отслеживает прогресс в обучении.
"Мы собрали датасет, включающий аудио и соответствующие фонемные транскрипции. Далее был разработан прототип системы CAPT, позволяющий точно распознавать произношение на уровне фонем. Система анализирует полученные акустические данные и сравнивает их с эталонной моделью речи, затем генерирует обратную связь для пользователя. Она может указать на ошибки в произношении конкретных звуков, выделить проблемные слова или части фраз, повторно воспроизвести эталонную речь для подражания", – рассказал "Газете.Ru" один из разработчиков проекта Михаил Дорохин.
Применение модели Wav2Vec2 позволяет точно распознавать речь и эффективно анализировать фонетическую транскрипцию. Тренажер поможет изучающим английский язык совершенствовать разговорные навыки независимо от наличия преподавателя или носителя языка.
В дальнейшем разработчики планируют расширить функционал системы, интеграцию с другими инструментами обучения и улучшить алгоритмы обратной связи для более детального анализа ошибок произношения.
Свежие комментарии