
Американским ученым удалось перевести мысли в речь, различимую в 75% случаев. Пока что они экспериментировали только с произношением цифр и чисел, но в будущем собираются дойти и до полноценных фраз. Они рассчитывают, что новая технология поможет людям, потерявшим способность говорить из-за травмы или болезни.
Инженеры из Колумбийского университета создали систему, способную переводить мысли в понятную, узнаваемую речь. Контролируя чью-то мозговую деятельность, технология способна облекать ее в слова. Этот метод способен привести к новым способам взаимодействия компьютера с мозгом и помочь людям, которые не могут говорить - например, больным амиотрофическим латеральным склерозом или пережившим инсульт. О разработке ученые рассказали в журнале Scientific Reports.
"Наши голоса помогают нам связываться с друзьями, семьей и окружающим миром, поэтому потеря голоса из-за травмы или болезни так разрушительна, - говорит Нима Месгарани, ведущий автор исследования. - С текущими результатами у нас есть потенциальный способ вернуть эту возможность. Мы показали, что мысли людей можно расшифровать и сделать понятными слушателю".
Как показали многолетние исследования, когда люди говорят или даже представляют, как говорят, в их мозге возникают определенные шаблоны активности. Иные, но также узнаваемые шаблоны появляются, когда люди слушают или представляют, как слушают. Наблюдая за этими шаблонами активности, многие ученые предполагали, что их можно перевести в устную речь.
Однако на практике это оказалось непросто.
Ранние попытки доктора Месгарани расшифровать сигналы мозга сводились к простым компьютерным моделям, которые анализировали спектрограммы, являвшиеся визуальным представлением звуковых частот. Однако это не дало ничего, похожего на понятную речь.Тогда команда Месгарани использовала вокодер - компьютерный алгоритм, способный синтезировать речь.
"Это та же технология, которую использует "умная" колонка Amazon Echo и голосовой помощник от Apple Siri для устных ответов н наши вопросы", - поясняет Месгарани. Сами ученые называют свою разработку реконструкцией слухового стимула.
Чтобы научить вокодер интерпретировать мозговую деятельность, Месгарани объединился с нейрохирургом Динешем Мехта, специализирующемся на лечении пациентов с эпилепсией.
"Работая с доктором Мехта, мы попросили пациентов с эпилепсией, уже перенесших операцию на мозге, прослушать предложения разных людей, а сами в это время измерили шаблоны мозговой активности, - объясняет Месгарани. - Эти шаблоны нужны были для "тренировки" вокодера".
Участниками исследования стали пятеро пациентов, в мозге которых были установлены электроды, необходимые, чтобы "гасить" начинающийся эпилептический припадок. Это сделало возможным электрокортикографию - исследование коры мозга, заключающееся в регистрации ее бипотенциалов (взаимодействия электрических зарядов в тканях) с помощью электродов, размещенных прямо на ее поверхности.
Затем исследователи попросили тех же пациентов прослушать, как называются цифры от 1 до 9, а сигналы их мозга тем временем были пропущены через вокодер. После их обработки с помощью нейронных сетей вокодер "заговорил". Для обработки на этот раз использовалось глубокое обучение нейросетей - метод, при котором нейросеть оказывается способна предсказывать результат на основе набора входных данных. Это позволило наложить больше ограничений на синтезируемую речь и добиться лучшего моделирования свойств речевого сигнала.
Результатом стал роботизированный голос, повторяющий последовательность чисел. Люди же должны были прослушать запись и сообщить, что они услышали.
"Мы обнаружили, что люди способны понять и повторить эти звуки в 75% случаев, что значительно превосходит любые предыдущие попытки,
- делится Месгарани. Улучшения были особенно заметны по сравнению с ранними экспериментами со спектрограммами. - Чувствительный вокодер и мощные нейронные сети создавали звуки, которые добровольцы распознавали с удивительной точностью".
По сравнению с методами анализа спектрограмм, улучшить разборчивость синтезируемой речи удалось на 65%. Кроме того, было установлено, что на качество речи напрямую влияло время обучения нейросети - чем оно было продолжительнее, тем лучше оказывался результат.
Доктор Месгарани и его команда планируют в будущем протестировать более сложные слова и предложения. В конечном счете они рассчитывают, что их систему можно будет использовать для имплантов наподобие тех, что ставятся в мозг людям с эпилепсией - только они будут не гасить приступы, а переводить мысли владельца в слова.
"Владелец будет думать: "Мне нужен стакан воды", наша система будет воспринимать сигналы мозга, генерируемые этой мыслью, и превращать их в синтезированную речь, - говорит Месгарани.
- Это изменит правила игры. Это может дать каждому, кто потерял способность говорить из-за травмы или болезни, новый шанс связаться с окружающим миром".
Ранее для восстановления речи и двигательной активности после инсульта специалисты МГУ и ФГБНУ "Научный центр неврологии" разработали экзоскелет, также управляемый "силой мысли".
Разработанные экзоскелеты применяются в случаях поражения головного мозга, когда требуется восстановить движения конечностей или имеются затруднения речи после инсульта. Технология направлена на то, чтобы вернуть человеку всю гамму движений. В первую очередь речь идет о руках, ногах, речедвигательном аппарате", — рассказал доктор психологических наук профессор психологического факультета МГУ Юрий Зинченко.
Свежие комментарии