Ученые из Университета Джонса Хопкинса выяснили, что современные нейросети уступают людям в понимании социальных взаимодействий на видео — даже в коротких трехсекундных сценах. Об этом сообщает Johns Hopkins University (JHU).
В эксперименте участникам показывали короткие видеоролики, в которых люди взаимодействовали, выполняли действия рядом друг с другом или действовали независимо.
Добровольцы оценивали происходящее по различным социальным признакам. Затем те же задачи предложили более чем 350 языковым, видео- и графическим ИИ-моделям.Оказалось, что люди почти всегда приходили к единым интерпретациям, в то время как ИИ — нет. Видео-модели не могли точно описать действия людей, а даже лучшие из моделей для изображений, анализировавшие серию кадров, с трудом определяли, взаимодействуют ли люди между собой. Языковые модели показали лучшие результаты в предсказании человеческого поведения, в то время как видео-модели точнее предсказывали реакцию мозга на сцену — но ни одна из моделей не смогла приблизиться к уровню человеческого понимания.
"ИИ, управляющий автономным автомобилем, должен понимать намерения и действия пешеходов и других водителей", — объяснила Лейла Исик, доцент кафедры когнитивных наук и ведущий автор исследования. — "Например, способен ли пешеход перейти улицу или просто разговаривает с кем-то на тротуаре? Сейчас ИИ с этим не справляется".
Ученые считают, что корень проблемы — в устройстве самих нейросетей: они вдохновлены структурой области мозга, отвечающей за распознавание статичных изображений, в то время как за восприятие динамических социальных сцен отвечает другая часть мозга.
"ИИ научился видеть лица и предметы на изображениях — это был большой шаг. Но реальная жизнь — это не набор картинок. Она разворачивается во времени и требует понимания контекста и динамики", — подчеркнула соавтор исследования Кэти Гарсия.
Свежие комментарии