
Разработки ученых Сбера и SberDevices позволят создавать новые архитектурные решения в процессе обучения генеративных моделей искусственного интеллекта и снижать требуемые для него вычислительные затраты. Об этом на состоявшейся на Мальте международной конференции в области компьютерной лингвистики EACL 2024 рассказали представители Сбера.
Исследователи Сбера и SberDevices выступили с докладами о двух работах по искусственному интеллекту.
Так, доклад руководителя научной группы FusionBrain - партнера Сбера — Института AIRI - Андрея Кузнецова и научного сотрудника группы Антона Разжигаева был посвящен исследованию свойств трансформерных архитектур моделей.
Исследователи изучили, как меняются важные свойства эмбеддингов (числовых представлений данных) двух типов архитектур больших языковых моделей, которые, в свою очередь, часто используются в задачах обработки естественного языка.
Полученные результаты на следующем этапе исследований помогут дистиллировать языковые модели, то есть уменьшать их размеры с минимальной потерей качества (с контролем изменения ошибки при дистилляции). Это необходимо для создания новых архитектурных решений в процессе обучения моделей и снижения требуемых для него вычислительных затрат.
Соавтором работы выступил управляющий директор по исследованию данных Сбербанка Денис Димитров.
Руководитель команды AGI NLP в R&D SberDevices Алена Феногенова и NLP ML-инженер Сбербанка Марка Баушенко представили свое исследование о генеративных подходах к исправлению орфографии.
Свежие комментарии