
Сбер открыл доступ к новому семейству токенизаторов KVAE-2.0, предназначенных для создания моделей генерации изображений и видео. Разработка команды Kandinsky распространяется под лицензией MIT и может использоваться как в исследовательских, так и в коммерческих проектах, сообщила пресс-служба компании.
Уточняется, что токенизаторы - базовый компонент диффузионных моделей, они позволяют преобразовывать изображения и видео в компактные числовые представления, с которыми работают генеративные алгоритмы. Новое решение обеспечивает более эффективное сжатие видеоданных - до четырех раз по сравнению с предыдущей версией - при одновременном повышении качества восстановления изображения.
В Сбере отметили, что использование KVAE-2.0 позволяет значительно ускорить обучение моделей генерации видео и снизить требования к вычислительной инфраструктуре. По ключевым метрикам качества разработка опережает аналогичные решения ряда международных технологических компаний.
"С KVAE-2.0 качественная видеогенерация стала доступнее для широкого круга разработчиков - от стартапов до университетов. Решение позволяет обучать модели быстрее и дешевле", - отметил управляющий директор по исследованию данных Сбера Денис Димитров.
По его словам, новая технология также открывает дополнительные сценарии применения, включая создание рекламных видеоматериалов с передачей текста и логотипов, а также образовательного контента с высокой детализацией.
Ключевым преимуществом KVAE-2.0 в компании назвали формирование семантически устойчивых представлений, позволяющих точнее сохранять значимые элементы изображения, такие как текст, лица и структурные объекты.
Отмечается, что модели дополнительно оптимизированы для работы с русским текстом в кадре, где демонстрируют более высокие показатели качества по сравнению с аналогами.
Свежие комментарии