На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Газета.ру

8 728 подписчиков

Свежие комментарии

  • Владимир
    Очень интересный пост в шести строках, но вот две из строки- я помню чудное мгновенье..Дмитриев сыронизи...
  • Макс Максимов
    Ну а я предлагаю спецтрибунал для стран и личностей, которые хотят уничтожить Россию и её граждан. Наиболее подходяще...Замглавы ОП Мудра...
  • Юрий Новиков
    Матвиенко-дура, значит надо ждать, пока не поубивают друг друга.Матвиенко предлож...

Сбер открыл доступ к новым токенизаторам для генерации изображений и видео

Сбер открыл доступ к новому семейству токенизаторов KVAE-2.0, предназначенных для создания моделей генерации изображений и видео. Разработка команды Kandinsky распространяется под лицензией MIT и может использоваться как в исследовательских, так и в коммерческих проектах, сообщила пресс-служба компании.

Уточняется, что токенизаторы - базовый компонент диффузионных моделей, они позволяют преобразовывать изображения и видео в компактные числовые представления, с которыми работают генеративные алгоритмы. Новое решение обеспечивает более эффективное сжатие видеоданных - до четырех раз по сравнению с предыдущей версией - при одновременном повышении качества восстановления изображения.

В Сбере отметили, что использование KVAE-2.0 позволяет значительно ускорить обучение моделей генерации видео и снизить требования к вычислительной инфраструктуре. По ключевым метрикам качества разработка опережает аналогичные решения ряда международных технологических компаний.

"С KVAE-2.0 качественная видеогенерация стала доступнее для широкого круга разработчиков - от стартапов до университетов. Решение позволяет обучать модели быстрее и дешевле", - отметил управляющий директор по исследованию данных Сбера Денис Димитров.

По его словам, новая технология также открывает дополнительные сценарии применения, включая создание рекламных видеоматериалов с передачей текста и логотипов, а также образовательного контента с высокой детализацией.

Ключевым преимуществом KVAE-2.0 в компании назвали формирование семантически устойчивых представлений, позволяющих точнее сохранять значимые элементы изображения, такие как текст, лица и структурные объекты.

Отмечается, что модели дополнительно оптимизированы для работы с русским текстом в кадре, где демонстрируют более высокие показатели качества по сравнению с аналогами.

 

Ссылка на первоисточник
наверх