Нейросеть Kandinsky версии 2.2, разработанная Сбером, теперь может создавать анимационные видеоролики. Для генерации четырёхсекундного видео необходимо описать текстом то, что должно быть на экране, после чего бот сгенерирует видео c выбранным эффектом анимации, частотой 24 кадра в секунду и разрешением 640×640 пикселей, сообщает портал Sostav со ссылкой на пресс-службу компании. На это нейросети понадобится около 20 секунд.
Кроме того, доступна генерация составных сцен, где пользователь может ввести до трёх текстовых описаний и выбрать для каждого свою механику анимации. Основа для синтеза видео — модель генерации изображений по текстовым описаниям Kandinsky 2.2. Функция пока работает в тестовом режиме и доступна только самым активным пользователям, но до конца года станет доступна всем.
Попробовать новый функционал можно и сейчас, для этого нужно оставить заявку на получение доступа в Telegram-боте.
«Когда нейросети смогут генерировать полноценные и продолжительные видео — сказать трудно, — отмечает Максим Чернов, эксперт в области нейроинформатики. — ИИ уже могут делать видеоконтент, но качество и реалистичность таких видео пока что ограничены. В данный момент существует несколько подходов к генерации видео с помощью нейросетей, включая использование автоэнкодеров, генеративно-состязательных сетей (GAN) и рекуррентных нейронных сетей (RNN). Основное препятствие для компании в создании ИИ, который будет делать высококачественные и реалистичные видео, — требуется большое количество вычислительной мощности и серьёзных объёмов данных для обучения. То есть высокие финансовые затраты. Хотя возможности нейросетей в генерации разнообразного контента постоянно расширяются, пока что мы не можем ожидать полностью реалистичных и высококачественных результатов».
По словам эксперта, несмотря на все препятствия, нейросети имеют огромный потенциал. С развитием технологий и увеличением доступности вычислительных ресурсов, они могут стать ещё доступнее для широкой аудитории.
Фото: Шедеврум/Андрей Петропавловский