Google представила нейросеть, которая преобразует текст в видео

 
6659
06 октября 2022 в 15:15
Источник: Клим Иванов
Источник: Клим Иванов

В последнее время большое развитие получили сервисы, специализирующиеся на преобразовании текстового описания в изображения. Google пошла еще дальше и представила нейросеть Imagen Video, которая на основе текста генерирует видео. Ролик получается в разрешении 1280 на 768 пикселей и длительностью 5 секунд. Правда, пока в Google стесняются запускать Imagen Video в массы — боятся неприличных роликов.

Как пишет Ars Technica, нейросеть умеет работать в нескольких стилистических режимах. Например, она может имитировать работы известных художников или создавать вращающиеся 3D-объекты с сохранением их формы по мере вращения.

Во время преобразования текста в видео Imagen Video использует общедоступную базу из десятков миллионов фото, видео и текстовых описаний. На основе запроса (например, «медведь моет посуду») создается исходный прототип видео из 16 кадров в разрешении 24×48 пикселей с частотой 3 кадра в секунду. Впоследствии алгоритмы преобразуют прототип в HD-ролик длительностью 5 секунд и частотой 24 кадра в секунду.

Примеры работы Imagen Video можно посмотреть на сайте проекта. Там есть видео по запросам вроде «панда водит машину», «овца справа от бокала вина», «астронавт верхом на лошади» и даже «полет сквозь битву пиратских кораблей в бушующем океане».

Google не хочет публиковать исходный код нейросети, потому что опасается появления «неприемлемого контента». В компании попытались отфильтровать исходные проблемные видеоролики, но все равно считают, что Imagen Video сможет сгенерировать что-нибудь вроде откровенно сексуального, насильственного или разжигающего ненависть. Так что протестировать нейросеть не получится.

разрешения видеосъемки: Full HD, матрица BSI MOS, 12.76 Мп, сжатие AVCHD/MPEG-4 (MP4), носитель: карта памяти, объектив F1.8-3.6, экран 3"
разрешения видеосъемки: 4K, матрица CMOS, 10.2 Мп, сжатие RAW/XAVC, байонет Sony E, экран 3"
разрешения видеосъемки: 4K, матрица BSI-CMOS, 10.2 Мп, сжатие RAW/XAVC, динамический диапазон 15 ступеней, байонет Sony E, экран 3.5"

Наш канал в Telegram. Присоединяйтесь!

Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро