Продолжаем следить за развитием нейросетей и искать им полезные применения в реальной жизни. Ранее мы уже пытались сгенерировать иллюстрации для постов по описанию их сюжетов, создавали музыку и проверяли, может ли искусственный интеллект писать тексты как человек. Теперь попробуем обработать изображения с помощью нейросетевых моделей: сделаем цветным советский Минск, заставим «Титаник» снова плыть и анимируем фотографии белорусских классиков. Можете и вы преобразовать старые снимки бабушек и дедушек, но, чтобы их здорово не напугать, сначала посмотрите, что вышло у нас.
Для ИИ-инструментов по обработке изображений люди придумали несколько полезных и не очень применений. Самое, на первый взгляд, любопытное и нужное — это улучшение качества и раскраска старых фотографий. А сервисы, генерирующие видео, могут оживить изображения и людей на них. Так можно получить анимированные фото — прямо как портреты в «Гарри Поттере» — и под новым углом посмотреть на исторические события.
Чтобы все это протестировать, мы выбрали три нейросети:
Начнем с преобразования черно-белых фотографий в цветные. Летом этого года на Onlíner вышло несколько материалов с бесцветными кадрами белорусской столицы конца восьмидесятых (раз и два). Возьмем несколько снимков из этих публикаций и попробуем раскрасить их с помощью инструмента Palette.
Вот так оживает площадь около Комаровского рынка:
Выглядит довольно реалистично, а сам процесс занял всего несколько минут.
Переместимся на проспект Независимости, в район станции метро «Площадь Якуба Коласа» и ЦУМа. К слову, на момент съемки фото проспект носил название Ленинский:
Вновь получился довольно живой кадр, но с небольшими нюансами в рамках погрешности. От снимка веет теплым вайбом советских фильмов, когда на улицах еще не было рекламы и многочисленных вывесок.
Берем еще один кадр — «Ворота Минска» у железнодорожного вокзала:
Живая суета привокзальной площади в цвете воспринимается совсем иначе. Конечно, мы не можем проверить, насколько верно ИИ подобрал цвета одежды минчан, но выглядит все вполне реалистично. А главное — позволяет лучше понять, какой была столица 35 лет назад.
Сервисом Palette можно пользоваться без VPN по регистрации через Google или электронную почту. Бесплатно можно делать неограниченное количество превью-картинок размером 500×500 пикселей с вотермаркой, но скачать изображение в полном размере и без логотипа сервиса можно лишь один раз.
До появления нейросетей черно-белые фотографии раскрашивали профессиональные ретушеры, которые тратили на это часы, дни и даже недели. А теперь тот же результат можно получить всего за пару минут благодаря искусственному интеллекту.
Если вам попадались ожившие мемы в интернете, они с большой долей вероятности были созданы инструментом Dream Machine от компании Luma AI. Это главный конкурент нашумевшей Sora от OpenAI — нейросети, позволяющей создавать видео на основе текстовых запросов и изображений. Однако Sora все еще не доступна публично, а вот воспользоваться Dream Machine может каждый уже сейчас. Причем бесплатный функционал предоставляет довольно широкие возможности: можно создавать до 30 генераций в месяц со свободным скачиванием роликов и в размере, соответствующем изначальному изображению.
Возьмем фотографию белорусского писателя Якуба Коласа, раскрасим ее через Palette и попробуем оживить с помощью Dream Machine.
Вот как знаменитый белорус выглядит в цвете:
Попросим нейросеть анимировать изображение:
Сильного преобразования снимка мы не увидели, скорее просто появилась имитация наезда камеры, а сам Якуб Колас остался статичен, не считая странных легких деформаций изображения лица.
Расширяем промпт и просим Dream Machine добавить мимики и движения. Получилось, мягко говоря, жутковато, да простит нас Константин Михайлович:
Другие попытки оживить фото писателя вышли не лучше. Очевидно, что нейросети сложно справиться с задачей, поэтому попробуем переключиться с крупного плана на общий и просим заставить двигаться людей на снимке у Комаровки.
И снова получаем далекое от реалистичности видео с мимикрирующими друг под друга центральными персонажами:
«Камера» движется нормально, фон перемещается плавно, но вот с людьми нейросеть вновь делает что-то очень непонятное.
Сервис генерирует ролики довольно быстро, буквально за пару минут. Однако после нескольких попыток новые видео зависают в статусе «В очереди» на долгие часы. Также ИИ-сервис часто выдает сообщение «We are at capacity right now, try again later or upgrade for fast generations» («Сервис загружен, попробуйте еще раз позже или перейдите на платный тариф»). Таковы ограничения бесплатной версии.
Дальше пытаемся найти более приемлемые условия для ИИ и пробуем оживить изображение Нила Армстронга на Луне:
Получилось лучше, но все равно с ногами у астронавта происходит что-то странное. С людьми Luma Dream Machine справиться сложно, даже если они в скафандре.
Тогда пробуем анимировать исторические события, где в кадре имеются неодушевленные предметы. Для теста берем снимок пролетающего над Манхэттеном дирижабля, сделанный 9 октября 1933 года. Выходит гораздо интереснее:
Есть небольшая несогласованность в движениях летательного аппарата и «камеры», но вполне можно представить себе интерактивный учебник истории ближайшего будущего, где в качестве иллюстрации будет такое движущееся изображение.
Идем дальше и берем исторический снимок плывущего «Титаника»:
Тоже получается вполне приемлемо, если не всматриваться очень внимательно и не придираться к деталям.
Делаем вывод: Luma Dream Machine гораздо лучше справляется с неодушевленными объектами, четко расположенными в центре кадра. С людьми ей пока что трудно. Но для этого у нас есть следующий инструмент.
Еще одно применение нейросетей по обработке изображений, которое приглянулось людям, — это улучшение и оживление старых фотографий родственников. Израильский сервис MyHeritage, специализирующийся на создании семейных древ и поиске предков, сделал инструмент на основе машинного обучения — Deep Nostalgia. Это нейросеть, четко заточенная под единственную цель — анимировать лица на фотоснимках. И за счет узкой специализации оживлять людей у этого инструмента получается гораздо лучше, чем у Luma Dream Machine.
Протестируем ИИ на снимках белорусских классиков. Вновь возвращаемся к Якубу Коласу и пропускаем фотографию через Deep Nostalgia:
Реалистичное моргание и движение зрачков, небольшое поворачивание головы без жутких деформаций и даже легкая улыбка. Выглядит почти натурально и совсем не страшно.
Обратимся к еще одному великому белорусскому писателю. Вы наверняка видели милую фотографию Владимира Короткевича с котиками. Сначала раскрашиваем снимок через сервис Palette:
А теперь просим инструмент от MyHeritage оживить фотографию:
Вновь получаем вполне удовлетворительный результат. Можно взять старые фотографии родителей или бабушек и дедушек и удивить их возможностями современных технологий.
Процесс анимирования фотографий с помощью Deep Nostalgia простой и быстрый: вы в пару кликов загружаете изображение, сервис распознает лицо, улучшает и обрезает кадр. Результат вы получаете менее чем за минуту. При загрузке картинок с неодушевленными объектами сервис выдает ошибку: он преобразовывает только фото с людьми, где хорошо видны лица. Бесплатно дают возможность сделать пять «живых» фотографий, а затем попросят перейти на платный тариф.
В завершение испытаний сделаем цветной и оживим фотографию еще одного знаменитого уроженца Беларуси — Марка Шагала:
Теперь краски не только на столе у художника, но и на самом фотоснимке. Дальше обрабатываем полученное изображение через нейросеть Deep Nostalgia:
Легко заметить, что в каждом варианте примерно одни и те же движения: несколько морганий, легкая улыбка, взгляд в сторону и небольшой поворот головы вправо. Видимо, разработчики жестко ограничили действия искусственного интеллекта, обучив его конкретным действиям, чтобы на выходе всегда получался достойный, по их мнению, результат.
Парадоксально, что возможности нейросетей кажутся безграничными, но найти по-настоящему полезных применений людям удалось не так много. Однако автоматическая ретушь фотографий — одно из них. Искусственный интеллект довольно реалистично и качественно раскрашивает снимки, и теперь это может сделать каждый пользователь с любой фотографией.
Большие перспективы нейросетевых сервисов, создающих видео, просматриваются уже сейчас, но справляться с людьми им пока трудно. Тем не менее, если ограничить ИИ и направить на узкую задачу, можно получить интересный результат, что мы и увидели на примере сервиса Deep Nostalgia.
Очевидно, что нейросети продолжат развиваться. За последние два года мы уже увидели впечатляющий скачок их возможностей. Но, кажется, главная для людей задача — понять, как именно и в каких сферах можно применять подобные инструменты на основе ИИ, чтобы это действительно улучшало и облегчало нашу жизнь. А пока что чаще выглядит все так, что нам показывают способности нейросетей просто ради демонстрации.
Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро
Перепечатка текста и фотографий Onlíner без разрешения редакции запрещена. ga@onliner.by