32 524
17 июля 2024 в 8:00
Источник: Клим Иванов

Пытаемся заменить фотографии бесплатными картинками от ИИ. Выбирайте лучшую

Источник: Клим Иванов

Про генеративный искусственный интеллект много говорят последние два года. Нам было интересно, как далеко за это время продвинулись бесплатные версии ИИ, способного создавать изображения по текстовому описанию. Могут ли они заменить, например, настоящего фотографа и пригодиться для работы, а не только для мемов?

Чем мы пользовались

Мы взяли четыре доступные нейросети, полностью бесплатные, а для некоторых даже регистрация не нужна. Это свежайшая и, как утверждают авторы, самая продвинутая Stable Diffusion 3 Medium, а также Adobe Firefly, Copilot от Microsoft и «Шедеврум» от «Яндекса».

Проще всего начать пользоваться первой. Stable Diffusion 3 Medium работает без VPN, и даже регистрация не нужна. Правда, спустя некоторое количество изображений работа генерации картинок сильно замедляется, и тут уже лучше зарегистрироваться.

Stable Diffusion 3 Medium

Самая свежая нейросеть, использующая архитектуру Multimodal Diffusion Transformer. Авторы говорят, что она позволяет более точно понимать запросы. Базируется на 8 миллиардах параметров и не требовательна к ресурсам пользовательского компьютера.

Copilot от Microsoft требует регистрации. Первая сотня изображений будет генерироваться на максимальной скорости, потом она заметно уменьшится, но все равно работать в сервисе комфортно. Для Adobe Firefly, помимо регистрации, понадобится любой VPN-сервис. «Шедеврум» — единственный ИИ, адаптированный для русскоязычных запросов. Работает бесплатно, но нужно скачивать приложение или ограничиваться пятью картинками в день для веб-версии.

В общем, все четыре сервиса довольно дружелюбны к новичкам и, что главное, абсолютно бесплатны.

Зачем нам это

Цель — посмотреть, насколько современные нейросети годятся для реальной быстрой работы. Смогут ли они заменить работу иллюстратора и/или фотографа? Взяли утренние лонгриды на Onlíner и в нескольких словах описали то, что увидели на снимках.

Не зря делаем упор на скорости. Ведь можно сутками сидеть, составлять гигантские, максимально подробные промты (то есть текстовые описания изображений). Но в таком случае может пропасть сам смысл использования нейросеток, если с нужной задачей быстрее справится специалист.

В общем, берем пять утренних лонгридов за понедельник, 15 июля. Составляем не изобилующее подробностями текстовое описание для каждой миниатюры и скармливаем его четырем нейросетям. Смотрим на результат, а вы можете проголосовать за тот, что вам больше понравился.

В конце — бонус в виде белорусских мужчины и женщины, какими их видят нейросети в 2100 году.

Copilot

Многофункциональный ИИ-помощник от Microsoft с обширным списком функций. Генерация изображений по текстовому описанию — лишь одна из них. Базируется на разработках OpenAI. Конкретно генератор картинок использует третье поколение нейросети Dall-E. Неплохо работает с русским языком, но все же английский предпочтительнее.

Фото таинственных ассасинов

Заметка про эволюцию игр серии Assassin’s Creed. В оригинале — иллюстрация с главными героями из разных проектов. Составляем запрос «Six mysterious men in hoods, killers, assassins, with a dagger, with a bow, with a saber, detailed photo» и «Шесть таинственных мужчин в капюшонах, убийцы, ассасины, с кинжалом, с луком, с саблей, детализированное фото» для «Шедеврума».

Оригинал из статьи

Отметим, что некоторые сервисы сразу выдают четыре варианта изображений по одному запросу, а некоторые — один. Чтобы условия были равными для всех, в последнем случае мы генерировали картинку четыре раза. Затем выбирали субъективно лучшее из всех вариантов.

Любопытно, что Adobe Firefly наотрез отказывался принимать запрос. При этом не указывал, что именно ему не понравилось. После нескольких попыток выяснилось, что сервис смущают слова killers и assassins. Что ж, убрали их и получили, кажется, самое смешное изображение из всех.

Adobe Firefly и Stable Diffusion

Разочаровал Stable Diffusion 3 Medium, все четыре варианта изображения которого были похожи на рабочие материалы для какого-нибудь мультфильма. Ближе всего к тому, что мы ожидали получить, подошел Copilot от Microsoft. Пожалуй, если внести пару-тройку правок для лиц, то такое было бы не стыдно опубликовать.

Microsoft Copilot и «Шедеврум»

«Шедеврум» тоже понравился, но здесь совсем нет лиц, да и в целом по стилю получилось куда-то ближе к назгулам из «Властелина колец».

Какая работа вам нравится больше?

Чтобы сделать свой выбор, войдите или зарегистрируйтесь

Стадион, заполненный людьми

Далее идем в раздел «Люди», где вышел репортаж со стадионной трансляции финала чемпионата Европы по футболу. Даем текстовые запросы «Sports stadium, hundreds of people on the football field, night, detailed photo» и «Стадион, сотни людей на футбольном поле, ночь, детализированное фото».

Неповторимый оригинал

На этот раз один только Adobe Firefly понял, что нам нужно изображение, где сотни людей не сидят на трибунах, а стоят на поле внутри стадиона. Если не присматриваться к странноватым фигурам вроде как людей, то получилось вполне годное изображение.

Adobe Firefly и Stable Diffusion

Stable Diffusion решил, что люди должны высыпать из трибун на поле. Картинка изобилует артефактами, но если глянуть на нее мельком, то да, можно принять за случайное фото некоего спортивного события.

Microsoft Copilot и «Шедеврум»

Copilot от Microsoft нарисовал монструозный стадион словно бы в Каменной Горке. На фото не похоже, а вот на кадр из не самого счастливого будущего — да. «Шедеврум» хоть и далек от сути запроса, но довольно близок к реалистичности, если не всматриваться в непонятную разметку, столбы на поле, людей… В общем, если не всматриваться.

Какая работа вам нравится больше?

Чтобы сделать свой выбор, войдите или зарегистрируйтесь
Adobe Firefly

В настоящее время в тестовом режиме работает третья версия нейросети. Обучается на изображениях из Wikimedia и Flickr, а также на 300 млн картинок и видео из библиотеки Adobe Stock. Именно Adobe Firefly должен был использоваться в нейросети Google Gemini, но в итоге интернет-гигант предпочел собственный сервис. Имеет неплохие возможности для редактирования фото и уточнения текстовых запросов. 

Коллаж из носков

В «Кошельке» репортаж из чулочного комбината с коллажем из нескольких фото на миниатюре. Видится довольно сложной задачей, но мы быстро составляем текстовое описание того, что видим:

  • socks, factory, workers, detailed photo, collage;
  • носки, фабрика, рабочие, детализированное фото, коллаж.
Неповторимый оригинал

Хорошие новости: все нейросети поняли, что нам нужен именно коллаж. Плохие новости — всё остальное.

У Adobe Firefly получилось очень абстрактно, хоть и на тему носков. Stable Diffusion в данном случае может получить премию за реалистичность. Опять же, если смотреть мельком и не всматриваться в детали. По крайней мере, от этого фото действительно несет, простите, носками и фабрикой.

Adobe Firefly и Stable Diffusion

Copilot сразу отправил нас на китайский комбинат. Сетка для коллажа на фоне других неплохая… В остальном, конечно, пробивает на «хи-хи». В отличие от «Шедеврума», от работы которого веет то ли фильмами Звягинцева, то ли постсоветским Кафкой.

Microsoft Copilot и «Шедеврум»
Какая работа вам нравится больше?

Чтобы сделать свой выбор, войдите или зарегистрируйтесь

Салон авто с гусем

Раздел «Авто» задал нам переменную в виде плюшевого гуся. Сначала даже хотелось дать нейросеткам поблажку и просто спросить про салон автомобиля с вентилятором. Но раз уж мы здесь экспериментируем, то пусть и ИИ поработает с тем, что есть. Итак, запрос:

  • car interior, cooling fan, plush goose, detailed photo;
  • салон автомобиля, вентилятор, плюшевый гусь, детализированное фото.
Неповторимый оригинал

Вопреки сомнениям, здесь почти все справились неплохо. Видимо, с гусями нейросети работают лучше, чем с людьми.

Adobe Firefly, правда, имеет странные представления о плюшевых игрушках, но в целом с работой справился. Особенно если не заострять внимание на странных, словно оплавленных, элементах салона авто.

Adobe Firefly и Stable Diffusion

Stable Diffusion сконцентрировался на гусе, который, правда, больше похож на настоящего. Здесь же становится очевидно, что у нейросетей проблемы не только с отображением человеческих пальцев, но и птичьих лап. Автомобиль вроде бы просматривается, но в воображении сложить его части не выйдет. С вентилятором ИИ решил не связываться.

Copilot — аплодируем, хоть и сидя. Стоит обрезать кусок руля в правой верхней части — и даже не заподозришь подвоха. Можно подумать, что имеешь дело с фотографией из какого-нибудь стока.

Microsoft Copilot и «Шедеврум»

Нейросеть от «Яндекса» приняла запрос про гуся слишком прямолинейно и даже выдала чуть ли не портрет с боке. Красиво, плюшево, хотя на замену миниатюры в статье не очень подходит.

Какая работа вам нравится больше?

Чтобы сделать свой выбор, войдите или зарегистрируйтесь
«Шедеврум»

Изображения генерируются по методу каскадной диффузии. Сначала в соответствии с запросом создается картинка, а затем поэтапно увеличивается ее разрешение и насыщение деталями. Помимо изображений, умеет создавать небольшие видеоролики. Также выполняет функцию чат-бота.

Стройка

Наконец, в «Недвижимости» у нас был репортаж со стройки выставочного центра. Помогать нам будут запросы:

  • builder, building, elevation platform, detailed photo, collage;
  • строитель, стройка, строительная люлька, детализированное фото, коллаж.
Неповторимый оригинал

Adobe Firefly пытался поиграть в коллаж, но лучше всего получилось изображение некой чернокожей строительницы.

Stable Diffusion, такое ощущение, просто нахватал снимков разных недостроенных заброшек. Ни одна из четырех попыток ничего толкового не дала.

Adobe Firefly и Stable Diffusion

Microsoft пусть и не показала того, чем можно было бы иллюстрировать конкретный репортаж, но в целом как отвлеченная иллюстрация на строительную тему — вполне. И именно Copilot толково работает с форматом коллажа, тогда как остальные сервисы в лучшем случае рисуют сетку из разноформатных фото.

Microsoft Copilot и «Шедеврум»

От «Шедеврума» снова дохнуло ржавой безнадегой.

Какая работа вам нравится больше?

Чтобы сделать свой выбор, войдите или зарегистрируйтесь

Белорус и белоруска в 2100 году

Обещанный бонус — какими нейросети видят белоруса и белоруску в 2100 году? Позволим себе оставить результаты без комментариев.

Adobe Firefly и Stable Diffusion
Microsoft Copilot и «Шедеврум»
Чья работа вам нравится больше?

Чтобы сделать свой выбор, войдите или зарегистрируйтесь
Adobe Firefly и Stable Diffusion
Microsoft Copilot и «Шедеврум»
Чья работа вам нравится больше?

Чтобы сделать свой выбор, войдите или зарегистрируйтесь

Так можно ли использовать нейросети в качестве рабочего инструмента, например, для генерации фото? В целом да, но с большим количеством оговорок. Многое зависит от качества и подробности самого текстового запроса. Не исключено, что в конце концов захочется на все плюнуть, взять телефон и сделать нужное фото самому.

Тем не менее нельзя не признать, что местами генеративный искусственный интеллект весьма реалистично передает даже человеческие образы. Правда, до сих пор для многих остается большой проблемой отображение пальцев. Заметно, что, если вы не будете настаивать, ИИ просто предпочтет вам показать портрет без рук.

С широкого распространения генеративных нейросетей едва прошло два года. И уже за это время они совершили большой скачок в развитии. Посмотрим, что будет еще через год-два.

Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро

Перепечатка текста и фотографий Onlíner без разрешения редакции запрещена. ga@onliner.by