Про генеративный искусственный интеллект много говорят последние два года. Нам было интересно, как далеко за это время продвинулись бесплатные версии ИИ, способного создавать изображения по текстовому описанию. Могут ли они заменить, например, настоящего фотографа и пригодиться для работы, а не только для мемов?
Мы взяли четыре доступные нейросети, полностью бесплатные, а для некоторых даже регистрация не нужна. Это свежайшая и, как утверждают авторы, самая продвинутая Stable Diffusion 3 Medium, а также Adobe Firefly, Copilot от Microsoft и «Шедеврум» от «Яндекса».
Проще всего начать пользоваться первой. Stable Diffusion 3 Medium работает без VPN, и даже регистрация не нужна. Правда, спустя некоторое количество изображений работа генерации картинок сильно замедляется, и тут уже лучше зарегистрироваться.
Самая свежая нейросеть, использующая архитектуру Multimodal Diffusion Transformer. Авторы говорят, что она позволяет более точно понимать запросы. Базируется на 8 миллиардах параметров и не требовательна к ресурсам пользовательского компьютера.
Copilot от Microsoft требует регистрации. Первая сотня изображений будет генерироваться на максимальной скорости, потом она заметно уменьшится, но все равно работать в сервисе комфортно. Для Adobe Firefly, помимо регистрации, понадобится любой VPN-сервис. «Шедеврум» — единственный ИИ, адаптированный для русскоязычных запросов. Работает бесплатно, но нужно скачивать приложение или ограничиваться пятью картинками в день для веб-версии.
В общем, все четыре сервиса довольно дружелюбны к новичкам и, что главное, абсолютно бесплатны.
Цель — посмотреть, насколько современные нейросети годятся для реальной быстрой работы. Смогут ли они заменить работу иллюстратора и/или фотографа? Взяли утренние лонгриды на Onlíner и в нескольких словах описали то, что увидели на снимках.
Не зря делаем упор на скорости. Ведь можно сутками сидеть, составлять гигантские, максимально подробные промты (то есть текстовые описания изображений). Но в таком случае может пропасть сам смысл использования нейросеток, если с нужной задачей быстрее справится специалист.
В общем, берем пять утренних лонгридов за понедельник, 15 июля. Составляем не изобилующее подробностями текстовое описание для каждой миниатюры и скармливаем его четырем нейросетям. Смотрим на результат, а вы можете проголосовать за тот, что вам больше понравился.
В конце — бонус в виде белорусских мужчины и женщины, какими их видят нейросети в 2100 году.
Многофункциональный ИИ-помощник от Microsoft с обширным списком функций. Генерация изображений по текстовому описанию — лишь одна из них. Базируется на разработках OpenAI. Конкретно генератор картинок использует третье поколение нейросети Dall-E. Неплохо работает с русским языком, но все же английский предпочтительнее.
Заметка про эволюцию игр серии Assassin’s Creed. В оригинале — иллюстрация с главными героями из разных проектов. Составляем запрос «Six mysterious men in hoods, killers, assassins, with a dagger, with a bow, with a saber, detailed photo» и «Шесть таинственных мужчин в капюшонах, убийцы, ассасины, с кинжалом, с луком, с саблей, детализированное фото» для «Шедеврума».
Отметим, что некоторые сервисы сразу выдают четыре варианта изображений по одному запросу, а некоторые — один. Чтобы условия были равными для всех, в последнем случае мы генерировали картинку четыре раза. Затем выбирали субъективно лучшее из всех вариантов.
Любопытно, что Adobe Firefly наотрез отказывался принимать запрос. При этом не указывал, что именно ему не понравилось. После нескольких попыток выяснилось, что сервис смущают слова killers и assassins. Что ж, убрали их и получили, кажется, самое смешное изображение из всех.
Разочаровал Stable Diffusion 3 Medium, все четыре варианта изображения которого были похожи на рабочие материалы для какого-нибудь мультфильма. Ближе всего к тому, что мы ожидали получить, подошел Copilot от Microsoft. Пожалуй, если внести пару-тройку правок для лиц, то такое было бы не стыдно опубликовать.
«Шедеврум» тоже понравился, но здесь совсем нет лиц, да и в целом по стилю получилось куда-то ближе к назгулам из «Властелина колец».
Далее идем в раздел «Люди», где вышел репортаж со стадионной трансляции финала чемпионата Европы по футболу. Даем текстовые запросы «Sports stadium, hundreds of people on the football field, night, detailed photo» и «Стадион, сотни людей на футбольном поле, ночь, детализированное фото».
На этот раз один только Adobe Firefly понял, что нам нужно изображение, где сотни людей не сидят на трибунах, а стоят на поле внутри стадиона. Если не присматриваться к странноватым фигурам вроде как людей, то получилось вполне годное изображение.
Stable Diffusion решил, что люди должны высыпать из трибун на поле. Картинка изобилует артефактами, но если глянуть на нее мельком, то да, можно принять за случайное фото некоего спортивного события.
Copilot от Microsoft нарисовал монструозный стадион словно бы в Каменной Горке. На фото не похоже, а вот на кадр из не самого счастливого будущего — да. «Шедеврум» хоть и далек от сути запроса, но довольно близок к реалистичности, если не всматриваться в непонятную разметку, столбы на поле, людей… В общем, если не всматриваться.
В настоящее время в тестовом режиме работает третья версия нейросети. Обучается на изображениях из Wikimedia и Flickr, а также на 300 млн картинок и видео из библиотеки Adobe Stock. Именно Adobe Firefly должен был использоваться в нейросети Google Gemini, но в итоге интернет-гигант предпочел собственный сервис. Имеет неплохие возможности для редактирования фото и уточнения текстовых запросов.
В «Кошельке» репортаж из чулочного комбината с коллажем из нескольких фото на миниатюре. Видится довольно сложной задачей, но мы быстро составляем текстовое описание того, что видим:
Хорошие новости: все нейросети поняли, что нам нужен именно коллаж. Плохие новости — всё остальное.
У Adobe Firefly получилось очень абстрактно, хоть и на тему носков. Stable Diffusion в данном случае может получить премию за реалистичность. Опять же, если смотреть мельком и не всматриваться в детали. По крайней мере, от этого фото действительно несет, простите, носками и фабрикой.
Copilot сразу отправил нас на китайский комбинат. Сетка для коллажа на фоне других неплохая… В остальном, конечно, пробивает на «хи-хи». В отличие от «Шедеврума», от работы которого веет то ли фильмами Звягинцева, то ли постсоветским Кафкой.
Раздел «Авто» задал нам переменную в виде плюшевого гуся. Сначала даже хотелось дать нейросеткам поблажку и просто спросить про салон автомобиля с вентилятором. Но раз уж мы здесь экспериментируем, то пусть и ИИ поработает с тем, что есть. Итак, запрос:
Вопреки сомнениям, здесь почти все справились неплохо. Видимо, с гусями нейросети работают лучше, чем с людьми.
Adobe Firefly, правда, имеет странные представления о плюшевых игрушках, но в целом с работой справился. Особенно если не заострять внимание на странных, словно оплавленных, элементах салона авто.
Stable Diffusion сконцентрировался на гусе, который, правда, больше похож на настоящего. Здесь же становится очевидно, что у нейросетей проблемы не только с отображением человеческих пальцев, но и птичьих лап. Автомобиль вроде бы просматривается, но в воображении сложить его части не выйдет. С вентилятором ИИ решил не связываться.
Copilot — аплодируем, хоть и сидя. Стоит обрезать кусок руля в правой верхней части — и даже не заподозришь подвоха. Можно подумать, что имеешь дело с фотографией из какого-нибудь стока.
Нейросеть от «Яндекса» приняла запрос про гуся слишком прямолинейно и даже выдала чуть ли не портрет с боке. Красиво, плюшево, хотя на замену миниатюры в статье не очень подходит.
Изображения генерируются по методу каскадной диффузии. Сначала в соответствии с запросом создается картинка, а затем поэтапно увеличивается ее разрешение и насыщение деталями. Помимо изображений, умеет создавать небольшие видеоролики. Также выполняет функцию чат-бота.
Наконец, в «Недвижимости» у нас был репортаж со стройки выставочного центра. Помогать нам будут запросы:
Adobe Firefly пытался поиграть в коллаж, но лучше всего получилось изображение некой чернокожей строительницы.
Stable Diffusion, такое ощущение, просто нахватал снимков разных недостроенных заброшек. Ни одна из четырех попыток ничего толкового не дала.
Microsoft пусть и не показала того, чем можно было бы иллюстрировать конкретный репортаж, но в целом как отвлеченная иллюстрация на строительную тему — вполне. И именно Copilot толково работает с форматом коллажа, тогда как остальные сервисы в лучшем случае рисуют сетку из разноформатных фото.
От «Шедеврума» снова дохнуло ржавой безнадегой.
Обещанный бонус — какими нейросети видят белоруса и белоруску в 2100 году? Позволим себе оставить результаты без комментариев.
Так можно ли использовать нейросети в качестве рабочего инструмента, например, для генерации фото? В целом да, но с большим количеством оговорок. Многое зависит от качества и подробности самого текстового запроса. Не исключено, что в конце концов захочется на все плюнуть, взять телефон и сделать нужное фото самому.
Тем не менее нельзя не признать, что местами генеративный искусственный интеллект весьма реалистично передает даже человеческие образы. Правда, до сих пор для многих остается большой проблемой отображение пальцев. Заметно, что, если вы не будете настаивать, ИИ просто предпочтет вам показать портрет без рук.
С широкого распространения генеративных нейросетей едва прошло два года. И уже за это время они совершили большой скачок в развитии. Посмотрим, что будет еще через год-два.
Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро
Перепечатка текста и фотографий Onlíner без разрешения редакции запрещена. ga@onliner.by