22 мая 2022 в 7:55
Автор: Виталий Олехнович

Посмотрите, как рисует искусственный интеллект! Это пугает

Автор: Виталий Олехнович
Напишите отзыв на товар и получите шанс выиграть робот — мойщик окон

Ребята из OpenAI регулярно радуют. В конце прошлого года мы рассказывали, как они вознамерились создать пугающе полезного компаньона для программиста в сотрудничестве с GitHub. А в последние месяцы от бета-юзеров их художественной нейронки DALL-E поступают тревожные новости для иллюстраторов. Простым текстовым описанием эти юзеры могут попросить у нейронки всего за несколько секунд сваять фотореалистичную картинку с полярным медведем, играющим на бас-гитаре. Или робота, написанного в стиле Пикассо. И с первого взгляда к исполнению этих картинок довольно сложно придраться. Это вызывает чувство дискомфорта.

DALL-E — это новая система искусственного интеллекта от широко известной в не таких уж и узких кругах научно-исследовательской лаборатории OpenAI. DALL-E принимает на вход простое текстовое описание, например «коала забивает в баскетболе», и превращает его в фотореалистичное изображение, которого никогда не существовало.

Эта опция фотореализма, к слову, появилась со второй версией DALL-E, которая была представлена в апреле этого года. Оригинальную нейросетку выкатили в закрытый бета-тест еще в январе 2021 года. Попасть в него крайне сложно, свидетельств о нем было не так уж и много. Ну а те, что периодически всплывают, порой заставляют челюсть отвиснуть.

Например, со второй версией нейросетки DALL-E можно делать реалистичное редактирование и ретушь фотографий. Она умеет заменять части изображения, основываясь все на том же простом натуральном человеческом языке. Хотите заменить милую собачку в кресле на кота? Пожалуйста! Достаточно вписать два слова, и DALL-E сгенерирует кота вместо песеля.

Вторая версия этого ИИ значительно продвинулась вперед. У нее получаются картинки в более высоком разрешении, с более адекватным пониманием и новыми возможностями редактирования, как в случае с реальным песиком и котиком из фантазий нейросетки. Ей можно даже скормить реальное изображение и получить его вариации в различных стилях и с разной перспективой.

Как и любая нейросеть, DALL-E проходила долгий тренинг на гигантском массиве данных. В ее случае это были фотографии и их текстовое описание. Она видела тысячи и тысячи коал разной окраски, размера, под разными углами и в разных позах. Система не только обучилась распознавать объекты, но и определять взаимоотношения между ними. Она понимает, что на мотоцикле можно ездить, видела тысячи снимков, на которых человек восседает на мотоцикле и держится за руль. А потому для нейросети не будет неожиданностью или большой сложностью вообразить коалу, рассекающую на байке. И не одну, а те же тысячи в разных стилях, перспективах, углах обзора, позах и т. д.

Естественно, у такого подхода к обучению есть свои ограничения. Неверная подпись под снимком приводит к ошибкам в восприятии программы. Если ей попадется самолет, подписанный как автомобиль, то в будущем появятся ошибки в распознавании, которые заметны нам и незаметны машине.

Чем более сложные объекты или понятия заучивает система, тем больше неточностей может возникать в процессе ее последующей работы. Вспомните Гарольда, скрывающего боль. На фото он улыбается, но мы-то на самом деле знаем (или догадываемся) по тонким и неуловимым признакам, что за этой улыбкой скрывается нечто большее, чем просто напускная радость. Такие тонкости в различных объектах и группах объектов несут настоящие трудности для ИИ.

Разработчики этого ИИ видят три главных способа применения его на практике. Во-первых, это поможет визуально выразить себя людям, которые не могли раньше этого делать. Во-вторых, сгенерированные системой изображения могут много сказать о том, понимает ли нас система или просто повторяет то, чему ее научили. В-третьих, DALL-E поможет людям узнать, как продвинутые системы искусственного интеллекта видят и понимают наш мир. Этот пункт называют критическим в разработке полезного и безопасного ИИ. Как выше в примере с Гарольдом, эмоции которого считать не под силу даже многим людям.

Заменить или дополнить?

Тем не менее из того, что я уже видел, DALL-E скорее похожа на угрозу для иллюстраторов. Прямо с первого взгляда возникает это ощущение будущего коммерческого продукта для каких-нибудь издательств. У DALL-E, кажется, нескончаемая фантазия по трансляции пары строк задания в целый сет картинок на любой вкус. Допустим, вот так может выглядеть «чашка супа, которая выглядит как монстр, нарисованный на стене».

Если попросить вместо граффити использовать пластилиновый стиль, то и с этим искусственный интеллект справится на лету и куда быстрее, чем человек придумает воплощение, а затем его реализует в цифровой картинке. Астронавт на лошади вам нужен в фотореалистичном стиле? Или, может быть, с закосом под картины Энди Уорхола? А может, что-то попроще. Например, рисунок карандашом?

Все это базируется на 40 000 лет истории человека и искусства. Все это рисуется быстрее и в таких количествах, что всем людям планеты вместе взятым не под силу.

Искусственный интеллект уже сегодня заставляет многие человеческие профессии устареть в том виде, которыми они были еще десять лет назад. ИИ на пути к тому, чтобы подвинуть пилотов, водителей, кассиров и даже чуточку программистов.

Одно из последних убежищ, в котором человек на 100% уверен в своей незаменимости, это искусство самовыражения. Вербальное или визуальное. Вербальное уже подвергается притеснению со стороны той же системы GPT-3 от той же OpenAI. Она умеет составлять письма, выдумывать сказки, создавать нарративы для видеоигр, писать новостные заметки. Теперь настала очередь коммерческих художников, фотографов, иллюстраторов почувствовать эту жгучую боль чуть ниже поясницы.

Художник против ИИ

В первую очередь, вероятно, забеспокоятся различные стоковые агентства. Они продают снимки и иллюстрации, выполненные людьми. Весь их бизнес завязан на уникальных снимках, к которым клиент получает мгновенный доступ всего за пару десятков долларов и использует по своему усмотрению в своих коммерческих проектах. Огромные базы иллюстраций на любой вкус, созданные армией фотографов и художников.

Во-вторых, такие инструменты, как графические редакторы (Photoshop и иже с ним) также могут потерять свою уникальность. По крайней мере, зависимость от них может сократиться. А это еще куча программистов, аналитиков, дизайнеров, которые трудятся над такими инструментами.

Да, DALL-E совсем не идеальна. Если присмотреться к ее художествам, то можно разглядеть недочеты. Да и показывают нам, как правило, только самое впечатляющее и удачное. Но все же эта штука еще учится и будет только совершенствоваться.

Посмотрите, как первая и вторая версии программы сделали «лису, сидящую в поле на закате солнца в стиле Клода Моне». Прогресс очевиден, а нечто похожее на правую картинку я даже наблюдал в картинных галереях. Серьезно, некоторые художества искусственного интеллекта весьма впечатляющие и захватывающие.

Признаюсь честно, я немного беспокоюсь. Все эти частичные решения в сфере искусственного интеллекта и робототехники слегка напрягают. Машины уже умеют работать на заводах быстрее. Они умеют водить авто, тогда как у меня до сих пор нет автомобильных прав. Они способны клонировать мои эмоции на своих резиновых лицах и говорить четким литературным языком. Они умеют писать новости и код. Для меня как человека, связанного и с текстами, и с программированием, это осознается особенно болезненно. Что уж говорить: они крутят сальто, чего я в своей жизни ни разу не делал и вряд ли когда-нибудь смогу.

Прорывы в робототехнике зависят не только от более ловких механических ног и рук, более наблюдательных глаз и ушей, но и от человекоподобного искусственного интеллекта. Мощные системы ИИ пересекаются, трансформируя экономику, как в свое время случилось с паровыми двигателями, электричеством и интернетом.

В случае с ИИ репликация человеческих возможностей ведет к снижению потребности в человеческом труде, перестройке экономической и политической власти. Что я имею в виду? ИИ может использоваться для расширения человеческого труда или его автоматизации.

Когда ИИ расширяет человеческие возможности, позволяя людям делать то, что они никогда раньше не могли, люди и машины становятся дополнением друг друга. Люди остаются незаменимыми для создания ценностей и сохраняют свою переговорную силу на рынках труда и в принятии политических решений. Я сейчас не о частностях, а о глобальном.

И напротив, когда ИИ воспроизводит и автоматизирует существующие человеческие возможности, машины становятся лучшей заменой человеческого труда, а рабочие теряют экономические и политические переговорные позиции. Предприниматели, у которых есть возможность заменить человека машиной с тем же или более эффективным выхлопом, вряд ли захотят возиться с работником, которому присущи болезни, отпуска, декреты и объединения в профсоюзы. Тот, кто контролирует технологии, способен концентрировать силу и богатство, не обращая внимания на голоса недовольных.

Беда в том, что наша амбициозность и бескомпромиссность диктует создание сильного искусственного интеллекта — достижение того, что называется человекоподобным ИИ. Для многих исследователей это остается конечной целью. Многие самые яркие и сильные умы человечества ищут пути к полной автоматизации человеческого труда. Естественно, это отправит продуктивность в небеса, но далеко не все получат выгоду от этого пирога. Зачем платить десятку с лопатами, если можно заплатить одному с бульдозером? Условно.

Аугментация и расширение против автоматизации и замены. Это тема для отдельного глубокого эссе. В этом же тексте давайте лишь подведем черту: кажется, обучившись на наших достижениях за последние тысячи лет, машины могут даже искусство поставить на конвейер. Да, пока точечно, но в различных и зачастую совершенно неожиданных сферах у нас появляются серьезные конкуренты.

Onlíner рекомендует
32" 1920x1080 (Full HD), частота матрицы 60 Гц, индекс динамичных сцен 1000, Smart TV (Samsung Tizen), Wi-Fi
Выбор покупателей
32" 1366x768 (HD), частота матрицы 60 Гц, Smart TV (Android TV), Wi-Fi
Onlíner рекомендует
43" 3840x2160 (4K UHD), матрица IPS, частота матрицы 60 Гц, Smart TV (LG webOS), HDR, Wi-Fi
Onlíner рекомендует
55" 3840x2160 (4K UHD), матрица OLED, частота матрицы 120 Гц, Smart TV (LG webOS), HDR, Wi-Fi

Наш канал в Telegram. Присоединяйтесь!

Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро

Перепечатка текста и фотографий Onlíner без разрешения редакции запрещена. ng@onliner.by