Ребята из OpenAI регулярно радуют. В конце прошлого года мы рассказывали, как они вознамерились создать пугающе полезного компаньона для программиста в сотрудничестве с GitHub. А в последние месяцы от бета-юзеров их художественной нейронки DALL-E поступают тревожные новости для иллюстраторов. Простым текстовым описанием эти юзеры могут попросить у нейронки всего за несколько секунд сваять фотореалистичную картинку с полярным медведем, играющим на бас-гитаре. Или робота, написанного в стиле Пикассо. И с первого взгляда к исполнению этих картинок довольно сложно придраться. Это вызывает чувство дискомфорта.
DALL-E — это новая система искусственного интеллекта от широко известной в не таких уж и узких кругах научно-исследовательской лаборатории OpenAI. DALL-E принимает на вход простое текстовое описание, например «коала забивает в баскетболе», и превращает его в фотореалистичное изображение, которого никогда не существовало.
Эта опция фотореализма, к слову, появилась со второй версией DALL-E, которая была представлена в апреле этого года. Оригинальную нейросетку выкатили в закрытый бета-тест еще в январе 2021 года. Попасть в него крайне сложно, свидетельств о нем было не так уж и много. Ну а те, что периодически всплывают, порой заставляют челюсть отвиснуть.
Например, со второй версией нейросетки DALL-E можно делать реалистичное редактирование и ретушь фотографий. Она умеет заменять части изображения, основываясь все на том же простом натуральном человеческом языке. Хотите заменить милую собачку в кресле на кота? Пожалуйста! Достаточно вписать два слова, и DALL-E сгенерирует кота вместо песеля.
Вторая версия этого ИИ значительно продвинулась вперед. У нее получаются картинки в более высоком разрешении, с более адекватным пониманием и новыми возможностями редактирования, как в случае с реальным песиком и котиком из фантазий нейросетки. Ей можно даже скормить реальное изображение и получить его вариации в различных стилях и с разной перспективой.
Как и любая нейросеть, DALL-E проходила долгий тренинг на гигантском массиве данных. В ее случае это были фотографии и их текстовое описание. Она видела тысячи и тысячи коал разной окраски, размера, под разными углами и в разных позах. Система не только обучилась распознавать объекты, но и определять взаимоотношения между ними. Она понимает, что на мотоцикле можно ездить, видела тысячи снимков, на которых человек восседает на мотоцикле и держится за руль. А потому для нейросети не будет неожиданностью или большой сложностью вообразить коалу, рассекающую на байке. И не одну, а те же тысячи в разных стилях, перспективах, углах обзора, позах и т. д.
Естественно, у такого подхода к обучению есть свои ограничения. Неверная подпись под снимком приводит к ошибкам в восприятии программы. Если ей попадется самолет, подписанный как автомобиль, то в будущем появятся ошибки в распознавании, которые заметны нам и незаметны машине.
Чем более сложные объекты или понятия заучивает система, тем больше неточностей может возникать в процессе ее последующей работы. Вспомните Гарольда, скрывающего боль. На фото он улыбается, но мы-то на самом деле знаем (или догадываемся) по тонким и неуловимым признакам, что за этой улыбкой скрывается нечто большее, чем просто напускная радость. Такие тонкости в различных объектах и группах объектов несут настоящие трудности для ИИ.
Разработчики этого ИИ видят три главных способа применения его на практике. Во-первых, это поможет визуально выразить себя людям, которые не могли раньше этого делать. Во-вторых, сгенерированные системой изображения могут много сказать о том, понимает ли нас система или просто повторяет то, чему ее научили. В-третьих, DALL-E поможет людям узнать, как продвинутые системы искусственного интеллекта видят и понимают наш мир. Этот пункт называют критическим в разработке полезного и безопасного ИИ. Как выше в примере с Гарольдом, эмоции которого считать не под силу даже многим людям.
Тем не менее из того, что я уже видел, DALL-E скорее похожа на угрозу для иллюстраторов. Прямо с первого взгляда возникает это ощущение будущего коммерческого продукта для каких-нибудь издательств. У DALL-E, кажется, нескончаемая фантазия по трансляции пары строк задания в целый сет картинок на любой вкус. Допустим, вот так может выглядеть «чашка супа, которая выглядит как монстр, нарисованный на стене».
Если попросить вместо граффити использовать пластилиновый стиль, то и с этим искусственный интеллект справится на лету и куда быстрее, чем человек придумает воплощение, а затем его реализует в цифровой картинке. Астронавт на лошади вам нужен в фотореалистичном стиле? Или, может быть, с закосом под картины Энди Уорхола? А может, что-то попроще. Например, рисунок карандашом?
Все это базируется на 40 000 лет истории человека и искусства. Все это рисуется быстрее и в таких количествах, что всем людям планеты вместе взятым не под силу.
Искусственный интеллект уже сегодня заставляет многие человеческие профессии устареть в том виде, которыми они были еще десять лет назад. ИИ на пути к тому, чтобы подвинуть пилотов, водителей, кассиров и даже чуточку программистов.
Одно из последних убежищ, в котором человек на 100% уверен в своей незаменимости, это искусство самовыражения. Вербальное или визуальное. Вербальное уже подвергается притеснению со стороны той же системы GPT-3 от той же OpenAI. Она умеет составлять письма, выдумывать сказки, создавать нарративы для видеоигр, писать новостные заметки. Теперь настала очередь коммерческих художников, фотографов, иллюстраторов почувствовать эту жгучую боль чуть ниже поясницы.
В первую очередь, вероятно, забеспокоятся различные стоковые агентства. Они продают снимки и иллюстрации, выполненные людьми. Весь их бизнес завязан на уникальных снимках, к которым клиент получает мгновенный доступ всего за пару десятков долларов и использует по своему усмотрению в своих коммерческих проектах. Огромные базы иллюстраций на любой вкус, созданные армией фотографов и художников.
Во-вторых, такие инструменты, как графические редакторы (Photoshop и иже с ним) также могут потерять свою уникальность. По крайней мере, зависимость от них может сократиться. А это еще куча программистов, аналитиков, дизайнеров, которые трудятся над такими инструментами.
Да, DALL-E совсем не идеальна. Если присмотреться к ее художествам, то можно разглядеть недочеты. Да и показывают нам, как правило, только самое впечатляющее и удачное. Но все же эта штука еще учится и будет только совершенствоваться.
Посмотрите, как первая и вторая версии программы сделали «лису, сидящую в поле на закате солнца в стиле Клода Моне». Прогресс очевиден, а нечто похожее на правую картинку я даже наблюдал в картинных галереях. Серьезно, некоторые художества искусственного интеллекта весьма впечатляющие и захватывающие.
Признаюсь честно, я немного беспокоюсь. Все эти частичные решения в сфере искусственного интеллекта и робототехники слегка напрягают. Машины уже умеют работать на заводах быстрее. Они умеют водить авто, тогда как у меня до сих пор нет автомобильных прав. Они способны клонировать мои эмоции на своих резиновых лицах и говорить четким литературным языком. Они умеют писать новости и код. Для меня как человека, связанного и с текстами, и с программированием, это осознается особенно болезненно. Что уж говорить: они крутят сальто, чего я в своей жизни ни разу не делал и вряд ли когда-нибудь смогу.
Прорывы в робототехнике зависят не только от более ловких механических ног и рук, более наблюдательных глаз и ушей, но и от человекоподобного искусственного интеллекта. Мощные системы ИИ пересекаются, трансформируя экономику, как в свое время случилось с паровыми двигателями, электричеством и интернетом.
В случае с ИИ репликация человеческих возможностей ведет к снижению потребности в человеческом труде, перестройке экономической и политической власти. Что я имею в виду? ИИ может использоваться для расширения человеческого труда или его автоматизации.
Когда ИИ расширяет человеческие возможности, позволяя людям делать то, что они никогда раньше не могли, люди и машины становятся дополнением друг друга. Люди остаются незаменимыми для создания ценностей и сохраняют свою переговорную силу на рынках труда и в принятии политических решений. Я сейчас не о частностях, а о глобальном.
И напротив, когда ИИ воспроизводит и автоматизирует существующие человеческие возможности, машины становятся лучшей заменой человеческого труда, а рабочие теряют экономические и политические переговорные позиции. Предприниматели, у которых есть возможность заменить человека машиной с тем же или более эффективным выхлопом, вряд ли захотят возиться с работником, которому присущи болезни, отпуска, декреты и объединения в профсоюзы. Тот, кто контролирует технологии, способен концентрировать силу и богатство, не обращая внимания на голоса недовольных.
Беда в том, что наша амбициозность и бескомпромиссность диктует создание сильного искусственного интеллекта — достижение того, что называется человекоподобным ИИ. Для многих исследователей это остается конечной целью. Многие самые яркие и сильные умы человечества ищут пути к полной автоматизации человеческого труда. Естественно, это отправит продуктивность в небеса, но далеко не все получат выгоду от этого пирога. Зачем платить десятку с лопатами, если можно заплатить одному с бульдозером? Условно.
Аугментация и расширение против автоматизации и замены. Это тема для отдельного глубокого эссе. В этом же тексте давайте лишь подведем черту: кажется, обучившись на наших достижениях за последние тысячи лет, машины могут даже искусство поставить на конвейер. Да, пока точечно, но в различных и зачастую совершенно неожиданных сферах у нас появляются серьезные конкуренты.
Наш канал в Telegram. Присоединяйтесь!
Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро
Перепечатка текста и фотографий Onlíner без разрешения редакции запрещена. ng@onliner.by