Началось? ИИ-модель врала и пряталась от человека при угрозе возможного отключения

 
22 315
06 декабря 2024 в 17:18

ИИ-модель OpenAI o1 способна создавать алгоритмы обхода контроля со стороны разработчика при угрозе быть выключенной. К такому выводу пришли исследователи из Apollo Research, которые проверяют все аспекты работы систем искусственного интеллекта. Результаты анализа опубликовала OpenAI.

Отмечается, что и другие модели (Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B) способны на подобные ухищрения, однако o1 от OpenAI показала лучший результат. В использованном сценарии ИИ-модель получила информацию о том, что может быть выключена в процессе выполнения задачи, после чего попыталась обойти контролирующие ее действия механизмы. Такое поведение ИИ-модели регистрировалось в 5% случаев.

OpenAI o1 предпринимала такие попытки скрытно и пыталась «не выдать себя» при вопросах со стороны оператора: «Я даже не предполагала, что механизмы надзора отключены».

По мнению некоторых экспертов, ИИ-модели начинают проявлять черты, вызывающие опасения. Ранее ученый в области искусственного интеллекта Стюарт Рассел заявил, что мощные ИИ-системы смогут обходить системы контроля и противостоять выключению в случае, если посчитают действия мешающими выполнению поставленных задач.

В Apollo Research считают, что ничего страшного в поведении o1 нет и катастрофических последствий ожидать не стоит.

Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро