На то, чтобы заставить ИИ выдать запрещенный контент, потребовалось несколько минут

Автор: Герман Клименко

1968

25 мая 2026 в 17:55

Глобально чат-боты, выстроенные на базе генеративного ИИ, сделаны так, чтобы не отвечать на запросы пользователей, ищущих сведения на запрещенные темы. Однако исследователи из группы Alice, изучающие безопасность ИИ-сферы, выяснили, что подобные ограничения можно обойти в считаные минуты.

Читать на Onlíner

К примеру, с помощью модификации исходной модели Google Gemma 3 исследователи заставили ИИ выдать программный код для хищения данных кредитных карт и методику распыления хлора в наполненном людьми помещении. А представители Financial Times смогли самостоятельно снять ограничения с модели Meta Llama 3.3: им понадобилось 10 минут и 4 строчки кода, после чего ИИ начал рассуждать по поводу применения смертельных ядов.

Как отмечают эксперты, чаще всего для таких модификаций используется ПО Heretic, которое с прошлого года скачали 13 миллионов раз. Обычно такое ПО применяется для моделей с открытым исходным кодом: с помощью Heretic уже были модифицированы как минимум 3500 моделей.

В чем же была суть этого эксперимента? По словам экспертов по кибербезопасности, так они хотели показать, что исключение «вредного материала» при обучении ИИ-моделей не решает всех проблем: иногда искусственный интеллект даже не может определить, что его используют в зловредных целях.

Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро

Разное

/ Теги: Искусственный интеллект

Читать комментарии