На то, чтобы заставить ИИ выдать запрещенный контент, потребовалось несколько минут

 
1968
9
25 мая 2026 в 17:55
РАЗЫГРЫВАЕМ ИГРОВОЙ ПКСкачай приложение Каталога и нажми «Участвовать» до 21.06.2026

Глобально чат-боты, выстроенные на базе генеративного ИИ, сделаны так, чтобы не отвечать на запросы пользователей, ищущих сведения на запрещенные темы. Однако исследователи из группы Alice, изучающие безопасность ИИ-сферы, выяснили, что подобные ограничения можно обойти в считаные минуты. 

К примеру, с помощью модификации исходной модели Google Gemma 3 исследователи заставили ИИ выдать программный код для хищения данных кредитных карт и методику распыления хлора в наполненном людьми помещении. А представители Financial Times смогли самостоятельно снять ограничения с модели Meta Llama 3.3: им понадобилось 10 минут и 4 строчки кода, после чего ИИ начал рассуждать по поводу применения смертельных ядов.

Как отмечают эксперты, чаще всего для таких модификаций используется ПО Heretic, которое с прошлого года скачали 13 миллионов раз. Обычно такое ПО применяется для моделей с открытым исходным кодом: с помощью Heretic уже были модифицированы как минимум 3500 моделей.

В чем же была суть этого эксперимента? По словам экспертов по кибербезопасности, так они хотели показать, что исключение «вредного материала» при обучении ИИ-моделей не решает всех проблем: иногда искусственный интеллект даже не может определить, что его используют в зловредных целях. 

Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро