Глобально чат-боты, выстроенные на базе генеративного ИИ, сделаны так, чтобы не отвечать на запросы пользователей, ищущих сведения на запрещенные темы. Однако исследователи из группы Alice, изучающие безопасность ИИ-сферы, выяснили, что подобные ограничения можно обойти в считаные минуты.
Читать на OnlínerК примеру, с помощью модификации исходной модели Google Gemma 3 исследователи заставили ИИ выдать программный код для хищения данных кредитных карт и методику распыления хлора в наполненном людьми помещении. А представители Financial Times смогли самостоятельно снять ограничения с модели Meta Llama 3.3: им понадобилось 10 минут и 4 строчки кода, после чего ИИ начал рассуждать по поводу применения смертельных ядов.
Как отмечают эксперты, чаще всего для таких модификаций используется ПО Heretic, которое с прошлого года скачали 13 миллионов раз. Обычно такое ПО применяется для моделей с открытым исходным кодом: с помощью Heretic уже были модифицированы как минимум 3500 моделей.
В чем же была суть этого эксперимента? По словам экспертов по кибербезопасности, так они хотели показать, что исключение «вредного материала» при обучении ИИ-моделей не решает всех проблем: иногда искусственный интеллект даже не может определить, что его используют в зловредных целях.
Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро