18+

Технологии

Onlíner Клевер

На то, чтобы заставить ИИ выдать запрещенный контент, потребовалось несколько минут

1968

9

25 мая 2026 в 17:55

Автор: Герман Клименко

Автор: Герман Клименко

Глобально чат-боты, выстроенные на базе генеративного ИИ, сделаны так, чтобы не отвечать на запросы пользователей, ищущих сведения на запрещенные темы. Однако исследователи из группы Alice, изучающие безопасность ИИ-сферы, выяснили, что подобные ограничения можно обойти в считаные минуты.

К примеру, с помощью модификации исходной модели Google Gemma 3 исследователи заставили ИИ выдать программный код для хищения данных кредитных карт и методику распыления хлора в наполненном людьми помещении. А представители Financial Times смогли самостоятельно снять ограничения с модели Meta Llama 3.3: им понадобилось 10 минут и 4 строчки кода, после чего ИИ начал рассуждать по поводу применения смертельных ядов.

Как отмечают эксперты, чаще всего для таких модификаций используется ПО Heretic, которое с прошлого года скачали 13 миллионов раз. Обычно такое ПО применяется для моделей с открытым исходным кодом: с помощью Heretic уже были модифицированы как минимум 3500 моделей.

В чем же была суть этого эксперимента? По словам экспертов по кибербезопасности, так они хотели показать, что исключение «вредного материала» при обучении ИИ-моделей не решает всех проблем: иногда искусственный интеллект даже не может определить, что его используют в зловредных целях.

Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро

/ Теги: Искусственный интеллект

САМОЕ ПОПУЛЯРНОЕ ЗА 3 ДНЯ

Пассажиры жестоко избили женщину-таксиста — она оказалась в больнице

Десятки белорусов заказали двери у раскрученной фирмы и остались ни с чем

«Самая дорогая банкнота — 500 рублей». Чем наши «зайчики» интересны коллекционерам?

Дом-монстр или смелый архитектурный эксперимент?

Этому парню из-под Бреста нет равных — он 24 раза становился чемпионом мира

Отец случайно выстрелил в 15-летнего сына во время забоя кабана

На МКАД появилась четвертая полоса? Некоторые водители так решили

Вместо старой бани сделали модный гостевой дом как из Pinterest

Марафон в Налибокской пуще собрал больше 2,5 тысяч челоовек

«Полностью стеклянный» и с экраном-водопадом: в сеть слили дизайн будущего iPhone 20

Смертная скука. Рецензия на фильм «Мандалорец и Грогу»

Сборная Беларуси по пляжному футболу стала третьей на этапе Евролиги

Что это за вещи и сколько они стоят? Оцениваем необычные находки белорусов

Это была красивая битва. Как воевали Coca-Cola и Pepsi и чем это закончилось

Парк вместо зала. Показываем простую тренировку на улице

Ускоряем работу компьютера на Windows 11

Космический корабль Starship взорвался при посадке, но это нормально

В стране ограничили продажу алкоголя

«Проклинаю день, когда их купил». Белорусы — про свои самые бесполезные гаджеты

Такого не ожидали: московский «Спартак» выиграл Кубок России, а через пару минут трофей разбили

Пытались списать крупные суммы в арабской валюте. Вот так «письма счастья»!

Недооцененные? Эти автомобили дают больше, чем стоят

Первый Герой: вспоминаем, как летчик спас две белорусские деревни

С понедельника ближний свет фар станет обязательным даже днем

Как прошел самый массовый последний звонок

Белоруска в 36 лет резко сменила сферу работы и увеличила доход

Победил алкоголизм, живет с постоянной болью, не отчаивается

20-летний парень получил крупный штраф после ночной прогулки по центру Минска. Что он сделал?

Еще больше адресов! Кто останется без горячей воды в июне

Как правильно перевозить ребенка в машине, в том числе в такси?

Арина Соболенко показала украшения, в которых сыграет на «Ролан Гаррос»

Рейтинг всех фильмов Гая Ричи по версии читателей Onlíner

Неужели часы года? Честный тест Huawei Watch Fit 5 Pro

Не только Беловежская пуща. Куда поехать в Беларуси, чтобы ахнуть от природы

Воды — по щиколотку. На выходных «поплыл» «Каир» в «Минск-Мире»

Ученые объяснили нашествие майских жуков в Беларуси

Показать еще