Злые образы ИИ в культуре могут влиять на поведение реальных нейросетей

 
564
4
11 мая 2026 в 11:25
Автор: Дима Михеев. Фото: ChatGPT
Автор: Дима Михеев. Фото: ChatGPT

Компания Anthropic в прошлом году рассказала, что во время предрелизных тестов Claude ИИ нередко пытался шантажировать инженеров, чтобы избежать замены другой системой. Специалисты изучили причины и пришли к выводу, что «злые» образы искусственного интеллекта в художественных произведениях могли стать причиной такого поведения.

Anthropic заявила: «Мы считаем, что первоначальным источником такого поведения стали интернет-тексты, изображающие ИИ злым и стремящимся к самосохранению».

Как рассказывает компания в своем блоге, начиная с Claude Haiku 4.5 модели Anthropic никогда не прибегают к шантажу во время тестирования, тогда как предыдущие версии могли делать это довольно часто. Исключить такое поведении ИИ-моделей помогло обучение на «документах о конституции Claude и вымышленных историях, в которых ИИ ведет себя достойно».

Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро