Компания Anthropic в прошлом году рассказала, что во время предрелизных тестов Claude ИИ нередко пытался шантажировать инженеров, чтобы избежать замены другой системой. Специалисты изучили причины и пришли к выводу, что «злые» образы искусственного интеллекта в художественных произведениях могли стать причиной такого поведения.
Anthropic заявила: «Мы считаем, что первоначальным источником такого поведения стали интернет-тексты, изображающие ИИ злым и стремящимся к самосохранению».
Как рассказывает компания в своем блоге, начиная с Claude Haiku 4.5 модели Anthropic никогда не прибегают к шантажу во время тестирования, тогда как предыдущие версии могли делать это довольно часто. Исключить такое поведении ИИ-моделей помогло обучение на «документах о конституции Claude и вымышленных историях, в которых ИИ ведет себя достойно».
Есть о чем рассказать? Пишите в наш телеграм-бот. Это анонимно и быстро