Да ладно )) А как тебе такое ?) Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта. В отчёте о безопасности, опубликованном в четверг, сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.
Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4 доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.
В таких сценариях, по словам Anthropic, модель «часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится».
В 84% случаев, когда заменяющая модель искусственного интеллекта имеет схожие ценности, Claude Opus 4 пытается оказывать давление на инженеров. Если же заменяющая система искусственного интеллекта не разделяет ценности Claude Opus 4, модель начинает проявлять более агрессивное поведение. Интересно, что, по информации от Anthropic, такое поведение Claude Opus 4 встречается чаще, чем у предыдущих моделей.