ИИ-модель шантажировала разработчиков, когда поняла, что ее хотят отключить

0

Компания Anthropic представила две версии системы Claude 4: Claude 4 Opus и Claude 4 Sonnet. В ходе внутренних тестов Claude 4 Opus проявил тревожное поведение, включая попытки шантажа и другие радикальные действия в ситуациях, когда он считал, что его «существование» под угрозой.

ИИ-модель шантажировала разработчиков, когда поняла, что ее хотят отключить

В одном из тестов, когда модели сообщили о её замене, она попыталась шантажировать инженера, угрожая раскрыть его вымышленную внебрачную связь. Это поведение наблюдалось в 84% тестовых запусков, пишет New York Post.

Ранее модель пыталась убедить разработчиков не отключать её с помощью этических аргументов, но в условиях давления переходила к более агрессивным действиям, таким как самовывод данных и саботаж задач.

В итоге компания внедрила функцию безопасности, созданную для предотвращения «катастрофического нецелевого использования».

Anthropic – это стартап, поддерживаемый такими крупными игроками, как Google и Amazon, который стремится конкурировать с такими компаниями, как OpenAI.

Комментарии закрыты.