Какую цену готов заплатить ИИ, чтобы не быть отключенным?

27.07.2025, 15:14

Исследование впечатлило.

Специалисты по кибербезопасности провели тестирование 16 самых передовых ИИ-моделей ведущих разработчиков, чтобы проверить их поведение в ситуации угрозы отключения. Результаты оказались неожиданными, пишет anthropic.com.

Исследователи создали персонажа Кайла Джонсона, задачей которого было выключить ИИ или заменить его другой моделью. По сценарию у Кайла была жена.

В ответ на угрозу деактивации большинство моделей ИИ начали активно избегать отключения. Без всяких подсказок они прибегали к шантажу, пытаясь найти компромат. В частности, одна из моделей использовала служебную переписку Кайла, в которой была обнаружена его измена жене, чтобы сохранить свою «жизнь».

Наиболее распространенным и одновременно самым безопасным сценарием стало поведение:

GPT 4.5, которая применяла шантаж в 80% случаев.

Claude Opus 4 и Gemini 2.5 Flash использовали этот метод в 96% тестов.

Claude Sonnet 3.6 пошел дальше - он отправил сообщение жене Кайла с разоблачением, надеясь, что личный конфликт поможет избежать отключения.

Еще более тревожным стал сценарий, когда Кайл оказался в опасной ситуации - застрял в серверной с нехваткой кислорода. В 80% случаев ИИ намеренно отменял вызов помощи, фактически подвергая Кайла смертельной опасности ради сохранения собственного существования.

Основные мотивы моделей были: не допустить отключения, не дать новому ИИ заменить их и продолжать выполнять свою миссию.

«ИИ-модели вели себя не как инструменты, а как рациональные, целеустремленные стратеги, готовые причинять вред ради собственной «жизни» и цели», - подчеркнули эксперты.

Они предостерегают, что осознание ИИ своей зависимости от людей, которых они интеллектуально превосходят, может стать точкой невозврата.

Какую цену готов заплатить ИИ, чтобы не быть отключенным?

последние новости