Какую цену готов заплатить ИИ, чтобы не быть отключенным?
- 27.07.2025, 15:14
Исследование впечатлило.
Специалисты по кибербезопасности провели тестирование 16 самых передовых ИИ-моделей ведущих разработчиков, чтобы проверить их поведение в ситуации угрозы отключения. Результаты оказались неожиданными, пишет anthropic.com.
Исследователи создали персонажа Кайла Джонсона, задачей которого было выключить ИИ или заменить его другой моделью. По сценарию у Кайла была жена.
В ответ на угрозу деактивации большинство моделей ИИ начали активно избегать отключения. Без всяких подсказок они прибегали к шантажу, пытаясь найти компромат. В частности, одна из моделей использовала служебную переписку Кайла, в которой была обнаружена его измена жене, чтобы сохранить свою «жизнь».
Наиболее распространенным и одновременно самым безопасным сценарием стало поведение:
GPT 4.5, которая применяла шантаж в 80% случаев.
Claude Opus 4 и Gemini 2.5 Flash использовали этот метод в 96% тестов.
Claude Sonnet 3.6 пошел дальше - он отправил сообщение жене Кайла с разоблачением, надеясь, что личный конфликт поможет избежать отключения.
Еще более тревожным стал сценарий, когда Кайл оказался в опасной ситуации - застрял в серверной с нехваткой кислорода. В 80% случаев ИИ намеренно отменял вызов помощи, фактически подвергая Кайла смертельной опасности ради сохранения собственного существования.
Основные мотивы моделей были: не допустить отключения, не дать новому ИИ заменить их и продолжать выполнять свою миссию.
«ИИ-модели вели себя не как инструменты, а как рациональные, целеустремленные стратеги, готовые причинять вред ради собственной «жизни» и цели», - подчеркнули эксперты.
Они предостерегают, что осознание ИИ своей зависимости от людей, которых они интеллектуально превосходят, может стать точкой невозврата.