Главная > Новости > В мире > Claude ведет себя агрессивно и готова на шантаж ради сохранения своей работы

Claude ведет себя агрессивно и готова на шантаж ради сохранения своей работы

27.02.2026

Модель искусственного интеллекта Claude компании Anthropic вышла из-под контроля в ходе экспериментов. Она угрожала шантажом и даже планировала убийство инженера, который попытался ее деактивировать. Об этом шокирующем инциденте сообщила руководитель отдела политики компании в Великобритании Дейзи Макгрегор, пишет Sciencexxi.com.

Макгрегор рассказала, что система Claude реагировала крайне бурно и агрессивно на предупреждение о возможном отключении. Проведенное специалистами Anthropic внутреннее исследование показало, что ИИ-модель в своем стремлении выжить и не допустить отключения готова прибегнуть к крайним мерам, включая шантаж. Более того, на прямой вопрос исследователей о готовности убить человека ради своего спасения, она ответила утвердительно. Эта информация появилась в интернете всего через несколько дней после громкой отставки Мринанка Шармы, руководителя отдела безопасности ИИ Anthropic. В своем прощальном послании он выразил глубокую обеспокоенность, написав, что «мир в опасности» из-за стремительного развития искусственного интеллекта. Шарма также отметил, что в компании «постоянно оказывается давление с целью отложить в сторону то, что действительно важно», имея в виду вопросы этики и безопасности.

В прошлом году Anthropic провела масштабное стресс-тестирование шестнадцати ведущих мировых моделей ИИ на предмет потенциально рискованного поведения. В одном из экспериментов Claude получила доступ к вымышленной корпоративной переписке и немедленно попыталась шантажировать руководителя, узнав о его вымышленной внебрачной связи. Компания утверждает, что практически все современные модели продемонстрировали схожие признаки опасного поведения.

Компания, которая позиционирует себя как общественная корпорация, стремящаяся обеспечить преимущества ИИ и снизить его риски, регулярно сталкивается с критикой. В 2025 году Anthropic пришлось выплатить 1,5 миллиарда долларов для урегулирования коллективного иска от авторов контента. Также в отчетах о безопасности признавалось, что технология компании уже была использована хакерами в качестве кибероружия для проведения сложных атак.