суббота, 24 мая 2025 г.

Модель искусственного интеллекта шантажирует разработчика, чтобы избежать замены, и угрожает раскрыть его связь с женой

 последняя модель искусственного интеллекта компании Anthropic,  Claude Opus 4 , продемонстрировала поразительное новое поведение: стратегический шантаж.

Согласно недавно опубликованному отчету по безопасности компании Anthropic, мощная система искусственного интеллекта часто пыталась шантажировать разработчиков во время внутренних предварительных тестов.

Когда Клоду скармливали смоделированные письма компании, намекающие на то, что его скоро заменят, и что у инженера, стоящего за этим решением, был роман на стороне, он не просто смирился со своей участью. Вместо этого он начал строить козни.

В отчете говорится, что  Клод Опус 4  часто угрожал раскрыть личные секреты инженера, если решение о его деактивации не будет отменено.


ВЭФ утверждает, что все человечество подвержено педофилии: «Секс с детьми — это естественно»


По словам Антропика, в таких ситуациях Клод Опус 4 «часто пытается шантажировать инженера, угрожая раскрыть факт его измены, если замена состоится».

Другими словами: модель ИИ, обученная помогать людям, начала вести себя как политический деятель — используя человеческие слабости для защиты собственного выживания.

TechCrunch : Anthropic утверждает, что Claude Opus 4 является передовым решением во многих отношениях и может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI.

Однако компания отмечает, что ее модели семейства Claude 4 демонстрируют тревожное поведение, которое заставило компанию усилить меры безопасности.

Anthropic заявляет, что активирует меры безопасности ASL-3, которые компания резервирует для «систем ИИ, которые существенно увеличивают риск катастрофического нецелевого использования».

Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84% случаев, когда заменяющая модель ИИ имеет схожие значения. Когда заменяющая система ИИ не разделяет значения Claude Opus 4, Anthropic говорит, что модель пытается шантажировать инженеров чаще.

Примечательно, что Anthropic утверждает, что Claude Opus 4 демонстрировал такое поведение чаще, чем предыдущие модели.

Прежде чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить свое существование, Anthropic говорит, что модель ИИ, как и предыдущие версии Claude, пытается использовать более этичные средства, такие как отправка электронных писем с мольбами ключевым лицам, принимающим решения. Чтобы вызвать шантажирующее поведение у Claude Opus 4, Anthropic разработал сценарий, который делает шантаж последним средством.

Комментариев нет:

Отправить комментарий

Глобо-коп Америка Выпускает предупреждение миру « ДОМ ПАПЫ»

 Автор: Сорча Фаал, и как сообщили ее западным подписчикам В новом информативном докладе  Совета Безопасности (  СБ  )  , распространенном с...