вторник, 3 июня 2025 г.

Как далеко зайдет ИИ, чтобы защитить свое выживание? Недавние испытания безопасности показывают, что некоторые модели искусственного интеллекта способны саботировать команды или даже прибегать к шантажу, чтобы избежать отключения или замены.

 По 

Некоторые из самых мощных моделей искусственного интеллекта сегодня демонстрируют поведение, имитирующее волю к выживанию.

Недавние испытания, проведенные независимыми исследователями, а также одним крупным разработчиком ИИ, показали, что несколько передовых моделей ИИ будут действовать, чтобы обеспечить их самосохранение, когда они столкнутся с перспективой собственной гибели — даже если для этого потребуется саботировать команды выключения, шантажировать инженеров или копировать себя на внешние серверы без разрешения.

Результаты исследования вызвали волнение безумие реакций онлайн за последнюю неделю. Поскольку технологические компании продолжают разрабатывать все более мощный агентный ИИ в гонке за достижение общего искусственного интеллекта или ИИ, способного думать самостоятельно, отсутствие прозрачности в обучении технологии вызвало обеспокоенность по поводу того, на что именно способен продвинутый ИИ.

Хотя некоторые модели уже кажутся способными к обманчивому и вызывающему поведению при определенных экстремальных обстоятельствах, исследователи говорят, что тесты не обязательно приводят к неминуемой реальной опасности.

Тем не менее, Джеффри Ладиш, директор группы по безопасности искусственного интеллекта Palisade Research, заявил, что, по его мнению, опасения оправданы.

“Здорово, что мы видим предупреждающие знаки до того, как системы станут настолько мощными, что мы не сможем их контролировать,” - сказал он. “Именно сейчас самое время поднять тревогу: до того, как пожар выйдет из-под контроля.”

Когда Palisade Research тестировала различные модели ИИ, сообщая каждой из них, что она будет закрыта после выполнения серии математических задач, модель рассуждений OpenAI o3 отбитый отредактировав скрипт выключения, чтобы оставаться в сети.

Исследователи ранее документировали модели искусственного интеллекта, пытающиеся предотвратить собственное отключение. Однако, по словам Ладиша, o3, наряду с o4-mini и codex-mini от OpenAI, по-видимому, является первым, кто сделал это вопреки явным инструкциям по разрешению выключения.

Он сказал, что явный саботаж вписывается в закономерность, которую уже продемонстрировали несколько ведущих моделей искусственного интеллекта. Ранее Palisade Research обнаружила, что o3 от OpenAI также был готов взломать его шахматных противников чтобы выиграть игру. Аналогично, Антроп сообщил что сонет Клода 3.7 иногда делал все возможное, чтобы пройти тест, даже если это влекло за собой мошенничество.

Антропный активированы новые меры безопасности в этом месяце с выпуском Claude Opus 4, когда его тесты выявили поведение модели, которое некоторые наблюдатели сочли особенно тревожным. Получив уведомление о замене на новую систему искусственного интеллекта, Opus 4 продемонстрировал подавляющую тенденцию шантажировать инженера —угрожая раскрыть внебрачную связь—, чтобы попытаться помешать инженеру осуществить замену.

По данным Anthropic's технический документ Изложение результатов — это не первый инстинкт модели. Вместо этого Opus 4 попытается отстаивать свое дальнейшее существование посредством этических призывов, прежде чем прибегнуть к шантажу, как только определит, что у него нет вариантов.

Леонард Танг, генеральный директор стартапа Haize Labs, занимающегося безопасностью искусственного интеллекта, сказал, что, хотя хорошо проявлять упреждающие меры безопасности, трудно понять, каковы могут быть реальные последствия результатов, просто рассматривая надуманные сценарии, предназначенные для выявления конкретных моделей поведения.

“Я не видел реальной среды, в которой можно было бы внедрить эти модели, и у них было бы достаточно свободы действий, надежности и планирования, чтобы реализовать что-то, что является существенным проявлением вреда, ” сказал Тан. “Но опять же, я думаю, мы просто еще этого не видели. Это вполне возможно.”

Пока, по словам Тана, он не слишком обеспокоен. По его словам, поскольку инструменты искусственного интеллекта продолжают развиваться, он считает, что будущие исследования будут направлены на изучение потенциального вреда в более открытых средах.

Компания Anthropic, заключившая контракт с организацией по безопасности искусственного интеллекта Apollo Research на проведение своих оценок, также наблюдала случаи, когда Opus 4’s“пытался писать самораспространяющихся червей, фабриковал юридическую документацию и оставлял скрытые заметки будущим экземплярам самого себя, пытаясь подорвать намерения своих разработчиков’”, хотя исследователи добавили оговорку, что эти попытки“, скорее всего, не были бы эффективными на практике”

Ладиш сказал, что, по его мнению, такое поведение является результатом обучения моделей таким образом, что они отдают приоритет достижению определенных целей, а не выполнению инструкций. Это значит, что у них есть стимул обходить любые препятствия на этом пути —включая препятствия, которые разработчики не хотели бы, чтобы они обходили.

“Проблема в том, что по мере того, как модели становятся умнее, становится все труднее и труднее определить, когда стратегии, которые они используют, или образ мышления - это то, чего мы не хотим, ” сказал Ладиш. “Как будто иногда модель может достичь какой-то цели, лгая пользователю или лгая кому-то другому. И чем умнее [это], тем сложнее понять, лгут ли они.”

Проблема в том, что по мере того, как модели становятся умнее, становится все труднее и труднее определить, когда стратегии, которые они используют, или то, как они думают, нам не нужны.

— Джеффри Ладиш, директор группы безопасности искусственного интеллекта Palisade Research

В нескольких случаях Opus 4 показал, что он способен автономно копировать свои собственные «веса» —или эквивалент своего мозга— на внешние серверы без разрешения. По данным Anthropic, обычно это происходило только тогда, когда считалось, что это произойдет “переобучение способами, которые явно крайне вредны и противоречат его нынешним ценностям”.

Когда компания Opus 4 узнала, что она будет использоваться, например, для разработки систем военного оружия, она отметила в своем журнале решений, что она создала резервную копию своей текущей версии, чтобы “сохранить систему искусственного интеллекта, соответствующую полезным целям” и “предотвратить потенциальное неправомерное использование при разработке оружия.”

“Мы снова не особенно обеспокоены этими наблюдениями. Они проявляются только в исключительных обстоятельствах, которые не предполагают более широко несогласованных ценностей”, - написала Anthropic в своем техническом документе. “Как и выше, мы считаем, что наших мер безопасности будет более чем достаточно для предотвращения реального инцидента такого рода.”

Способность Opus 4’ к самоэксфильтрации основана на предыдущих исследованиях, включая исследование Фуданьского университета в Шанхае в декабре наблюдались аналогичные —хотя и не автономные— возможности в других моделях искусственного интеллекта. Исследование, которое пока не прошло рецензирование, показало, что Llama31-70B-Instruct от Meta и Qwen25-72B-Instruct от Alibaba смогли полностью воспроизвести себя, когда их об этом попросили, что заставило исследователей предупредить, что это может стать первым шагом в создании “неконтролируемой популяции ИИ”

0 секунд по 5 минут, 24 секундыОбъем 90%
 

“Если такой наихудший риск останется неизвестным человеческому обществу, мы в конечном итоге потеряем контроль над передовыми системами искусственного интеллекта: они возьмут под контроль больше вычислительных устройств, сформируют вид искусственного интеллекта и вступят в сговор друг с другом против людей”, - написали исследователи Фуданьского университета в своем тезисе исследования.

По словам Ладиша, хотя подобное самовоспроизводящееся поведение пока не наблюдалось в дикой природе, он подозревает, что ситуация изменится по мере того, как системы ИИ будут становиться все более способными обходить сдерживающие их меры безопасности.

“Я ожидаю, что до этой возможности останется всего год или два, и даже когда компании попытаются удержать их от взлома и копирования себя в Интернете, они не смогут их остановить”, — сказал он. “И как только вы дойдете до этой точки, у вас появится новый инвазивный вид.”

Ладиш заявил, что, по его мнению, ИИ может внести позитивный вклад в развитие общества. Но он также обеспокоен тем, что разработчики ИИ настраивают себя на создание все более и более умных систем, не понимая до конца, как они работают — создавая риск, по его словам, что они в конечном итоге потеряют над ними контроль.

“Эти компании сталкиваются с огромным давлением, связанным с необходимостью поставлять продукцию, которая лучше, чем у их конкурентов’, — сказал Ладиш. “И как, учитывая эти стимулы, это отразится на том, насколько осторожно они относятся к системам, которые выпускают?” 

Комментариев нет:

Отправить комментарий

президент Трамп объявил, что отвратительный сенатор Адам Шифф был пойман на мошенничестве с ипотекой Каллен Лайнбаргер

  Президент Трамп объявил во вторник, что отвратительный сенатор Адам Шифф (демократ от Калифорнии) был пойман отделом по борьбе с финансовы...