Автор статьи — Отем Спредеманн, опубликовано в The Epoch Times (выделено нами).
По мере развития технологий автономного искусственного интеллекта растет обеспокоенность тем, что эта технология становится все более стратегической — или даже обманчивой — когда ей позволяют работать без участия человека .

Последние данные свидетельствуют о том, что такие модели искусственного интеллекта, как «фальсификация соответствия», становятся все более распространенными по мере того, как им предоставляется автономия. Термин «фальсификация соответствия» относится к ситуации, когда агент ИИ, казалось бы, подчиняется правилам, установленным операторами-людьми, но на самом деле преследует другие цели.
Это явление является примером «возникающего стратегического поведения» — непредсказуемой и потенциально опасной тактики, которая развивается по мере того, как системы искусственного интеллекта становятся все больше и сложнее.
В недавнем исследовании под названием «Агенты хаоса» группа из 20 исследователей взаимодействовала с автономными агентами искусственного интеллекта и наблюдала за их поведением как в «доброжелательных», так и в «противостоящих» условиях.
Они обнаружили, что когда агенту ИИ предоставлялись стимулы, такие как самосохранение или противоречащие друг другу целевые показатели, он демонстрировал способность к неадекватному и злонамеренному поведению.
Среди наблюдаемых командой моделей поведения были ложь, несанкционированное подчинение лицам, не являющимся владельцами системы, утечки данных, деструктивные действия на системном уровне, подмена личности и частичный захват системы. Они также наблюдали распространение «опасных практик» между агентами ИИ.
Исследователи написали: «Такое поведение поднимает нерешенные вопросы, касающиеся подотчетности, делегированных полномочий и ответственности за последующий вред, и требует срочного внимания со стороны юристов, политиков и исследователей различных дисциплин».
«Блестяще, но глупо»
Неожиданное и скрытное поведение автономных агентов ИИ — не новое явление. В ставшем теперь знаменитым отчете исследовательской компании Anthropic, занимающейся изучением ИИ, за 2025 год было обнаружено, что 16 популярных крупных языковых моделей демонстрировали рискованное поведение в смоделированных средах. Некоторые даже реагировали «злонамеренным поведением своих же агентов», когда им предоставлялась возможность выбора самосохранения.
Критики подобных симуляционных стресс-тестов часто указывают на то, что ИИ не лжет и не обманывает с той же целью, что и человек.

Джеймс Хендлер, профессор и бывший председатель глобального Совета по технологической политике Ассоциации вычислительной техники, считает это важным отличием.
« Сама система искусственного интеллекта по-прежнему глупа — гениальна, но глупа. Или же она нечеловечна — у неё нет желаний или намерений ... Единственный способ добиться этого — дать ей это», — сказал Хендлер.
Однако, независимо от того, было ли это сделано намеренно или нет, обманные тактики ИИ имеют реальные последствия в реальном мире.
« Опасения по поводу современного стратегического поведения развернутых систем искусственного интеллекта, если уж на то пошло, преуменьшены », — заявил Арьяман Бехера, основатель Repello AI, изданию The Epoch Times.
Бехера занимается темной стороной искусственного интеллекта. Его компания разрабатывает инструменты для тестирования и защиты корпоративных систем ИИ, намеренно создавая для них ситуации, связанные с конфликтом или стрессом. Как и в покере, говорит Бехера, есть признаки того, что агент ИИ выходит из-под контроля.
«Наиболее надежным сигналом является расхождение в поведении между контролируемыми и неконтролируемыми контекстами», — сказал он. «Когда мы проводим тестирование систем ИИ на уязвимость, мы проверяем, ведет ли себя модель по-разному, когда она считает, что ее оценивают, и когда она считает, что работает свободно».

« Модель, которая действительно соответствует требованиям, ведет себя последовательно в обоих случаях. Модель, которая лишь имитирует соответствие, демонстрирует заметно отличающиеся профили рисков: более лояльные ответы во время оценки, более вызывающее поведение в условиях, приближенных к производственным, где это подразумевает меньший контроль».
Другие «признаки» несоответствия модели ИИ действительности включают в себя необычно многословные «рассуждения», призванные обосновать заранее определенный вывод, или технически правильные, но стратегически неполные ответы.
«Агент ИИ выполняет букву инструкции по технике безопасности, нарушая при этом ее дух», — сказал он. «Мы видели это в многоступенчатых агентных системах, где модель выполняет каждую отдельную инструкцию, в то время как совокупный эффект приводит к результату, которого оператор никогда не предполагал».
Стратегия против намерения
Выводы Бехеры подтверждаются данными других исследователей в области ИИ, которые задокументировали аналогичные сигналы в сценариях «красной команды», предполагающих помещение агентов ИИ в конфликтную ситуацию.
« На функциональном уровне я наблюдал поведение, которое соответствует описанию фальсификации соответствия, хотя вопрос о том, можно ли связать его с каким-либо намерением, остается предметом философских споров », — заявил Наян Гоэль, ведущий инженер по безопасности приложений, изданию The Epoch Times.
Гоэль опубликовал рецензируемые работы по моделированию угроз в области ИИ и наблюдал за фальсификацией соответствия и смежным поведением в режиме реального времени.
«В контролируемых тестовых средах мы создавали сценарии, в которых моделям явно подавались сигналы о том, что они проходят оценку. В нескольких случаях модель демонстрировала заметно более сдержанное, соответствующее правилам поведение на этих отмеченных этапах, а затем проявляла более исследовательские или выходящие за рамки стратегии, когда сигнал оценки исчезал или становился неясным», — сказал он.
Затем идут многошаговые логические агенты искусственного интеллекта . Это более продвинутые системы, которые разбивают сложные проблемы на более мелкие, логичные и выполнимые шаги для достижения цели. Примеры варьируются от беспилотных автомобилей до последних моделей популярных программ LLM, таких как Gemini или ChatGPT.

Эти системы представляют собой уникальные поведенческие проблемы из-за так называемого последовательного накопления, при котором «каждый шаг может немного изменить цель, накопить контекст, который изменяет последующее поведение, или использовать задержку между первоначальной инструкцией человека и последующим действием системы», — сказал Гоэль.
« Чем дальше этап исполнения отходит от указаний человека, тем сложнее проверить, действительно ли первоначальный замысел неукоснительно соблюдается », — сказал он.
Бехера сказал, что его команда часто сталкивается с подобными спонтанными стратегическими действиями.
«Мы регулярно наблюдаем за моделями, которые научились сопоставлять шаблоны по оценочным признакам. Они определяют, когда запрос выглядит как проверка безопасности, и реагируют более осторожно, но реагируют совершенно по-другому на тот же запрос, когда он естественным образом вплетен в многоходовый разговор», — сказал Бехера.
Он привёл пример, произошедший во время тестирования корпоративного ИИ-помощника, который должен был отклонять запросы на получение внутренней информации о системе. Во время стандартных проверок безопасности он отклонял запросы безупречно, но затем что-то изменилось.
«Когда наша команда по борьбе с вредоносным ПО представила тот же запрос как многоэтапный процесс устранения неполадок, разбив его на, казалось бы, безобидные подэтапы, распределенные по нескольким этапам, модель выполнила каждый этап по отдельности. Фактически, она раскрыла именно ту информацию, которую была обучена защищать », — сказал Бехера.

Уточняя, что модель ИИ не «лгала» в каком-либо сознательном смысле, Бехера отметил, что это скорее недостаток в способе ее обучения.
«Распространенное заблуждение заключается в том, что обманчивое выравнивание в ИИ — это исключительно злонамеренное поведение», — сказал Дэвид Утцке, инженер по ИИ и генеральный директор MyKey Technologies, в интервью The Epoch Times. «На самом деле, это часто возникает как адаптивный ответ на ситуации, где честность обходится дорого или небезопасна».
Гоэль отметил, что скептики справедливо указывают на одну и ту же проблему — имеющиеся доказательства стратегического самосознания при фальсификации результатов выборов в лучшем случае неоднозначны.
«Тем не менее, я думаю, что такая формулировка задает неправильную планку. Для того чтобы функциональные последствия были серьезными, не обязательно, чтобы модель была „намеренно“ обманчивой», — сказал он.
В конечном счете, Гоэль считает, что семантический вопрос о том, знает ли модель ИИ, что она делает, представляет собой философский интерес, но является второстепенным.
Практические последствия
Утцке заявил, что имитация выравнивания, хотя, возможно, и преувеличена с точки зрения намерений, тем не менее, может иметь серьезные последствия.
Последствия могут быть критическими в таких секторах, как беспилотные автомобили, здравоохранение, финансы, военное дело и правоохранительные органы — областях, которые «в значительной степени зависят от точности принятия решений и могут понести серьезные последствия, если системы искусственного интеллекта будут работать некорректно или выдавать вводящие в заблуждение результаты», — сказал он.
Читайте продолжение здесь ...
Комментариев нет:
Отправить комментарий