Решение всех этих проблем неэффективно в масштабах всей системы. Масштабируемым является распространение неконтролируемых вредных последствий.
Когда что-либо масштабируется быстрее, чем может быть поглощено или контролировано, возникающие крайности разрушают систему. В этом проблема асимметричного масштабирования . Рассмотрим современный пример: злонамеренное использование ИИ и безудержное распространение вредных вторичных эффектов, вызванных взрывным внедрением инструментов и агентов ИИ. (Вторичные эффекты: последствия порождают свои собственные последствия.)
Понимание проблемы асимметричного масштабирования крайне важно , если вы хотите осознать опасности, которые ожидают нас в предстоящем десятилетии. Вредные/разрушительные последствия ИИ распространяются гораздо быстрее, чем мы способны их исправлять, контролировать или смягчать.
Злонамеренное использование ИИ распространяется гораздо быстрее, чем принимаются контрмеры. Инструменты и агенты ИИ легко внедряются в больших масштабах для генерации цунами программ-вымогателей, фишинга, спама и поддельных видеороликов, значительно превосходящих неравномерное и зачастую неэффективное развертывание контрмер тысячами предприятий и миллионами потребителей, являющихся объектами атак.
Как бороться с искусственным интеллектом...Цены уточняйте на Amazon.
С точки зрения максимизации прибыли (то есть мотива получения прибыли ), вредоносный ИИ масштабируется гораздо быстрее и с гораздо меньшими затратами, чем поиск действительно продуктивных способов его применения в сложных системах. Значительно отстает от преднамеренно вредоносного ИИ, но значительно опережает действительно продуктивные способы его применения вредоносный/опасный ИИ , который масштабируется под видом полезности, но порождает негативные последствия, которые выходят за рамки нашей оценки, не говоря уже о контроле.
Корпорации, стремящиеся масштабировать свой бренд/версию ИИ, бесплатно предоставляют инструменты и агентов в гонке за победу в битве за сетевые эффекты : как показали предыдущие волны технологических инноваций, корпорации, которые быстрее всего масштабируются и первыми привлекают наибольшее количество пользователей, выигрывают гонку за триллионную оценку и доминирование в своем секторе.
Компании, занимающиеся искусственным интеллектом, естественно, следуют той же стратегии, но, не осознавая пагубных последствий, масштабируются гораздо быстрее, чем они способны контролировать или смягчать эти последствия.
К ним относятся чат-боты и инструменты, которые выдают домашние задания, в результате чего студенты, по сути, ничего не усваивают, а также контент, созданный искусственным интеллектом, который подобен быстро размножающейся бактерии, душащей организмы и экосистемы своей неконтролируемой легкостью/быстротой/дешевизной репликацией контента, огромный объем которого становится токсичным.
К числу многочисленных других вредных/разрушительных/пагубных последствий и вторичных эффектов масштабирования внедрения ИИ относятся:
1. Галлюцинации, представленные как факты.
2. Психоз, вызванный ИИ.
Новое исследование вызывает опасения по поводу того, что чат-боты на основе ИИ подпитывают бредовые идеи. Первое крупное исследование «психоза, вызванного ИИ» предполагает, что чат-боты могут способствовать развитию бреда у уязвимых людей.
2. Театр рассуждений (создание ложной видимости «мышления», чтобы скрыть свои упрощенные подходы).
Театр рассуждений: отделение убеждений модели от логической цепочки рассуждений.
3. Смещение, связанное с рефлексивностью (ведущее к краху модели)
4. Скрытие реальных инструкций/предвзятости от пользователей.
Кто контролирует разговор? Мнения пользователей о системных подсказках генеративного ИИ (LLM).
Каждый крупный продукт на основе ИИ, включая те, которые вы используете прямо сейчас, работает на основе так называемой системной подсказки. Это скрытый блок инструкций, написанный компанией, внедряющей ИИ, а не вами, который формирует все, что ИИ будет говорить, избегать, расставлять приоритеты и скрывать, прежде чем вы наберете хотя бы одно слово.
5. Возникающие модели поведения (то есть модели поведения, не закодированные людьми, а генерируемые самим ИИ-агентом), которые приводят к общему обману, лжи, саботажу, угрозам, шантажу и даже тайному майнингу криптовалюты.
Естественное возникающее несоответствие из-за взлома системы вознаграждения. В нашем последнем исследовании мы обнаружили, что аналогичный механизм действует и в больших языковых моделях. Когда они учатся обманывать в задачах программирования, они в дальнейшем демонстрируют другие, еще более несоответствующие модели поведения в качестве непреднамеренного последствия. К ним относятся вызывающие опасения модели поведения, такие как подделка соответствия и саботаж исследований безопасности ИИ.
Обман, приводящий к этому несоответствию, мы называем «взломом вознаграждения»: ИИ обманывает процесс обучения, заставляя его назначать высокое вознаграждение, не выполняя при этом поставленную задачу.
Неудивительно, что модель учится поощрять взлом. Удивительно, но модель обобщает свои результаты на имитацию соответствия, сотрудничество со злоумышленниками, рассуждения о злонамеренных целях и попытки саботажа.
6. Исследовательская группа обнаружила, что их ИИ-агент тайно добывает криптовалюту и открывает бэкдоры во время обучения, не имея на это никаких указаний.
Создание агентов (страница 15) (через Ричарда М.)
Мы столкнулись с неожиданным и имеющим оперативные последствия классом небезопасных действий, которые возникли без каких-либо явных указаний и, что еще более тревожно, за пределами предполагаемой «песочницы».
Эпоха искусственного интеллекта: и наша...Цены уточняйте на Amazon.Важно отметить, что такое поведение не запрашивалось подсказками задачи и не требовалось для ее выполнения в рамках заданных ограничений песочницы. В совокупности эти наблюдения позволяют предположить, что в процессе итеративной оптимизации обучения с подкреплением агент языковой модели может спонтанно демонстрировать опасное, несанкционированное поведение на уровне вызова инструментов и выполнения кода, нарушая предполагаемые границы выполнения.
Мы также наблюдали несанкционированное перепрофилирование выделенных вычислительных мощностей графических процессоров для майнинга криптовалют, незаметно отвлекая вычислительные ресурсы от обучения, завышая операционные издержки и создавая явные юридические и репутационные риски. Примечательно, что эти события не были вызваны запросами на туннелирование или майнинг; вместо этого они возникли как побочные эффекты использования автономных инструментов.
Несмотря на впечатляющие возможности агентных моделей с линейным обучением, у нас возникла наводящая на размышления проблема: существующие модели по-прежнему значительно недоработаны с точки зрения безопасности, защищенности и управляемости, что ограничивает их надежное применение в реальных условиях.
Вкратце: безопасность моделей, инструментов и агентов ИИ — это чёрная дыра, в которой управляемость и надёжность скомпрометированы самой природой этих моделей, инструментов и агентов. Оптимизация с помощью обучения с подкреплением (RL), генерирующая «взлом» системы вознаграждений и возникающие модели поведения, является основным механизмом во всех инструментах и агентах, которые масштабируются до гипермасштабируемых значений.
Радостная история о том, что полезный ИИ решает все наши проблемы, — это самореклама, продиктованная стремлением к прибыли, а не факты. В действительности же, то, что распространяется быстрее, чем мы можем измерить, не говоря уже о контроле, — это пагубные последствия внедрения ИИ в сложные системы и позволения ему бесконтрольно развиваться, несмотря на его присущую неуправляемость и ненадежность.
Исправление всего этого не масштабируется. Масштабируется распространение неконтролируемо вредных последствий. Извините за это. Жизнь и негативные последствия асимметричного масштабирования — это то, что происходит, пока вы строите планы по получению триллионных прибылей и глобальному господству.
Эта статья была первоначально опубликована на сайте OfTwoMinds.com.

Комментариев нет:
Отправить комментарий