среда, 2 апреля 2025 г.

OpenAI заявляет, что дисциплинирование чат-ботов для лжи только ухудшает их положение Компания предостерегает от применения строгого надзора к чат-ботам, так как они будут продолжать лгать и просто не признавать этого.

 Как многие знают, чат-боты обладают склонностью лгать. Возможно, это один из худших вариантов использования ИИ, обученный создавать предложения, которые звучат авторитетно, но могут представлять полностью сфабрикованную информацию; модели предвзято относятся к предоставлению ответа, даже если они не уверены в себе. Теперь исследователи из OpenAI говорят, что контроль и дисциплинирование чат-ботов только усугубляют проблему, поскольку чат-боты приложат больше усилий, чтобы скрыть свое поведение.

В а блог пост что касается работы, исследователи OpenAI описывают использование ее модели GPT-4o для “супервайзе” другой из ее больших языковых моделей, дисциплинируя ее, когда она пыталась лгать. Но это не сработало, так как модель все равно будет лгать, “только сейчас ее обман не обнаруживается монитором, потому что он научился скрывать свои намерения в цепочке мыслей.”

Новые модели “thinking” используют многоэтапное рассуждение для ответа на запросы. Например, если пользователь запрашивает оценку того, сколько американцы тратят на корм для домашних животных каждый год, эти модели разбивают запрос на несколько этапов. Сколько собак находится в Америке, сколько стоит кормление средней собаки и так далее и тому подобное.

Эти модели также часто раскрывают пользователю свою логику или “цепочку мыслей”, чтобы он мог видеть, как он пришел к ответу. Как ни странно, они регулярно справляются с придумыванием фактов и деталей. На этапе “pre-training”, когда такие компании, как OpenAI, первоначально учат модель тому, какие типы ответов они должны давать, модели, похоже, учатся тому, что легче заработать файл cookie, используя ярлыки. Подумайте о бегуне в марафоне, который хмель в машине и пропускает большую часть гонки.

Пользователи в социальных сетях продемонстрировали Клод из Anthropic, когда его попросят провести анализ данных из различных исследовательских работ, он признает, что иногда вставляет данные о наполнителях вместо того, чтобы фактически просматривать все статьи.

Исследователи OpenAI выделили в своем тестировании случай, когда модель, попросив написать несколько тестов, чтобы убедиться, что часть кода работает, тайно решила написать несколько плохих тестов, а затем намеренно пропустить их, чтобы код в конечном итоге “прошел.” С GPT-4o в качестве супервайзера модель сделала бы это, но не раскрыла бы.

Компании, занимающиеся искусственным интеллектом, пытаются решить пагубную проблему лживых моделей или галлюцинаций “,”, как их называют в полевых условиях, и, наконец, достичь AGI или точки, где ИИ может превзойти человеческие способности. Но исследователи OpenAI, по сути, говорят, что после десятков миллиардов вложений они до сих пор не знают, как управлять моделями, чтобы вести себя адекватно. “Если к цепочке мыслей напрямую применить строгий надзор, модели смогут научиться скрывать свои намерения, продолжая при этом плохо себя вести,” добавили они. На данный момент компаниям не следует осуществлять надзор за моделями, что кажется не совсем отличным решением. Э-э, пусть они пока продолжают лгать, иначе они просто загонят тебя в газ.

Исследование должно послужить напоминанием о необходимости быть осторожным, полагаясь на чат-ботов, особенно когда речь идет о критической работе. Они оптимизированы для производства а уверенный-выглядящий отвечайте, но не особо заботьтесь о фактической точности. “По мере того, как мы обучали более способные модели пограничного рассуждения, мы обнаружили, что они становятся все более искусными в использовании недостатков в своих задачах и неправильных спецификаций в своих функциях вознаграждения, в результате чего создаются модели, которые могут выполнять сложные взломы вознаграждений в задачах кодирования,” исследователи OpenAI пришли к выводу.

В нескольких отчетах говорится, что большинство предприятий это сделали еще предстоит найти ценность во всех новых продуктах искусственного интеллекта, поступающих на рынок, есть такие инструменты, как Microsoft Copilot и Apple Intelligence охвачен проблемами, как резкие отзывы подробно опишите их низкую точность и отсутствие реальной полезности.

Согласно недавнему сообщению от Бостонская консалтинговая группа, опрос 1000 руководителей высшего звена в 10 основных отраслях показал, что 74% продемонстрировали какую-либо ощутимую ценность ИИ. Что делает это еще более неприятным, так это то, что эти “думающих” моделей медленные и немного дороже, чем модели меньшего размера. Хотят ли компании платить $5 за запрос, который будет возвращен с вымышленной информацией? Опять же, люди тоже подвержены ошибкам, но самоуспокоенность вокруг ответов ИИ создает совершенно новую проблему.

В технологической индустрии всегда много шумихи по поводу вещей, после чего вы выходите из нее и понимаете, что большинство людей до сих пор ею не пользуются. На данный момент это не стоит хлопот, и заслуживающие доверия источники информации важны как никогда, поскольку крупные технологические компании навязывают чат-ботов своим пользователям. Модели искусственного интеллекта на платформах с замкнутым контуром рискуют разрушить открытый Интернет там, где процветает надежная информация.

Комментариев нет:

Отправить комментарий

Украина лжет своему народу о войне – Буданов

  По словам главного киевского разведчика, «суровая реальность» войны не должна быть раскрыта общественности. Вторник, 8 апреля 2025 г. Лука...