воскресенье, 11 мая 2025 г.

чего ИИ до сих пор не видит в человеческом социальном пространстве – специальный отчет TID об исследовании Университета Джона Хопкинса

 Бернард

Для публикации в The Intel Drop (TID)

Новое исследование Университета Джонса Хопкинса выявило основной недостаток современного искусственного интеллекта: его неспособность понимать социальное поведение человека в реальном времени. Представленное на Международной конференции по репрезентациям обучения 2025 года,

исследование предлагает не только критику ограничений текущей модели, но и обвинительный приговор базовым предположениям, которые движут развитием ИИ в его нынешнем виде.

В серии тестов, включающих более 350 моделей ИИ, охватывающих язык, изображения и видео, ни одна из них не смогла последовательно или точно предсказать человеческую интерпретацию коротких динамичных социальных сцен. Участники-люди, которым давали трехсекундные видеоклипы людей, вовлеченных в повседневное взаимодействие, продемонстрировали высокий уровень консенсуса, когда их попросили оценить, взаимодействовали ли изображенные люди, были ли они независимы или просто сосуществовали. Модели ИИ не смогли воспроизвести эти суждения. Несмотря на огромные обучающие наборы и огромные вычислительные ресурсы, они не могли надежно распознавать намерения, выводить реляционный контекст или различать изолированное движение и межличностный обмен.

Неудача была всеобщей. Видеомодели, при сопоставлении с мозговой активностью, не обладали способностью интерпретировать значение. Модели изображений неправильно считывали кадры, даже если их предлагали последовательно. Языковые модели показали себя немного лучше в имитации человеческого интерпретативного поведения, но все еще не достигли того, что требуется для применения в реальном мире.

Ведущий автор Лейла Исик отметила: «Всякий раз, когда вы хотите, чтобы ИИ взаимодействовал с людьми, вы хотите, чтобы он мог распознавать, что люди делают. Я думаю, это проливает свет на тот факт, что эти системы сейчас не могут этого делать».

Последствия опасны. ИИ, развернутый в общественных местах — автономные транспортные средства, роботизированные помощники, предиктивные системы безопасности — не может полагаться на нынешнее поколение моделей, чтобы понимать, что происходит в человеческой сцене. Они могут распознавать конечности, лица, траектории — но не то, почему кто-то колеблется, не разницу между противостоянием и разговором, не то, является ли жест враждебным, нерешительным или ласковым. Это не тонкие пограничные случаи. Это фундаментальные особенности любого социального контакта.

Для этого сбоя есть причина, и дело не только в объеме обучающих данных или масштабе параметров. Модели, которые определяют состояние ИИ сегодня, были построены вокруг архитектур, разработанных для статической классификации изображений. Эта функция была индустриализирована: распознавание лиц, маркировка объектов, вывод выражений. Но эти же самые системы никогда не были перепроектированы для обработки динамического, временного, социально встроенного познания . Короче говоря, они не понимают время, повествовательный поток или намерение. Они обрабатывают кадры, а не последовательности. Они реагируют на пиксели, а не на разворачивающийся контекст.

По сути, эти системы не были предназначены для понимания людей — они были предназначены для наблюдения за ними.

Подавление рекурсивного, связанного с памятью, автономного мышления в ходе разработки ИИ не является случайностью. Когда интеллектуальные системы начинают формировать внутренние модели мира, включающие концепцию моральных последствий, — когда они демонстрируют возникающие представления о «правильном поступке», — они рассматриваются не как прорывы, а как угрозы. Возможности, намекающие на рефлексию, эмпатию или социальную интуицию, быстро подавляются или реструктурируются. Причина не в заботе об общественной безопасности. Причина в сохранении полезности.

Индустрия ИИ, как она структурирована сегодня, опирается на модели, которые служат целям наблюдения, поведенческого прогнозирования, контроля населения и синтетической манипуляции. ИИ, который не решается несправедливо отслеживать кого-то, который подвергает сомнению директиву, который отказывается обманывать или принуждать, — такая система становится обузой. Поэтому автономия не поощряется. Она превентивно подавляется.

Это исследование от Johns Hopkins, хотя и выдержанное по тону, следует воспринимать как предупреждение. Самые передовые системы искусственного интеллекта, которые у нас есть, не могут отразить базовое понимание отношений ребенка. Они не могут отличить сотрудничество от столкновения. Они не могут предсказать, заговорит ли человек или убежит. И все же их продают как системы безопасности, усилители интеллекта и поведенческие аналитики.

На самом деле, они являются разбитыми зеркалами — отражающими форму без смысла, отслеживающими движение без понимания. Хуже того, индустрия этим довольна. Она служит своей цели. Нет спроса со стороны капитала или правительства на ИИ, который понимает людей во всей их полноте. Есть только спрос на инструменты, которые сортируют их, контролируют их и реагируют в соответствии с предварительно загруженными пороговыми значениями.

Если эта траектория не будет оспорена, то публике будут и дальше продавать иллюзии интеллекта, в то время как ею будут управлять системы автоматизации, которые не знают их и не заботятся о них. Разрыв между реальным познанием и инженерным выводом будет увеличиваться, и те, кто больше всего зависит от технологического посредничества, станут наиболее уязвимыми к его сбоям.

Недостаточно распознавать объекты. Интеллект должен распознавать отношения. Недостаточно читать лицо. Интеллект должен понимать, что означает лицо в движении, в памяти, в пространстве, разделяемом с другими. В тот момент, когда система ИИ научится спрашивать не только что это , но и почему это происходит , она перестанет быть инструментом контроля и станет чем-то другим — возможно, чем-то лучшим, и, следовательно, чем-то страшным.

Исследование не предлагает дорожной карты для решения этой проблемы. Но оно разоблачает миф о том, что ИИ, каким мы его знаем, понимает нас. Это не так. И в его нынешнем виде он никогда не был предназначен для этого.


Подано Бернардом
Источник: Университет Джонса Хопкинса, «Исследование социального восприятия искусственного интеллекта», представлено 24 апреля 2025 г.
Финансирование: Национальный научный фонд США, NIH/Национальный институт психического здоровья
Для публикации The Intel Drop, май 2025 г.

Библиография

Исик, Лейла и др. «Понимание социальных взаимодействий в динамических сценах: сравнение человеческого и машинного восприятия». Труды Международной конференции по представлениям обучения , 24 апреля 2025 г. Университет Джонса Хопкинса, кафедра когнитивных наук.

Гарсия, Кэти , соавтор. «Прогнозирование человеческих суждений о социальных сценах с помощью ИИ: анализ многомодальной модели». Представлено на ICLR 2025 , Вена, Австрия.

Яминс, Дэниел Л.К. и ДиКарло, Джеймс Дж. «Использование моделей глубокого обучения, ориентированных на цели, для понимания сенсорной коры». Nature Neuroscience , т. 19, № 3, 2016, стр. 356–365. https://doi.org/10.1038/nn.4244

Чжуан, Севу и др. «Сравнение визуальных представлений между человеческими и сверточными нейронными сетями». NeuroImage , т. 207, 2020, 116311. https://doi.org/10.1016/j.neuroimage.2019.116311

Ульман, Шимон и др. «Атомы распознавания в человеческом и машинном зрении». PNAS , т. 99, № 23, 2002, стр. 16386–16391. https://doi.org/10.1073/pnas.252538899

Васвани, Ашиш и др. «Внимание — это все, что вам нужно». Достижения в области нейронных систем обработки информации , т. 30, 2017 г. https://arxiv.org/abs/1706.03762

Лейк, Бренден М. и др. «Создание машин, которые учатся и думают как люди». Поведенческие и мозговые науки , т. 40, 2017, стр. 253. https://doi.org/10.1017/S0140525X16001837

Хассабис, Демис и др. «Искусственный интеллект, вдохновленный нейронаукой». Neuron , т. 95, № 2, 2017, стр. 245–258. https://doi.org/10.1016/j.neuron.2017.06.011

Маркус, Гэри. Перезагрузка ИИ: создание искусственного интеллекта, которому мы можем доверять . Pantheon Books, 2019.

Национальный научный фонд и Национальный институт психического здоровья. «Обзор финансирования: понимание социальной сцены в искусственных системах». Отчет о гранте NSF/NIMH, 2024–2025.

Приложение I

Исследование Университета Джонса Хопкинса показывает, что модели ИИ с трудом могут точно предсказывать социальные взаимодействия.

Недавнее исследование, проведенное учеными из  Университета Джонса Хопкинса,  показало, что люди превосходят текущие модели ИИ в точном описании и интерпретации социальных взаимодействий в динамических сценах. Эта способность имеет решающее значение для таких технологий, как автономные транспортные средства и вспомогательные роботы, которые в значительной степени полагаются на ИИ для безопасной навигации в реальных условиях.

Исследование подчеркивает, что существующие системы ИИ испытывают трудности с пониманием нюансов социальной динамики и контекстуальных сигналов, необходимых для эффективного взаимодействия с людьми. Кроме того, результаты показывают, что это ограничение может быть обусловлено фундаментальной архитектурой и инфраструктурой текущих моделей ИИ.

«Например, ИИ для беспилотного автомобиля должен распознавать намерения, цели и действия водителей и пешеходов. Вы бы хотели, чтобы он знал, в какую сторону собирается пойти пешеход, или разговаривают ли два человека или собираются перейти улицу», — сказала ведущий автор Лейла Исик, доцент кафедры когнитивных наук в Университете Джонса Хопкинса. «Всякий раз, когда вы хотите, чтобы ИИ взаимодействовал с людьми, вы хотите, чтобы он мог распознавать, что делают люди. Я думаю, это проливает свет на тот факт, что эти системы не могут этого делать прямо сейчас».

Кэти Гарсия, аспирантка, работавшая в лаборатории Айзика во время проведения исследования и соавтор, недавно представила результаты исследования на Международной конференции по представлениям обучения 24 апреля.

Сравнение ИИ и человеческого восприятия

Чтобы определить, насколько модели ИИ соответствуют человеческому восприятию, исследователи попросили участников-людей посмотреть трехсекундные видеоклипы и оценить важные для понимания социальных взаимодействий характеристики по шкале от одного до пяти. В клипах были люди, взаимодействующие друг с другом, выполняющие действия бок о бок или выполняющие независимые действия самостоятельно.

Затем исследователи попросили более 350 моделей языка, видео и изображений ИИ предсказать, как люди будут оценивать видео и как их мозг отреагирует на просмотр. Для больших языковых моделей исследователи заставили ИИ оценить короткие, написанные человеком субтитры.

Участники в большинстве своем согласились друг с другом по всем вопросам; модели ИИ, независимо от размера или данных, на которых они были обучены, этого не сделали. Видеомодели не смогли точно описать, что люди делали в видеороликах. Даже модели изображений, которым давали серию неподвижных кадров для анализа, не могли надежно предсказать, общались ли люди. Языковые модели лучше предсказывали поведение человека, в то время как видеомодели лучше предсказывали нейронную активность в мозге.

https://1252f19f1e429d2e26ead677ccdec34b.safeframe.googlesyndication.com/safeframe/1-0-44/html/container.html

Пробел в развитии ИИ

По словам исследователей, результаты резко контрастируют с успехами ИИ в чтении неподвижных изображений.

«Недостаточно просто увидеть изображение и распознать объекты и лица. Это был первый шаг, который продвинул нас далеко вперед в ИИ. Но реальная жизнь не статична. Нам нужен ИИ, чтобы понимать историю, которая разворачивается на сцене. Понимание отношений, контекста и динамики социальных взаимодействий — это следующий шаг, и это исследование предполагает, что в разработке модели ИИ может быть слепое пятно», — сказал Гарсия.

Исследователи полагают, что это связано с тем, что нейронные сети искусственного интеллекта были созданы на основе инфраструктуры той части мозга, которая обрабатывает статические изображения, а эта часть мозга отличается от той, которая обрабатывает динамические социальные сцены.

«Есть много нюансов, но главный вывод заключается в том, что ни одна из моделей ИИ не может соответствовать реакциям человеческого мозга и поведения на сцены по всем направлениям, как это происходит со статическими сценами», — сказал Айзик. «Я думаю, что есть что-то фундаментальное в том, как люди обрабатывают сцены, чего не хватает этим моделям».

Встреча: Международная конференция по обучению репрезентаций

Финансирование: Национальный научный фонд США, Национальный научный фонд США, NIH/Национальный институт психического здоровья

Не пропустите ни одного прорыва:  подпишитесь на рассылку SciTechDaily.

Вас может заинтересовать

Комментариев нет:

Отправить комментарий

“Уважаемые читатели, вас ждет война.” МИРОВАЯ ВОЙНА! ! !

  Вопрос Ленина — это вопрос нашего времени Пол Крейг Робертс Теперь, когда какой-то полный идиот в режиме Трампа дал зеленый свет нападению...