Автор: Джиджо Малайил через Interest Engineering ,
Китайская компания Alibaba запустила свою первую линейку моделей воплощенного искусственного интеллекта, которая связывает большие языковые модели с реальными действиями роботов.

Пакет программ Qwen-Robot был разработан лабораторией Tongyi Lab компании Alibaba и в настоящее время проходит пилотное тестирование с участием избранных корпоративных клиентов Alibaba Cloud.
В состав пакета входят три модели, ориентированные на навигацию, манипулирование и моделирование окружающего мира для роботов, работающих в физической среде.
Компания Alibaba заявила, что эти модели позволяют машинам воспринимать, рассуждать и взаимодействовать с реальным миром , присоединяясь к растущей глобальной тенденции к развитию воплощенного искусственного интеллекта за пределы традиционных приложений чат-ботов.
Роботы встречаются с логикой.
Компания Alibaba заявляет, что семейство моделей искусственного интеллекта Qwen очень хорошо понимает физический мир. Эти модели могут распознавать объекты, понимать пространственные отношения, следовать сложным визуальным инструкциям и рассуждать об условиях реального мира. Например, модель может понять команду типа: «Иди на кухню, найди красную чашку, возьми ее и поставь на полку».
Однако понимание задачи отличается от её фактического выполнения. Хотя модель «зрение-язык» (VLM) может описать шаги, необходимые для выполнения задачи, она не может напрямую управлять движениями робота.
Задача состоит в том, чтобы связать человеческий язык и визуальное восприятие с двигательными действиями, необходимыми для взаимодействия с физическим миром.
Эта проблема сложна, потому что данные для обучения роботов сильно отличаются от данных из интернета. Информация, собранная с помощью навигационных систем, роботизированных манипуляторов, транспортных средств и камер, поступает в различных форматах и её сбор обходится дорого. Простое объединение всех этих данных часто приводит к конфликтам, а не к улучшению производительности.
Для решения этой проблемы Alibaba разработала пакет Qwen-Robot Suite, включающий три специализированные модели. Qwen-RobotNav ориентирован на движение и навигацию. Он помогает роботам следовать инструкциям, добираться до нужных мест, отслеживать цели и поддерживать автономное вождение.
Согласно информации на своем веб-сайте , Qwen-RobotManip фокусируется на физическом взаимодействии . Он позволяет роботам захватывать, перемещать и манипулировать объектами, используя большой обучающий набор данных, собранный с различных роботизированных систем. Qwen-RobotWorld выступает в качестве модели мира, прогнозируя, как может измениться окружающая среда, и помогая роботам понимать вероятные результаты своих действий.
В совокупности эти модели призваны дать роботам возможность понимать инструкции, взаимодействовать с объектами, ориентироваться в окружающей среде и принимать решения в реальном мире.
Физический ИИ ускоряет
Компания Alibaba продемонстрировала робота Qwen-RobotNav на четвероногом роботе Unitree Go2, работающем на базе аппаратного обеспечения NVIDIA Jetson Thor и оснащенном одной камерой низкого разрешения. Робот успешно передвигался по незнакомой квартире, следуя голосовым инструкциям в нескольких комнатах без предварительно загруженных карт, при этом задержка обработки информации составила 196 миллисекунд.
Компания утверждает, что Qwen-RobotManip, её модель роботизированного манипулирования, была обучена на более чем 38 000 часах данных из открытых источников, охватывающих задачи обработки объектов и взаимодействия с ними . По данным Alibaba, модель недавно достигла наивысшего результата в категории универсальных роботов в рамках реального бенчмарка робототехники RoboChallenge, получив оценку процесса 59,83 и показатель успешности выполнения задачи в 45 процентов.
Компания также представила Qwen-RobotClaw, платформу для роботизированных агентов, которая позволяет моделям Qwen использовать пакет Qwen-Robot в качестве инструментов для работы в реальном мире. В одной из демонстраций агент искал туалет, обнаружил неработающую вывеску и самостоятельно перенаправился в другое место. Кроме того, Alibaba открыла исходный код Chat2Robot, браузерной платформы для тестирования взаимодействия с искусственным интеллектом.
В условиях усиливающейся конкуренции в сфере воплощенного искусственного интеллекта во всем мире, Alibaba расширила свои амбиции за пределы языкового и мультимодального программного обеспечения, запустив модели Qwen-Robot. Этот шаг отражает более широкий сдвиг в отрасли в сторону создания систем искусственного интеллекта, способных понимать физический мир и взаимодействовать с ним.
Действия Alibaba происходят на фоне усиления конкуренции в области физического искусственного интеллекта во всем мире. В США Google DeepMind развивает Gemini Robotics, а Nvidia расширяет свою робототехническую экосистему с помощью Cosmos, Isaac и GR00T. По данным South China Morning Post , стартапы, включая Physical Intelligence, Skild AI и Figure AI, также разрабатывают роботизированный интеллект общего назначения .
Китай укрепляет свои позиции, сочетая преимущества в обрабатывающей промышленности с растущими инвестициями в программное обеспечение на основе искусственного интеллекта для автономного принятия решений. В настоящее время этот сектор охватывает разработчиков ИИ, компании, занимающиеся робототехникой, и производителей электромобилей. Такие компании, как Alibaba, Tencent, Unitree, AgiBot, UBTech, Galbot, Spirit AI, GigaAI, Xpeng и Xiaomi, активно разрабатывают технологии воплощенного искусственного интеллекта.
Комментариев нет:
Отправить комментарий