GPTArm: Un sistema de manipulación de planificación de tareas autónomas basado en modelos de visión-lenguaje
Autores: Zhang, Jiaqi; Wang, Zinan; Lai, Jiaxin; Wang, Hongfei
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
Categoría
Tecnología de Equipos y Accesorios
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 12
Citaciones: Sin citaciones
La integración de modelos de visión-lenguaje (VLMs) con sistemas robóticos representa un avance transformador en la planificación y ejecución de tareas autónomas. Sin embargo, los brazos robóticos tradicionales que dependen de instrucciones preprogramadas exhiben una adaptabilidad limitada en entornos dinámicos y enfrentan brechas semánticas entre la percepción y la ejecución, lo que obstaculiza su capacidad para manejar demandas de tareas complejas. Este documento presenta GPTArm, un sistema de brazo robótico consciente del entorno impulsado por GPT-4V, diseñado para superar estos desafíos a través de la descomposición jerárquica de tareas, la recuperación de errores en bucle cerrado y la interacción multimodal. El marco propuesto de procesamiento de tareas robóticas (RTPF) integra percepción visual en tiempo real, razonamiento contextual y planificación de estrategias autónomas, permitiendo que los brazos robóticos interpreten comandos en lenguaje natural, descompongan tareas definidas por el usuario en subtareas ejecutables y se recuperen dinámicamente de errores. Las evaluaciones experimentales en diez tareas de manipulación demuestran el rendimiento superior de GPTArm, logrando una tasa de éxito de hasta el 91.4% en benchmarks estandarizados y una robusta generalización a objetos no vistos. Aprovechando el razonamiento de GPT-4V y la localización precisa de objetos pequeños de YOLOv10, el sistema supera los métodos existentes en precisión y adaptabilidad. Además, GPTArm admite una interacción flexible en lenguaje natural a través de voz y texto, mejorando significativamente la experiencia del usuario en la colaboración humano-robot.
Descripción
La integración de modelos de visión-lenguaje (VLMs) con sistemas robóticos representa un avance transformador en la planificación y ejecución de tareas autónomas. Sin embargo, los brazos robóticos tradicionales que dependen de instrucciones preprogramadas exhiben una adaptabilidad limitada en entornos dinámicos y enfrentan brechas semánticas entre la percepción y la ejecución, lo que obstaculiza su capacidad para manejar demandas de tareas complejas. Este documento presenta GPTArm, un sistema de brazo robótico consciente del entorno impulsado por GPT-4V, diseñado para superar estos desafíos a través de la descomposición jerárquica de tareas, la recuperación de errores en bucle cerrado y la interacción multimodal. El marco propuesto de procesamiento de tareas robóticas (RTPF) integra percepción visual en tiempo real, razonamiento contextual y planificación de estrategias autónomas, permitiendo que los brazos robóticos interpreten comandos en lenguaje natural, descompongan tareas definidas por el usuario en subtareas ejecutables y se recuperen dinámicamente de errores. Las evaluaciones experimentales en diez tareas de manipulación demuestran el rendimiento superior de GPTArm, logrando una tasa de éxito de hasta el 91.4% en benchmarks estandarizados y una robusta generalización a objetos no vistos. Aprovechando el razonamiento de GPT-4V y la localización precisa de objetos pequeños de YOLOv10, el sistema supera los métodos existentes en precisión y adaptabilidad. Además, GPTArm admite una interacción flexible en lenguaje natural a través de voz y texto, mejorando significativamente la experiencia del usuario en la colaboración humano-robot.