logo móvil
Contáctanos

GPTArm: Un sistema de manipulación de planificación de tareas autónomas basado en modelos de visión-lenguaje

Autores: Zhang, Jiaqi; Wang, Zinan; Lai, Jiaxin; Wang, Hongfei

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Integración
Modelos de visión-lenguaje
Sistemas robóticos
GPTArm
Descomposición jerárquica de tareas
Percepción visual en tiempo real

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones


Descripción
La integración de modelos de visión-lenguaje (VLMs) con sistemas robóticos representa un avance transformador en la planificación y ejecución de tareas autónomas. Sin embargo, los brazos robóticos tradicionales que dependen de instrucciones preprogramadas exhiben una adaptabilidad limitada en entornos dinámicos y enfrentan brechas semánticas entre la percepción y la ejecución, lo que obstaculiza su capacidad para manejar demandas de tareas complejas. Este documento presenta GPTArm, un sistema de brazo robótico consciente del entorno impulsado por GPT-4V, diseñado para superar estos desafíos a través de la descomposición jerárquica de tareas, la recuperación de errores en bucle cerrado y la interacción multimodal. El marco propuesto de procesamiento de tareas robóticas (RTPF) integra percepción visual en tiempo real, razonamiento contextual y planificación de estrategias autónomas, permitiendo que los brazos robóticos interpreten comandos en lenguaje natural, descompongan tareas definidas por el usuario en subtareas ejecutables y se recuperen dinámicamente de errores. Las evaluaciones experimentales en diez tareas de manipulación demuestran el rendimiento superior de GPTArm, logrando una tasa de éxito de hasta el 91.4% en benchmarks estandarizados y una robusta generalización a objetos no vistos. Aprovechando el razonamiento de GPT-4V y la localización precisa de objetos pequeños de YOLOv10, el sistema supera los métodos existentes en precisión y adaptabilidad. Además, GPTArm admite una interacción flexible en lenguaje natural a través de voz y texto, mejorando significativamente la experiencia del usuario en la colaboración humano-robot.

Documentos Relacionados

Temas Virtualpro