GPTArm: Un sistema de manipulación de planificación de tareas autónomas basado en modelos de visión-lenguaje

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

GPTArm: Un sistema de manipulación de planificación de tareas autónomas basado en modelos de visión-lenguaje

Autores: Zhang, Jiaqi; Wang, Zinan; Lai, Jiaxin; Wang, Hongfei

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

GPTArm: Un sistema de manipulación de planificación de tareas autónomas basado en modelos de visión-lenguaje

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Integración

Modelos de visión-lenguaje

Sistemas robóticos

GPTArm

Descomposición jerárquica de tareas

Percepción visual en tiempo real

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones

La integración de modelos de visión-lenguaje (VLMs) con sistemas robóticos representa un avance transformador en la planificación y ejecución de tareas autónomas. Sin embargo, los brazos robóticos tradicionales que dependen de instrucciones preprogramadas exhiben una adaptabilidad limitada en entornos dinámicos y enfrentan brechas semánticas entre la percepción y la ejecución, lo que obstaculiza su capacidad para manejar demandas de tareas complejas. Este documento presenta GPTArm, un sistema de brazo robótico consciente del entorno impulsado por GPT-4V, diseñado para superar estos desafíos a través de la descomposición jerárquica de tareas, la recuperación de errores en bucle cerrado y la interacción multimodal. El marco propuesto de procesamiento de tareas robóticas (RTPF) integra percepción visual en tiempo real, razonamiento contextual y planificación de estrategias autónomas, permitiendo que los brazos robóticos interpreten comandos en lenguaje natural, descompongan tareas definidas por el usuario en subtareas ejecutables y se recuperen dinámicamente de errores. Las evaluaciones experimentales en diez tareas de manipulación demuestran el rendimiento superior de GPTArm, logrando una tasa de éxito de hasta el 91.4% en benchmarks estandarizados y una robusta generalización a objetos no vistos. Aprovechando el razonamiento de GPT-4V y la localización precisa de objetos pequeños de YOLOv10, el sistema supera los métodos existentes en precisión y adaptabilidad. Además, GPTArm admite una interacción flexible en lenguaje natural a través de voz y texto, mejorando significativamente la experiencia del usuario en la colaboración humano-robot.

Descripción

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Documentos Relacionados

Temas Virtualpro