Aprehendiendo objetos de forma compleja y delgados utilizando una red neuronal convolucional generativa para la sujeción
Autores: Kim, Jaeseok; Nocentini, Olivia; Bashir, Muhammad Zain; Cavallo, Filippo
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 8
Citaciones: Sin citaciones
La detección de pose basada en visión y la manipulación de objetos de formas complejas y delgadas son tareas desafiantes. Proponemos una arquitectura que integra la Red Neuronal Convolucional Generativa de Agarre (GG-CNN) con el reconocimiento de profundidad para identificar una pose de agarre adecuada. Primero, construimos un conjunto de datos de entrenamiento con aumento de datos para entrenar una GG-CNN solo con imágenes RGB. Luego, extraemos un segmento de la herramienta utilizando un método de segmentación de color y lo usamos para calcular una profundidad promedio. Además, aplicamos y evaluamos diferentes modelos de codificador-decodificador con una estructura de GG-CNN utilizando la Intersección sobre la Unión (IOU). Finalmente, validamos la arquitectura propuesta realizando experimentos de agarre y recogida y colocación en el mundo real. Nuestro marco logra una tasa de éxito de más del 85.6% para recoger y colocar herramientas quirúrgicas vistas y del 90% para herramientas quirúrgicas no vistas. Recopilamos un conjunto de datos de herramientas quirúrgicas y validamos su recogida y colocación con diferentes arquitecturas de GG-CNN. En el futuro, nuestro objetivo es ampliar el conjunto de datos de herramientas quirúrgicas y mejorar la precisión de la GG-CNN.
Descripción
La detección de pose basada en visión y la manipulación de objetos de formas complejas y delgadas son tareas desafiantes. Proponemos una arquitectura que integra la Red Neuronal Convolucional Generativa de Agarre (GG-CNN) con el reconocimiento de profundidad para identificar una pose de agarre adecuada. Primero, construimos un conjunto de datos de entrenamiento con aumento de datos para entrenar una GG-CNN solo con imágenes RGB. Luego, extraemos un segmento de la herramienta utilizando un método de segmentación de color y lo usamos para calcular una profundidad promedio. Además, aplicamos y evaluamos diferentes modelos de codificador-decodificador con una estructura de GG-CNN utilizando la Intersección sobre la Unión (IOU). Finalmente, validamos la arquitectura propuesta realizando experimentos de agarre y recogida y colocación en el mundo real. Nuestro marco logra una tasa de éxito de más del 85.6% para recoger y colocar herramientas quirúrgicas vistas y del 90% para herramientas quirúrgicas no vistas. Recopilamos un conjunto de datos de herramientas quirúrgicas y validamos su recogida y colocación con diferentes arquitecturas de GG-CNN. En el futuro, nuestro objetivo es ampliar el conjunto de datos de herramientas quirúrgicas y mejorar la precisión de la GG-CNN.