Una Red de Fusión de Características de Dos Extremos Ligera para la Estimación de Pose 6D de Objetos
Autores: Zuo, Ligang; Xie, Lun; Pan, Hang; Wang, Zhiliang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Una Red de Fusión de Características de Dos Extremos Ligera para la Estimación de Pose 6D de ObjetosCategoría
Tecnología de Equipos y Accesorios
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 13
Citaciones: Sin citaciones
Actualmente, muchos métodos de estimación de pose de objetos utilizan imágenes o nubes de puntos por sí solas para la estimación de pose. Esto lleva a su incapacidad para estimar con precisión la pose del objeto en caso de oclusión y mala iluminación. En segundo lugar, estos modelos tienen muchos parámetros y no se pueden implementar en dispositivos móviles. Por lo tanto, proponemos una red de fusión de características liviana de dos terminales, que puede utilizar de manera efectiva imágenes y nubes de puntos para una estimación precisa de la pose del objeto. Primero, se utiliza la red Pointno problemNet para extraer características de la nube de puntos. Luego, las características de la nube de puntos extraídas se combinan con las imágenes a nivel de píxel y las características se extraen mediante CNN. En segundo lugar, las características de la imagen extraídas se combinan con la nube de puntos punto por punto. Luego, se realiza la extracción de características utilizando la red mejorada PointNet++. Finalmente, se obtiene un conjunto de características de puntos centrales y se realiza la estimación de pose para cada característica. La pose con la mayor confianza se selecciona como el resultado final. Además, aplicamos convoluciones separables por profundidad para reducir la cantidad de parámetros del modelo. Los experimentos muestran que el método propuesto exhibe un mejor rendimiento en los conjuntos de datos Linemod y Occlusion Linemod. Además, los parámetros del modelo son pequeños y es robusto en situaciones de oclusión y poca luz.
Descripción
Actualmente, muchos métodos de estimación de pose de objetos utilizan imágenes o nubes de puntos por sí solas para la estimación de pose. Esto lleva a su incapacidad para estimar con precisión la pose del objeto en caso de oclusión y mala iluminación. En segundo lugar, estos modelos tienen muchos parámetros y no se pueden implementar en dispositivos móviles. Por lo tanto, proponemos una red de fusión de características liviana de dos terminales, que puede utilizar de manera efectiva imágenes y nubes de puntos para una estimación precisa de la pose del objeto. Primero, se utiliza la red Pointno problemNet para extraer características de la nube de puntos. Luego, las características de la nube de puntos extraídas se combinan con las imágenes a nivel de píxel y las características se extraen mediante CNN. En segundo lugar, las características de la imagen extraídas se combinan con la nube de puntos punto por punto. Luego, se realiza la extracción de características utilizando la red mejorada PointNet++. Finalmente, se obtiene un conjunto de características de puntos centrales y se realiza la estimación de pose para cada característica. La pose con la mayor confianza se selecciona como el resultado final. Además, aplicamos convoluciones separables por profundidad para reducir la cantidad de parámetros del modelo. Los experimentos muestran que el método propuesto exhibe un mejor rendimiento en los conjuntos de datos Linemod y Occlusion Linemod. Además, los parámetros del modelo son pequeños y es robusto en situaciones de oclusión y poca luz.