VSLAM semántico en 3D de entornos interiores basado en Mask Scoring RCNN
Autores: Tao, Chongben; Jin, Yufeng; Cao, Feng; Zhang, Zufeng; Li, Chunguang; Gao, Hanwen
Idioma: Inglés
Editor: Hindawi
Año: 2020
Acceso abierto
Artículo científico
Categoría
Matemáticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Ante la existencia de algoritmos de Visual SLAM (VSLAM) al construir un mapa semántico del entorno interior, surgen problemas de baja precisión y baja precisión en la clasificación de etiquetas cuando los puntos característicos son escasos. En este artículo se propone un algoritmo 3D semántico VSLAM llamado BMASK-RCNN basado en Mask Scoring RCNN. En primer lugar, los puntos característicos de las imágenes son extraídos mediante el algoritmo Binary Robust Invariant Scalable Keypoints (BRISK). En segundo lugar, los puntos del mapa del fotograma clave de referencia se proyectan al fotograma actual para el emparejamiento de características y la estimación de la pose, y se utiliza un filtro de profundidad inversa para estimar la profundidad de la escena del fotograma clave creado y obtener los cambios de la pose de la cámara. Para lograr la detección de objetos y la segmentación semántica tanto de objetos estáticos como dinámicos en entornos interiores y luego construir un mapa semántico 3D denso con el
Descripción
Ante la existencia de algoritmos de Visual SLAM (VSLAM) al construir un mapa semántico del entorno interior, surgen problemas de baja precisión y baja precisión en la clasificación de etiquetas cuando los puntos característicos son escasos. En este artículo se propone un algoritmo 3D semántico VSLAM llamado BMASK-RCNN basado en Mask Scoring RCNN. En primer lugar, los puntos característicos de las imágenes son extraídos mediante el algoritmo Binary Robust Invariant Scalable Keypoints (BRISK). En segundo lugar, los puntos del mapa del fotograma clave de referencia se proyectan al fotograma actual para el emparejamiento de características y la estimación de la pose, y se utiliza un filtro de profundidad inversa para estimar la profundidad de la escena del fotograma clave creado y obtener los cambios de la pose de la cámara. Para lograr la detección de objetos y la segmentación semántica tanto de objetos estáticos como dinámicos en entornos interiores y luego construir un mapa semántico 3D denso con el