Simulación a Realidad Aprendizaje Profundo por Refuerzo para la Planificación Segura de Extremo a Extremo de Robots Aéreos
Autores: Ugurlu, Halil Ibrahim; Pham, Xuan Huy; Kayacan, Erdal
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Propuesto
Aprendizaje por refuerzo profundo
Sin obstáculos
Política de entrenamiento
Simulador Webots
Capacidad de generalización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
En este estudio, se propone un novedoso algoritmo de planificación de rutas de extremo a extremo basado en el aprendizaje por refuerzo profundo para robots aéreos desplegados en entornos densos. El agente de aprendizaje encuentra un camino libre de obstáculos alrededor de la ruta global proporcionada, dependiendo únicamente de las observaciones de una cámara de profundidad orientada hacia adelante. Se propone un nuevo marco de aprendizaje por refuerzo profundo para entrenar la política de extremo a extremo con la capacidad de evitar obstáculos de manera segura. Se utiliza el simulador de robots de código abierto Webots para entrenar la política, introduciendo configuraciones ambientales altamente aleatorizadas para una mejor generalización. El entrenamiento se realiza sin cálculos de dinámica a través de actualizaciones de posición aleatorizadas para minimizar la cantidad de datos procesados. La política entrenada se evalúa primero de manera exhaustiva en simulaciones que involucran dinámicas físicas y control de vuelo en bucle de software. Se ha demostrado que el método propuesto tiene una tasa de éxito un 38% y un 50% más alta en comparación con las líneas base basadas en aprendizaje por refuerzo profundo y campos potenciales artificiales, respectivamente. La capacidad de generalización del método se verifica en la transferencia de simulación a realidad sin entrenamiento adicional. Se realizan experimentos en tiempo real con varios ensayos en dos escenarios diferentes, mostrando una tasa de éxito un 50% más alta del método propuesto en comparación con la línea base basada en aprendizaje por refuerzo profundo.
Descripción
En este estudio, se propone un novedoso algoritmo de planificación de rutas de extremo a extremo basado en el aprendizaje por refuerzo profundo para robots aéreos desplegados en entornos densos. El agente de aprendizaje encuentra un camino libre de obstáculos alrededor de la ruta global proporcionada, dependiendo únicamente de las observaciones de una cámara de profundidad orientada hacia adelante. Se propone un nuevo marco de aprendizaje por refuerzo profundo para entrenar la política de extremo a extremo con la capacidad de evitar obstáculos de manera segura. Se utiliza el simulador de robots de código abierto Webots para entrenar la política, introduciendo configuraciones ambientales altamente aleatorizadas para una mejor generalización. El entrenamiento se realiza sin cálculos de dinámica a través de actualizaciones de posición aleatorizadas para minimizar la cantidad de datos procesados. La política entrenada se evalúa primero de manera exhaustiva en simulaciones que involucran dinámicas físicas y control de vuelo en bucle de software. Se ha demostrado que el método propuesto tiene una tasa de éxito un 38% y un 50% más alta en comparación con las líneas base basadas en aprendizaje por refuerzo profundo y campos potenciales artificiales, respectivamente. La capacidad de generalización del método se verifica en la transferencia de simulación a realidad sin entrenamiento adicional. Se realizan experimentos en tiempo real con varios ensayos en dos escenarios diferentes, mostrando una tasa de éxito un 50% más alta del método propuesto en comparación con la línea base basada en aprendizaje por refuerzo profundo.