Aprendizaje por Refuerzo Constrenido para la Planificación de Movimiento de Vehículos con Análisis de Alcance Topológico
Autores: Gu, Shangding; Chen, Guang; Zhang, Lijun; Hou, Jing; Hu, Yingbai; Knoll, Alois
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 8
Citaciones: Sin citaciones
Los métodos tradicionales de planificación de movimiento basados en reglas suelen funcionar bien con conocimiento previo de los entornos a gran escala, pero enfrentan desafíos en entornos desconocidos e inciertos. El aprendizaje por refuerzo profundo (DRL) es una solución que puede abordar de manera efectiva entornos desconocidos e inciertos a microescala. Sin embargo, el DRL es inestable y carece de interpretabilidad. Por lo tanto, plantea un nuevo desafío: cómo combinar la efectividad y superar las desventajas de los dos métodos mientras se garantiza la estabilidad en entornos inciertos. En este estudio, se propone un método de planificación de movimiento de múltiples restricciones y múltiples escalas para la conducción automatizada utilizando aprendizaje por refuerzo restringido (RL), denominado RLTT, que comprende RL, un análisis de alcanzabilidad topológica utilizado para el espacio de caminos del vehículo (TPS) y un modelo de carril de trayectoria (TLM). Primero, se formula un modelo dinámico de vehículos; luego, se desarrolla el TLM sobre la base del modelo dinámico, restringiendo así el espacio de acción y estado de RL. En segundo lugar, se logra la planificación de caminos a gran escala a través de TPS, y en el rango a microescala, se logran puntos de enrutamiento discretos a través de RLTT. En tercer lugar, el método de planificación de movimiento propuesto se diseña combinando reglas sofisticadas, y se proporciona un análisis teórico para garantizar la eficiencia de nuestro método. Finalmente, se realizan experimentos relacionados para evaluar la efectividad del método propuesto; nuestro método puede reducir un 19.9% del costo de distancia en los experimentos en comparación con el método tradicional. Los resultados experimentales indican que el método propuesto puede ayudar a mitigar la brecha entre los métodos basados en datos y los métodos tradicionales, proporcionar un mejor rendimiento para la conducción automatizada y facilitar el uso de métodos de RL en más campos.
Descripción
Los métodos tradicionales de planificación de movimiento basados en reglas suelen funcionar bien con conocimiento previo de los entornos a gran escala, pero enfrentan desafíos en entornos desconocidos e inciertos. El aprendizaje por refuerzo profundo (DRL) es una solución que puede abordar de manera efectiva entornos desconocidos e inciertos a microescala. Sin embargo, el DRL es inestable y carece de interpretabilidad. Por lo tanto, plantea un nuevo desafío: cómo combinar la efectividad y superar las desventajas de los dos métodos mientras se garantiza la estabilidad en entornos inciertos. En este estudio, se propone un método de planificación de movimiento de múltiples restricciones y múltiples escalas para la conducción automatizada utilizando aprendizaje por refuerzo restringido (RL), denominado RLTT, que comprende RL, un análisis de alcanzabilidad topológica utilizado para el espacio de caminos del vehículo (TPS) y un modelo de carril de trayectoria (TLM). Primero, se formula un modelo dinámico de vehículos; luego, se desarrolla el TLM sobre la base del modelo dinámico, restringiendo así el espacio de acción y estado de RL. En segundo lugar, se logra la planificación de caminos a gran escala a través de TPS, y en el rango a microescala, se logran puntos de enrutamiento discretos a través de RLTT. En tercer lugar, el método de planificación de movimiento propuesto se diseña combinando reglas sofisticadas, y se proporciona un análisis teórico para garantizar la eficiencia de nuestro método. Finalmente, se realizan experimentos relacionados para evaluar la efectividad del método propuesto; nuestro método puede reducir un 19.9% del costo de distancia en los experimentos en comparación con el método tradicional. Los resultados experimentales indican que el método propuesto puede ayudar a mitigar la brecha entre los métodos basados en datos y los métodos tradicionales, proporcionar un mejor rendimiento para la conducción automatizada y facilitar el uso de métodos de RL en más campos.