Análisis de estabilidad para la navegación de vehículos autónomos entrenados con Deep Deterministic Policy Gradient
Autores: Cabezas-Olivenza, Mireya; Zulueta, Ekaitz; Sanchez-Chica, Ander; Fernandez-Gamiz, Unai; Teso-Fz-Betoño, Adrian
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje por refuerzo
Algoritmo DDPG
Estabilidad
Redes neuronales
Evaluación de agente
Vehículo autónomo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
El algoritmo de Gradiente de Política Determinista Profunda (DDPG) es un algoritmo de aprendizaje por refuerzo que combina Q-learning con una política. Sin embargo, este algoritmo genera fallas que no están bien comprendidas. En lugar de buscar esos errores, este estudio presenta una forma de evaluar la idoneidad de los resultados obtenidos. Utilizando el propósito de la navegación de vehículos autónomos, se aplica el algoritmo DDPG, obteniendo un agente capaz de generar trayectorias. Este agente se evalúa en términos de estabilidad a través de la función de Lyapunov, verificando si se logran los objetivos de navegación propuestos. Se utiliza la función de recompensa del DDPG porque se desconoce si las redes neuronales del actor y el crítico están entrenadas correctamente. Se obtienen dos agentes y se realiza una comparación entre ellos en términos de estabilidad, demostrando que la función de Lyapunov puede ser utilizada como un método de evaluación para los agentes obtenidos por el algoritmo DDPG. Verificando la estabilidad en un horizonte futuro fijo, es posible determinar si el agente obtenido es válido y puede ser utilizado como controlador de vehículos, por lo que se puede realizar una evaluación de satisfacción de tareas. Además, el análisis propuesto es una indicación de qué partes del área de navegación son insuficientes en términos de entrenamiento.
Descripción
El algoritmo de Gradiente de Política Determinista Profunda (DDPG) es un algoritmo de aprendizaje por refuerzo que combina Q-learning con una política. Sin embargo, este algoritmo genera fallas que no están bien comprendidas. En lugar de buscar esos errores, este estudio presenta una forma de evaluar la idoneidad de los resultados obtenidos. Utilizando el propósito de la navegación de vehículos autónomos, se aplica el algoritmo DDPG, obteniendo un agente capaz de generar trayectorias. Este agente se evalúa en términos de estabilidad a través de la función de Lyapunov, verificando si se logran los objetivos de navegación propuestos. Se utiliza la función de recompensa del DDPG porque se desconoce si las redes neuronales del actor y el crítico están entrenadas correctamente. Se obtienen dos agentes y se realiza una comparación entre ellos en términos de estabilidad, demostrando que la función de Lyapunov puede ser utilizada como un método de evaluación para los agentes obtenidos por el algoritmo DDPG. Verificando la estabilidad en un horizonte futuro fijo, es posible determinar si el agente obtenido es válido y puede ser utilizado como controlador de vehículos, por lo que se puede realizar una evaluación de satisfacción de tareas. Además, el análisis propuesto es una indicación de qué partes del área de navegación son insuficientes en términos de entrenamiento.