logo móvil

Método Q-Learning mejorado para la formación de multirrobots y la planificación de trayectorias con obstáculos cóncavos

Autores: Zhilin, Fan; Fei, Liu; Xinshun, Ning; Yilin, Han; Jian, Wang; Hongyong, Yang; Li, Liu

Idioma: Inglés

Editor: Hindawi

Año: 2021

Ver Artículo científico

Acceso abierto

Artículo científico


Categoría

Ingeniería y Tecnología

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
Con el objetivo de formar y planificar trayectorias de sistemas multirobot en un entorno desconocido, se propone un método de planificación de trayectorias para la formación de multirobots basado en el aprendizaje Q mejorado. Basado en el enfoque líder-seguidor, el robot líder utiliza un algoritmo de aprendizaje Q mejorado para planificar la trayectoria y el robot seguidor consigue una estrategia de seguimiento del campo potencial gravitatorio (GPF) diseñando una función de coste para seleccionar las acciones. En concreto, para mejorar el aprendizaje Q, el valor Q se inicializa mediante la orientación ambiental del GPF del objetivo. A continuación, se presenta la estrategia de evitación de relleno de obstáculos virtuales para rellenar los obstáculos no cóncavos con obstáculos virtuales. Además, se aplica el algoritmo de recocido simulado (SA) cuya temperatura de control se ajusta en tiempo real según la situación de aprendizaje del Q-learning para mejorar la estrategia de selección de acciones. Los resultados experimentales muestran que el algoritmo de aprendizaje Q mejorado reduce el tiempo de convergencia en un 89,9 y el número de rondas de convergencia en un 63,4 en comparación con el algoritmo tradicional. Con la ayuda del método, varios robots tienen una clara división del trabajo y planifican rápidamente una trayectoria de formación optimizada globalmente en un entorno completamente desconocido.

Documentos Relacionados

Temas Virtualpro