Valor de ventaja regularizado por ruido para el aprendizaje por refuerzo multiagente
Autores: Wang, Siying; Chen, Wenyu; Hu, Jian; Hu, Siyue; Huang, Liwei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Información global del estado
Optimización de políticas
Aprendizaje por refuerzo multiagente
Sobreajuste
Método de inyección de ruido
Actor-critic MARL
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Aprovechando la información del estado global para mejorar la optimización de políticas es un enfoque común en el aprendizaje por refuerzo multiagente (MARL). Incluso con el suplemento de información del estado, los agentes aún sufren de exploración insuficiente en la etapa de entrenamiento. Además, el entrenamiento con ejemplos muestreados por lotes del búfer de reproducción inducirá el problema de sobreajuste de la política, es decir, el método de optimización de políticas proximales multiagente (MAPPO) puede no funcionar tan bien como el PPO independiente (IPPO) incluso con información adicional en el crítico centralizado. En este documento, proponemos un novedoso método de inyección de ruido para regularizar las políticas de los agentes y mitigar el problema de sobreajuste. Analizamos la causa del sobreajuste de la política en el MARL actor-crítico, y diseñamos dos patrones específicos de inyección de ruido aplicados a la función de ventaja con ruido gaussiano aleatorio para estabilizar el entrenamiento y mejorar el rendimiento. Los resultados experimentales en el Juego de la Matriz y StarCraft II muestran una mayor eficiencia de entrenamiento y un rendimiento superior de nuestro método, y los estudios de ablación indican que nuestro método mantendrá una entropía más alta de las políticas de los agentes durante el entrenamiento, lo que conduce a una mayor exploración.
Descripción
Aprovechando la información del estado global para mejorar la optimización de políticas es un enfoque común en el aprendizaje por refuerzo multiagente (MARL). Incluso con el suplemento de información del estado, los agentes aún sufren de exploración insuficiente en la etapa de entrenamiento. Además, el entrenamiento con ejemplos muestreados por lotes del búfer de reproducción inducirá el problema de sobreajuste de la política, es decir, el método de optimización de políticas proximales multiagente (MAPPO) puede no funcionar tan bien como el PPO independiente (IPPO) incluso con información adicional en el crítico centralizado. En este documento, proponemos un novedoso método de inyección de ruido para regularizar las políticas de los agentes y mitigar el problema de sobreajuste. Analizamos la causa del sobreajuste de la política en el MARL actor-crítico, y diseñamos dos patrones específicos de inyección de ruido aplicados a la función de ventaja con ruido gaussiano aleatorio para estabilizar el entrenamiento y mejorar el rendimiento. Los resultados experimentales en el Juego de la Matriz y StarCraft II muestran una mayor eficiencia de entrenamiento y un rendimiento superior de nuestro método, y los estudios de ablación indican que nuestro método mantendrá una entropía más alta de las políticas de los agentes durante el entrenamiento, lo que conduce a una mayor exploración.