logo móvil
Contáctanos

Valor de ventaja regularizado por ruido para el aprendizaje por refuerzo multiagente

Autores: Wang, Siying; Chen, Wenyu; Hu, Jian; Hu, Siyue; Huang, Liwei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Información global del estado
Optimización de políticas
Aprendizaje por refuerzo multiagente
Sobreajuste
Método de inyección de ruido
Actor-critic MARL

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
Aprovechando la información del estado global para mejorar la optimización de políticas es un enfoque común en el aprendizaje por refuerzo multiagente (MARL). Incluso con el suplemento de información del estado, los agentes aún sufren de exploración insuficiente en la etapa de entrenamiento. Además, el entrenamiento con ejemplos muestreados por lotes del búfer de reproducción inducirá el problema de sobreajuste de la política, es decir, el método de optimización de políticas proximales multiagente (MAPPO) puede no funcionar tan bien como el PPO independiente (IPPO) incluso con información adicional en el crítico centralizado. En este documento, proponemos un novedoso método de inyección de ruido para regularizar las políticas de los agentes y mitigar el problema de sobreajuste. Analizamos la causa del sobreajuste de la política en el MARL actor-crítico, y diseñamos dos patrones específicos de inyección de ruido aplicados a la función de ventaja con ruido gaussiano aleatorio para estabilizar el entrenamiento y mejorar el rendimiento. Los resultados experimentales en el Juego de la Matriz y StarCraft II muestran una mayor eficiencia de entrenamiento y un rendimiento superior de nuestro método, y los estudios de ablación indican que nuestro método mantendrá una entropía más alta de las políticas de los agentes durante el entrenamiento, lo que conduce a una mayor exploración.

Documentos Relacionados

Temas Virtualpro