Valor de ventaja regularizado por ruido para el aprendizaje por refuerzo multiagente

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Valor de ventaja regularizado por ruido para el aprendizaje por refuerzo multiagente

Autores: Wang, Siying; Chen, Wenyu; Hu, Jian; Hu, Siyue; Huang, Liwei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Valor de ventaja regularizado por ruido para el aprendizaje por refuerzo multiagente

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Información global del estado

Optimización de políticas

Aprendizaje por refuerzo multiagente

Sobreajuste

Método de inyección de ruido

Actor-critic MARL

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones

Aprovechando la información del estado global para mejorar la optimización de políticas es un enfoque común en el aprendizaje por refuerzo multiagente (MARL). Incluso con el suplemento de información del estado, los agentes aún sufren de exploración insuficiente en la etapa de entrenamiento. Además, el entrenamiento con ejemplos muestreados por lotes del búfer de reproducción inducirá el problema de sobreajuste de la política, es decir, el método de optimización de políticas proximales multiagente (MAPPO) puede no funcionar tan bien como el PPO independiente (IPPO) incluso con información adicional en el crítico centralizado. En este documento, proponemos un novedoso método de inyección de ruido para regularizar las políticas de los agentes y mitigar el problema de sobreajuste. Analizamos la causa del sobreajuste de la política en el MARL actor-crítico, y diseñamos dos patrones específicos de inyección de ruido aplicados a la función de ventaja con ruido gaussiano aleatorio para estabilizar el entrenamiento y mejorar el rendimiento. Los resultados experimentales en el Juego de la Matriz y StarCraft II muestran una mayor eficiencia de entrenamiento y un rendimiento superior de nuestro método, y los estudios de ablación indican que nuestro método mantendrá una entropía más alta de las políticas de los agentes durante el entrenamiento, lo que conduce a una mayor exploración.

Descripción

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Documentos Relacionados

Temas Virtualpro