Este artículo analiza la noción de transferencia de contexto en las tareas de aprendizaje por refuerzo. La transferencia de contexto, tal y como se define en este trabajo, implica la transferencia de conocimiento entre tareas de origen y de destino que comparten la misma dinámica de entorno y la misma función de recompensa, pero que tienen estados o espacios de acción diferentes. En otras palabras, los agentes aprenden la misma tarea mientras utilizan diferentes sensores y actuadores. Esto requiere la existencia de un proceso de decisión de Markov (MDP) común subyacente al que se puedan asignar todos los MDP de los agentes. Esto se formula en términos de la noción de homomorfismo MDP. El marco de aprendizaje es el aprendizaje Q. Para transferir el conocimiento entre estas tareas, el espacio de características se utiliza como traductor y se expresa como un mapeo parcial entre los espacios estado-acción de las diferentes tareas. Los valores Q aprendidos durante el proceso de aprendizaje de las tareas de origen se asignan a los conjuntos de valores Q de la tarea de destino. Estos valores Q transferidos se fusionan y se utilizan para iniciar el proceso de aprendizaje de la tarea de destino. Se utiliza un enfoque basado en intervalos para representar y fusionar el conocimiento de las tareas de origen. Los resultados empíricos muestran que la inicialización transferida puede ser beneficiosa para el proceso de aprendizaje de la tarea objetivo.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Algoritmo mejorado de agrupación de colonias de hormigas y estudio de su rendimiento
Artículo:
Compacto sinterizado de diamante nanocapa obtenido por conversión directa a partir de grafito altamente orientado a alta presión y alta temperatura
Artículo:
Estimación de la relación aire-combustible de cada cilindro en un motor de gasolina con retardo de salida
Artículo:
Desnaturalización de imágenes hiperespectrales con modelos de regularización compuestos
Artículo:
Realización de un examen a libro cerrado: Desacoplamiento de la inferencia basada en KB por hipótesis virtual para responder a preguntas del mundo real
Libro:
Metodología del marco lógico para la planificación, el seguimiento y la evaluación de proyectos y programas
Presentación:
Estudio de movimientos y tiempos
Artículo:
Estudio sobre la evaluación de la sostenibilidad de los productos innovadores
Software:
Simulación del proceso de extracción sólido-líquido EXTSL