Efectos del Tiempo de Observación en el Aprendizaje por Refuerzo en Contratos por Diferencia
Autores: Wehrmann, Maximilian; Zengeler, Nico; Handmann, Uwe
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
Categoría
Gestión y administración
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 11
Citaciones: Sin citaciones
En este artículo, presentamos un estudio sobre modelos de optimización de Aprendizaje por Refuerzo para el comercio automático, en el que nos enfocamos en los efectos de variar el tiempo de observación. Nuestros agentes de Aprendizaje por Refuerzo cuentan con una Red Neuronal Convolucional (CNN) junto con Memoria a Largo y Corto Plazo (LSTM) y actúan en función de diferentes períodos de tiempo de observación. Cada agente intenta maximizar el beneficio comercial comprando o vendiendo uno de varios contratos en un entorno de mercado simulado para Contratos por Diferencia (CfD), considerando las correlaciones entre activos individuales por arquitectura. Para decidir qué acción tomar sobre un contrato específico, un agente desarrolla una política que se basa en una observación de todo el mercado durante un cierto período de tiempo. Investigamos si existe o no una longitud óptima de secuencia de observación y concluimos que tal valor depende de la dinámica del mercado.
Descripción
En este artículo, presentamos un estudio sobre modelos de optimización de Aprendizaje por Refuerzo para el comercio automático, en el que nos enfocamos en los efectos de variar el tiempo de observación. Nuestros agentes de Aprendizaje por Refuerzo cuentan con una Red Neuronal Convolucional (CNN) junto con Memoria a Largo y Corto Plazo (LSTM) y actúan en función de diferentes períodos de tiempo de observación. Cada agente intenta maximizar el beneficio comercial comprando o vendiendo uno de varios contratos en un entorno de mercado simulado para Contratos por Diferencia (CfD), considerando las correlaciones entre activos individuales por arquitectura. Para decidir qué acción tomar sobre un contrato específico, un agente desarrolla una política que se basa en una observación de todo el mercado durante un cierto período de tiempo. Investigamos si existe o no una longitud óptima de secuencia de observación y concluimos que tal valor depende de la dinámica del mercado.