logo móvil
Contáctanos

Efectos del Tiempo de Observación en el Aprendizaje por Refuerzo en Contratos por Diferencia

Autores: Wehrmann, Maximilian; Zengeler, Nico; Handmann, Uwe

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Gestión y administración

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 11

Citaciones: Sin citaciones


Descripción
En este artículo, presentamos un estudio sobre modelos de optimización de Aprendizaje por Refuerzo para el comercio automático, en el que nos enfocamos en los efectos de variar el tiempo de observación. Nuestros agentes de Aprendizaje por Refuerzo cuentan con una Red Neuronal Convolucional (CNN) junto con Memoria a Largo y Corto Plazo (LSTM) y actúan en función de diferentes períodos de tiempo de observación. Cada agente intenta maximizar el beneficio comercial comprando o vendiendo uno de varios contratos en un entorno de mercado simulado para Contratos por Diferencia (CfD), considerando las correlaciones entre activos individuales por arquitectura. Para decidir qué acción tomar sobre un contrato específico, un agente desarrolla una política que se basa en una observación de todo el mercado durante un cierto período de tiempo. Investigamos si existe o no una longitud óptima de secuencia de observación y concluimos que tal valor depende de la dinámica del mercado.

Documentos Relacionados

Temas Virtualpro