Modelo supera los analistas en la previsión de finanzas

Noticias Actualidad en procesos industriales

Dele visibilidad a su trayectoria académica

Participe en la convocatoria de trabajos inéditos de Virtual Pro.

Publicar Ahora

2019-12-20Modelo supera los analistas en la previsión de finanzas

Noticias del MIT |Utilizando datos limitados, este sistema automatizado predice las ventas trimestrales de una empresa.

Conocer las verdaderas ventas de una empresa puede ayudar a determinar su valor. Los inversores, por ejemplo, a menudo emplean analistas financieros para predecir las próximas ganancias de una empresa utilizando diversos datos públicos, herramientas informáticas y su propia intuición. Ahora los investigadores del MIT han desarrollado un modelo automatizado que supera significativamente a los humanos en la predicción de ventas comerciales utilizando datos muy limitados y "ruidosos".

En finanzas, hay un creciente interés en utilizar datos de consumo imprecisos pero frecuentemente generados, llamados "datos alternativos", para ayudar a predecir las ganancias de una empresa para fines comerciales y de inversión. Los datos alternativos pueden incluir compras con tarjeta de crédito, datos de ubicación de teléfonos inteligentes o incluso imágenes satelitales que muestran cuántos automóviles están estacionados en el lote de un minorista. La combinación de datos alternativos con datos financieros más tradicionales pero poco frecuentes, como las ganancias trimestrales, los comunicados de prensa y los precios de las acciones, puede ofrecer una imagen más clara de la salud financiera de una empresa, incluso a diario o semanalmente.

Pero, hasta ahora, ha sido muy difícil obtener estimaciones precisas y frecuentes utilizando datos alternativos. En un artículo publicado esta semana en las Actas de la Conferencia Sigmetrics de ACM , los investigadores describen un modelo para pronosticar las finanzas que utiliza solo transacciones anónimas de tarjetas de crédito semanales e informes de ganancias de tres meses.

Encargado de predecir las ganancias trimestrales de más de 30 compañías, el modelo superó las estimaciones combinadas de analistas expertos de Wall Street en 57 por ciento de las predicciones. En particular, los analistas tenían acceso a los datos privados o públicos disponibles y a otros modelos de aprendizaje automático, mientras que el modelo de los investigadores utilizaba un conjunto de datos muy pequeño de los dos tipos de datos.

"Los datos alternativos son estas señales proxy extrañas para ayudar a rastrear las finanzas subyacentes de una empresa", dice el primer autor Michael Fleder, un postdoc en el Laboratorio de Sistemas de Información y Decisión (LIDS). “Preguntamos: ‘¿Puedes combinar estas señales ruidosas con números trimestrales para estimar las verdaderas finanzas de una empresa a altas frecuencias?‘ Resulta que la respuesta es sí.

El modelo podría dar una ventaja a los inversores, comerciantes o empresas que buscan comparar con frecuencia sus ventas con la competencia. Más allá de las finanzas, el modelo podría ayudar a los científicos sociales y políticos, por ejemplo, a estudiar datos agregados y anónimos sobre el comportamiento público. "Será útil para cualquiera que quiera descubrir qué está haciendo la gente", dice Fleder.

Junto a Fleder en el documento se encuentra el Profesor Devavrat Shah de EECS, quien es el director del Centro de Estadística y Ciencia de Datos del MIT, miembro del Laboratorio de Sistemas de Información y Decisión, investigador principal del Instituto de Fundamentos de Ciencia de Datos del MIT, y un adjunto profesor en el Instituto Tata de Investigación Fundamental.  

Abordar el problema de los "datos pequeños"

Para bien o para mal, muchos datos del consumidor están a la venta. Los minoristas, por ejemplo, pueden comprar transacciones con tarjeta de crédito o datos de ubicación para ver cuántas personas compran en un competidor. Los anunciantes pueden usar los datos para ver cómo sus anuncios afectan las ventas. Pero obtener esas respuestas aún depende principalmente de los humanos. Ningún modelo de aprendizaje automático ha sido capaz de descifrar adecuadamente los números.

Contraintuitivamente, el problema es en realidad la falta de datos. Cada aportación financiera, como un informe trimestral o el total semanal de la tarjeta de crédito, es solo un número. Los informes trimestrales durante dos años suman solo ocho puntos de datos. Los datos de la tarjeta de crédito para, por ejemplo, todas las semanas durante el mismo período son solo otros 100 puntos de datos "ruidosos", lo que significa que contienen información potencialmente no interpretable.

"Tenemos un problema de ‘datos pequeños‘", dice Fleder. "Solo obtienes una pequeña porción de lo que la gente está gastando y tienes que extrapolar e inferir lo que realmente está sucediendo a partir de esa fracción de datos".

Por su trabajo, los investigadores obtuvieron transacciones de tarjetas de crédito de los consumidores, generalmente a intervalos semanales y quincenales, e informes trimestrales para 34 minoristas de 2015 a 2018 de un fondo de cobertura. En todas las empresas, reunieron un total de 306 trimestres de datos.

Calcular las ventas diarias es bastante simple en concepto. El modelo supone que las ventas diarias de una empresa siguen siendo similares, disminuyendo o aumentando ligeramente de un día para otro. Matemáticamente, eso significa que los valores de ventas para días consecutivos se multiplican por un valor constante más un valor de ruido estadístico, que captura parte de la aleatoriedad inherente en las ventas de una empresa. Las ventas de mañana, por ejemplo, son iguales a las ventas de hoy multiplicadas por, digamos, 0.998 o 1.01, más el número estimado de ruido.

Si se proporcionan parámetros de modelo precisos para la constante diaria y el nivel de ruido, un algoritmo de inferencia estándar puede calcular esa ecuación para generar un pronóstico preciso de las ventas diarias. Pero el truco es calcular esos parámetros.

Desenredando los números

Ahí es donde los informes trimestrales y las técnicas de probabilidad son útiles. En un mundo simple, un informe trimestral podría dividirse por, digamos, 90 días para calcular las ventas diarias (lo que implica que las ventas son aproximadamente constantes día a día). En realidad, las ventas varían de un día a otro. Además, incluir datos alternativos para ayudar a comprender cómo varían las ventas durante un trimestre complica las cosas: además de ser ruidoso, los datos de la tarjeta de crédito comprada siempre consisten en una fracción indeterminada de las ventas totales. Todo eso hace que sea muy difícil saber cómo exactamente los totales de la tarjeta de crédito tienen en cuenta la estimación general de ventas.

"Eso requiere un poco de desenredar los números", dice Fleder. “Si observamos el 1 por ciento de las ventas semanales de una empresa a través de transacciones con tarjeta de crédito, ¿cómo sabemos que es el 1 por ciento? Y, si los datos de la tarjeta de crédito son ruidosos, ¿cómo sabe qué tan ruidosos son? No tenemos acceso a la verdad básica para totales de ventas diarias o semanales. Pero los agregados trimestrales nos ayudan a razonar sobre esos totales ".

Para hacerlo, los investigadores utilizan una variación del algoritmo de inferencia estándar, llamado filtrado de Kalman o propagación de creencias, que se ha utilizado en diversas tecnologías, desde transbordadores espaciales hasta GPS para teléfonos inteligentes. El filtrado de Kalman utiliza mediciones de datos observadas a lo largo del tiempo, que contienen imprecisiones de ruido, para generar una distribución de probabilidad para variables desconocidas durante un período de tiempo designado. En el trabajo de los investigadores, eso significa estimar las posibles ventas de un solo día.

Para entrenar el modelo, la técnica primero divide las ventas trimestrales en un número determinado de días medidos, digamos 90, lo que permite que las ventas varíen día a día. Luego, hace coincidir los datos observados y ruidosos de la tarjeta de crédito con las ventas diarias desconocidas. Utilizando los números trimestrales y alguna extrapolación, estima la fracción de las ventas totales que probablemente representan los datos de la tarjeta de crédito. Luego, calcula la fracción de cada día de las ventas observadas, el nivel de ruido y una estimación de error de qué tan bien hizo sus predicciones.

El algoritmo de inferencia conecta todos esos valores en la fórmula para predecir los totales de ventas diarias. Luego, puede sumar esos totales para obtener números semanales, mensuales o trimestrales. En las 34 compañías, el modelo superó un punto de referencia de consenso, que combina estimaciones de analistas de Wall Street, en 57.2 por ciento de las 306 predicciones trimestrales.

A continuación, los investigadores están diseñando el modelo para analizar una combinación de transacciones con tarjeta de crédito y otros datos alternativos, como la información de ubicación. “Esto no es todo lo que podemos hacer. Este es solo un punto de partida natural ”, dice Fleder.

Escrito por: Rob Matheson | MIT News Office

Noticias del MIT
Autor
Noticias del MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT, Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...

Publicidad

Empresas destacadas

Productos destacados

Publicidad