logo móvil

Medición de la representatividad mediante principios de matriz de cobertura

Autores: Castro-Romero, Alexander; Cobos-Lozada, Carlos-Alberto

Idioma: Inglés

Editor: Universidad Pedagógica y Tecnológica de Colombia - UPTC

Año: 2023

Ver Artículo científico

Acceso abierto

Artículo científico


Categoría

Procesos industriales

Licencia

CC BY – Atribución

Consultas: 22

Citaciones: Revista Facultad de Ingeniería Vol. 32 Núm. 65


Descripción

La representatividad es una característica importante de la calidad de los datos en los procesos de la ciencia de datos; se dice que una muestra de datos es representativa cuando refleja un grupo más amplio con la mayor exactitud posible. Tener bajos índices de representatividad en los datos puede conducir a la generación de modelos sesgados. Por ello, este estudio muestra los elementos que componen un nuevo modelo para medir la representatividad utilizando un elemento matemático de prueba de objetos de matrices de cobertura denominado «Matriz P». Para probar el modelo, se propuso un experimento en el que se toma un conjunto de datos, se divide en subconjuntos de datos de entrenamiento y de prueba utilizando dos estrategias de muestreo: Aleatorio y Estratificado, y se comparan los valores de representatividad. Si la división de los datos es adecuada, las dos estrategias de muestreo deberían presentar índices de representatividad similares. El modelo se implementó en un prototipo de software que utiliza las tecnologías Python (para el procesamiento de datos) y Vue (para la visualización de datos), esta versión del modelo sólo permite analizar conjuntos de datos binarios (por ahora). Para probar el modelo, se ajustó el conjunto de datos «Wines» (UC Irvine Machine Learning Repository). La conclusión es que ambas estrategias de muestreo generan resultados de representatividad similares para este conjunto de datos, aunque este resultado es predecible, está claro que una representatividad adecuada de los datos es importante a la hora de generar los subconjuntos de datos de prueba y entrenamiento. Por lo tanto, como trabajo futuro planeamos ampliar el modelo a datos categóricos y explorar conjuntos de datos más complejos.

INTRODUCCIÓN

La ciencia de datos utiliza la información para apoyar la toma de decisiones y ocupa un lugar cada vez más importante dentro de las organizaciones. Sin embargo, los datos en los que se basa no siempre tienen la calidad adecuada, lo que promueve una toma de decisiones incorrecta. En este sentido, Srivastava et al. [1] afirman que "los datos de alta calidad son fundamentales para una ciencia de datos efectiva".

Como menciona Clarke [2], "la literatura sobre Big Data, tanto académica como profesional, se centra principalmente en las oportunidades. Se ha prestado menos atención a las amenazas que surgen al reutilizar datos, consolidar datos de múltiples fuentes, aplicar herramientas analíticas a las colecciones resultantes, hacer inferencias y actuar en consecuencia". En otras palabras, se ha avanzado mucho en los algoritmos y las técnicas de procesamiento de datos, pero aspectos como la calidad de los datos han sido descuidados.

Es importante destacar que en cualquier proyecto basado en datos, la verificación de la calidad de los datos se vuelve relevante. Estas tareas específicas están principalmente relacionadas con la validación de rangos de datos, el manejo de datos faltantes, la detección y manejo de valores atípicos en cada atributo, entre otros [3]. 

Documentos Relacionados

Temas Virtualpro