Eliminación de valores atípicos en la imputación de valores perdidos basada en modelos para conjuntos de datos médicos
Autores: Min-Wei, Huang; Wei-Chao, Lin; Chih-Fong, Tsai
Idioma: Inglés
Editor: Hindawi
Año: 2018
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Muchos conjuntos de datos médicos del mundo real contienen cierta proporción de valores perdidos (atributos). En general, la imputación de los valores que faltan se puede realizar para resolver este problema, que consiste en proporcionar estimaciones de los valores que faltan mediante un proceso de razonamiento basado en los datos observados (completos). Sin embargo, si los datos observados contienen alguna información ruidosa o valores atípicos, las estimaciones de los valores que faltan pueden no ser fiables o incluso ser muy diferentes de los valores reales. El objetivo de este trabajo es examinar si una combinación de selección de instancias a partir de los datos observados e imputación de valores perdidos ofrece mejores resultados que la imputación de valores perdidos por sí sola. En concreto, se utilizan tres algoritmos de selección de instancias, DROP3, GA e IB3, y tres algoritmos de imputación, KNNI, MLP y SVM, para encontrar la mejor combinación. Los resultados experimentales muestran que la selección de instancias puede tener un impacto positivo en la imputación de valores perdidos en el tipo de datos numéricos de los conjuntos de datos médicos, y combinaciones específicas de selección de instancias y métodos de imputación pueden mejorar los resultados de imputación en el tipo de datos mixtos de los conjuntos de datos médicos. Sin embargo, la selección de instancias no tiene un impacto positivo definitivo en el resultado de la imputación de conjuntos de datos médicos categóricos.
Descripción
Muchos conjuntos de datos médicos del mundo real contienen cierta proporción de valores perdidos (atributos). En general, la imputación de los valores que faltan se puede realizar para resolver este problema, que consiste en proporcionar estimaciones de los valores que faltan mediante un proceso de razonamiento basado en los datos observados (completos). Sin embargo, si los datos observados contienen alguna información ruidosa o valores atípicos, las estimaciones de los valores que faltan pueden no ser fiables o incluso ser muy diferentes de los valores reales. El objetivo de este trabajo es examinar si una combinación de selección de instancias a partir de los datos observados e imputación de valores perdidos ofrece mejores resultados que la imputación de valores perdidos por sí sola. En concreto, se utilizan tres algoritmos de selección de instancias, DROP3, GA e IB3, y tres algoritmos de imputación, KNNI, MLP y SVM, para encontrar la mejor combinación. Los resultados experimentales muestran que la selección de instancias puede tener un impacto positivo en la imputación de valores perdidos en el tipo de datos numéricos de los conjuntos de datos médicos, y combinaciones específicas de selección de instancias y métodos de imputación pueden mejorar los resultados de imputación en el tipo de datos mixtos de los conjuntos de datos médicos. Sin embargo, la selección de instancias no tiene un impacto positivo definitivo en el resultado de la imputación de conjuntos de datos médicos categóricos.