Modelos Predictivos Basados en Similitud: Análisis de Sensibilidad y una Aplicación Biológica con Múltiples Atributos
Autores: Sanchez, Jeniffer D.; Rêgo, Leandro C.; Ospina, Raydonal; Leiva, Víctor; Chesneau, Christophe; Castro, Cecilia
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
Categoría
Ciencias Naturales y Subdisciplinas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 6
Citaciones: Sin citaciones
Los modelos predictivos basados en la similitud empírica son fundamentales en biología y ciencia de datos, donde la premisa es medir la semejanza de una observación con otras en el mismo conjunto de datos. Los conjuntos de datos biológicos a menudo abarcan datos que pueden ser categorizados. Al utilizar modelos predictivos basados en la similitud empírica, existen dos estrategias para manejar covariables categóricas. La primera estrategia retiene las covariables categóricas en su forma original, aplicando medidas de distancia y asignando pesos a cada covariable. En contraste, la segunda estrategia crea variables binarias, representando cada nivel de variable de manera independiente, y calcula medidas de similitud únicamente a través de la distancia euclidiana. Este estudio realiza un análisis de sensibilidad de estas dos estrategias utilizando simulaciones computacionales y aplica los resultados a un contexto biológico. Usamos un modelo de regresión lineal como punto de referencia y consideramos dos métodos para estimar los parámetros del modelo, junto con funciones de similitud inversa exponencial y fraccionaria. La sensibilidad se evalúa determinando el coeficiente de variación de los estimadores de parámetros a través de los tres modelos como medida de variabilidad relativa. Nuestros resultados sugieren que la primera estrategia supera a la segunda en el manejo efectivo de variables categóricas y ofrece una mayor parsimonia debido al uso de menos parámetros.
Descripción
Los modelos predictivos basados en la similitud empírica son fundamentales en biología y ciencia de datos, donde la premisa es medir la semejanza de una observación con otras en el mismo conjunto de datos. Los conjuntos de datos biológicos a menudo abarcan datos que pueden ser categorizados. Al utilizar modelos predictivos basados en la similitud empírica, existen dos estrategias para manejar covariables categóricas. La primera estrategia retiene las covariables categóricas en su forma original, aplicando medidas de distancia y asignando pesos a cada covariable. En contraste, la segunda estrategia crea variables binarias, representando cada nivel de variable de manera independiente, y calcula medidas de similitud únicamente a través de la distancia euclidiana. Este estudio realiza un análisis de sensibilidad de estas dos estrategias utilizando simulaciones computacionales y aplica los resultados a un contexto biológico. Usamos un modelo de regresión lineal como punto de referencia y consideramos dos métodos para estimar los parámetros del modelo, junto con funciones de similitud inversa exponencial y fraccionaria. La sensibilidad se evalúa determinando el coeficiente de variación de los estimadores de parámetros a través de los tres modelos como medida de variabilidad relativa. Nuestros resultados sugieren que la primera estrategia supera a la segunda en el manejo efectivo de variables categóricas y ofrece una mayor parsimonia debido al uso de menos parámetros.