Un enfoque de Biología de Sistemas y basado en LASSO para descifrar la firma Transcriptoma-Interactoma para predecir el cáncer de pulmón de células no pequeñas
Autores: Ahmed, Firoz; Khan, Abdul Arif; Ansari, Hifzur Rahman; Haque, Absarul
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Ciencias Naturales y Subdisciplinas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 10
Citaciones: Sin citaciones
La falta de firmas moleculares precisas limita el diagnóstico temprano del cáncer de pulmón de células no pequeñas (CPCNP). El presente estudio utilizó datos de expresión génica y redes de interacción para desarrollar un modelo altamente preciso con el operador de selección y reducción absoluta más pequeño (LASSO) para predecir el CPCNP. Se identificaron los genes diferencialmente expresados (GDE) en el CPCNP en comparación con tejidos normales utilizando datos de TCGA y GTEx. Se construyó una red biológica utilizando GDE, y se identificaron los 20 genes clave sobreexpresados y 20 genes clave subexpresados. Estos genes clave se utilizaron para identificar genes de firma con regresión logística penalizada utilizando LASSO para predecir el CPCNP. El desarrollo de nuestro modelo involucró los siguientes pasos: (i) el conjunto de datos se dividió en un 80% para entrenamiento (TR) y un 20% para prueba (TD1); (ii) se realizó un análisis de regresión logística LASSO en el TR con validación cruzada de 10 pliegues e identificó una combinación de 17 genes como predictores del CPCNP, que se utilizaron posteriormente para el desarrollo del modelo LASSO. El rendimiento del modelo se evaluó en el conjunto de datos TD1 y logró una precisión y un área bajo la curva de las características operativas del receptor (AUC-ROC) de 0.986 y 0.998, respectivamente. Además, el rendimiento del modelo LASSO se evaluó utilizando tres conjuntos de datos de prueba independientes de CPCNP (GSE18842, GSE27262, GSE19804) y logró una alta precisión, con un AUC-ROC de >0.99, >0.99 y 0.95, respectivamente. Basado en este estudio, se desarrolló una aplicación web llamada para predecir el CPCNP.
Descripción
La falta de firmas moleculares precisas limita el diagnóstico temprano del cáncer de pulmón de células no pequeñas (CPCNP). El presente estudio utilizó datos de expresión génica y redes de interacción para desarrollar un modelo altamente preciso con el operador de selección y reducción absoluta más pequeño (LASSO) para predecir el CPCNP. Se identificaron los genes diferencialmente expresados (GDE) en el CPCNP en comparación con tejidos normales utilizando datos de TCGA y GTEx. Se construyó una red biológica utilizando GDE, y se identificaron los 20 genes clave sobreexpresados y 20 genes clave subexpresados. Estos genes clave se utilizaron para identificar genes de firma con regresión logística penalizada utilizando LASSO para predecir el CPCNP. El desarrollo de nuestro modelo involucró los siguientes pasos: (i) el conjunto de datos se dividió en un 80% para entrenamiento (TR) y un 20% para prueba (TD1); (ii) se realizó un análisis de regresión logística LASSO en el TR con validación cruzada de 10 pliegues e identificó una combinación de 17 genes como predictores del CPCNP, que se utilizaron posteriormente para el desarrollo del modelo LASSO. El rendimiento del modelo se evaluó en el conjunto de datos TD1 y logró una precisión y un área bajo la curva de las características operativas del receptor (AUC-ROC) de 0.986 y 0.998, respectivamente. Además, el rendimiento del modelo LASSO se evaluó utilizando tres conjuntos de datos de prueba independientes de CPCNP (GSE18842, GSE27262, GSE19804) y logró una alta precisión, con un AUC-ROC de >0.99, >0.99 y 0.95, respectivamente. Basado en este estudio, se desarrolló una aplicación web llamada para predecir el CPCNP.