logo móvil
Contáctanos

Modelos de clasificación de aprendizaje automático para predecir el cáncer de hígado con inteligencia artificial explicable para descubrir genes asociados

Autores: Hasan, Md Easin; Mostafa, Fahad; Hossain, Md S.; Loftin, Jonathon

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Matemáticas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 13

Citaciones: Sin citaciones


Descripción
El carcinoma hepatocelular (CHC) es el cáncer de hígado primario que ocurre con mayor frecuencia. El riesgo de desarrollar CHC es más alto en aquellos con enfermedades hepáticas crónicas, como la cirrosis provocada por infecciones por hepatitis B o C, y es el tipo más común de cáncer de hígado. Las interpretaciones basadas en el conocimiento son esenciales para comprender el conjunto de datos de microarreglos de CHC debido a su naturaleza, que incluye altas dimensiones e información biológica oculta en los genes. Al analizar datos de expresión génica con muchos genes y pocas muestras, el principal problema es separar la información relacionada con la enfermedad de una gran cantidad de datos de expresión génica redundantes y su ruido. Los clínicos están interesados en identificar los genes específicos responsables del CHC en pacientes individuales. Estos genes responsables pueden diferir entre pacientes, lo que lleva a una variabilidad en la selección de genes. Además, los enfoques de aprendizaje automático, como los algoritmos de clasificación, son similares a cajas negras, y es importante interpretar los resultados del modelo de aprendizaje automático. En este artículo, utilizamos un pipeline confiable para determinar genes importantes para descubrir CHC a partir del análisis de microarreglos. Eliminamos genes redundantes y innecesarios a través de la selección de genes utilizando análisis de componentes principales (PCA). Además, detectamos genes responsables con el algoritmo de bosque aleatorio a través de la clasificación de importancia de variables calculada a partir del índice de Gini. Se utilizan algoritmos de clasificación, como bosque aleatorio (RF), clasificador de Bayes ingenuo (NBC), regresión logística y vecino más cercano (kNN) para clasificar CHC a partir de genes responsables. Sin embargo, los algoritmos de clasificación producen resultados basados en genes seleccionados para un gran grupo de pacientes en lugar de para pacientes específicos. Por lo tanto, aplicamos el método de explicaciones locales interpretables independientes del modelo (LIME) para descubrir las predicciones generadas por IA, así como recomendaciones para genes responsables específicos de los pacientes. Además, mostramos nuestro análisis de vías y un dendrograma de la vía a través de la agrupación jerárquica de los genes responsables. Se encontraron 16 genes responsables utilizando el índice de Gini, y CCT3 y KPNA2 muestran la mayor disminución media en los valores de Gini. Entre los cuatro algoritmos de clasificación, el bosque aleatorio mostró precisión con una precisión de . Se utilizó validación cruzada de cinco pliegues para recopilar múltiples estimaciones y evaluar la variabilidad del modelo RF con un ROC medio de . Los resultados de LIME se interpretaron para dos pacientes aleatorios con efectos positivos y negativos. Por lo tanto, identificamos 16 genes responsables que pueden ser utilizados para mejorar el diagnóstico o tratamiento del CHC. El marco propuesto utilizando algoritmos de clasificación de aprendizaje automático con el método LIME puede aplicarse para encontrar genes responsables para diagnosticar y tratar a pacientes con CHC.

Documentos Relacionados

Temas Virtualpro