Un enfoque efectivo de aprendizaje automático en conjunto para clasificar el cáncer de mama basado en la selección de características y la segmentación de lesiones utilizando mamografías preprocesadas
Autores: Rafid, A. K. M. Rakibul Haque; Azam, Sami; Montaha, Sidratul; Karim, Asif; Fahim, Kayes Uddin; Hasan, Md. Zahid
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Biología
Palabras clave
Cáncer de mama
Conjunto de datos de mamografías
Extracción de características
Algoritmos de aprendizaje automático
Modelos de conjunto
Importancia del Bosque Aleatorio
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Antecedentes: El cáncer de mama, detrás del cáncer de piel, es la segunda malignidad más frecuente entre las mujeres, iniciada por una división celular no regulada en los tejidos mamarios. Aunque la detección temprana mediante mamografías y el tratamiento resultan en una disminución de la mortalidad, diferenciar las células cancerosas de los tejidos circundantes a menudo es falible, lo que resulta en diagnósticos erróneos. Método: Se utiliza el conjunto de datos de mamografías para categorizar el cáncer de mama en cuatro clases con baja complejidad computacional, introduciendo un enfoque basado en la extracción de características con algoritmos de aprendizaje automático (ML). Después de la eliminación de artefactos y el preprocesamiento de las mamografías, el conjunto de datos se amplía con siete técnicas de aumento. La región de interés (ROI) se extrae empleando varios algoritmos, incluyendo un método de umbral dinámico. Se extraen dieciséis características geométricas de la ROI mientras se investigan once algoritmos de ML con estas características. Se generan tres modelos de conjunto a partir de estos modelos de ML empleando el método de apilamiento, donde el primer modelo de conjunto se construye apilando modelos de ML con una precisión superior al 90% y los umbrales de precisión para generar el resto de los modelos de conjunto son >95% y >96. Se aplican cinco métodos de selección de características con catorce configuraciones para mejorar el rendimiento. Resultados: El algoritmo de Importancia de Bosque Aleatorio, con un umbral de 0.045, produce 10 características que adquirieron el mayor rendimiento con una precisión de prueba del 98.05% al apilar el clasificador de Bosque Aleatorio y XGB, teniendo una precisión superior al >96%. Además, con la validación cruzada K-fold, se observa un rendimiento consistente en todos los valores de K que van de 3 a 30. Además, la estrategia propuesta que combina procesamiento de imágenes, extracción de características y ML ha demostrado tener una alta precisión en la clasificación del cáncer de mama.
Descripción
Antecedentes: El cáncer de mama, detrás del cáncer de piel, es la segunda malignidad más frecuente entre las mujeres, iniciada por una división celular no regulada en los tejidos mamarios. Aunque la detección temprana mediante mamografías y el tratamiento resultan en una disminución de la mortalidad, diferenciar las células cancerosas de los tejidos circundantes a menudo es falible, lo que resulta en diagnósticos erróneos. Método: Se utiliza el conjunto de datos de mamografías para categorizar el cáncer de mama en cuatro clases con baja complejidad computacional, introduciendo un enfoque basado en la extracción de características con algoritmos de aprendizaje automático (ML). Después de la eliminación de artefactos y el preprocesamiento de las mamografías, el conjunto de datos se amplía con siete técnicas de aumento. La región de interés (ROI) se extrae empleando varios algoritmos, incluyendo un método de umbral dinámico. Se extraen dieciséis características geométricas de la ROI mientras se investigan once algoritmos de ML con estas características. Se generan tres modelos de conjunto a partir de estos modelos de ML empleando el método de apilamiento, donde el primer modelo de conjunto se construye apilando modelos de ML con una precisión superior al 90% y los umbrales de precisión para generar el resto de los modelos de conjunto son >95% y >96. Se aplican cinco métodos de selección de características con catorce configuraciones para mejorar el rendimiento. Resultados: El algoritmo de Importancia de Bosque Aleatorio, con un umbral de 0.045, produce 10 características que adquirieron el mayor rendimiento con una precisión de prueba del 98.05% al apilar el clasificador de Bosque Aleatorio y XGB, teniendo una precisión superior al >96%. Además, con la validación cruzada K-fold, se observa un rendimiento consistente en todos los valores de K que van de 3 a 30. Además, la estrategia propuesta que combina procesamiento de imágenes, extracción de características y ML ha demostrado tener una alta precisión en la clasificación del cáncer de mama.