Software Defect Prediction for Healthcare Big Data: Una evaluación empírica de las técnicas de aprendizaje automático
Autores: Bilal, Khan; Rashid, Naseem; Muhammad Arif, Shah; Karzan, Wakil; Atif, Khan; M. Irfan, Uddin; Marwan, Mahmoud
Idioma: Inglés
Editor: Hindawi
Año: 2021
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
precisió
n media
té
cnicas de ML
mejor rendimiento
valores de rango
diferentes té
cnicas de ML predicció
n de defectos de software
ciclo de vida de desarrollo de software
predicció
n de defectos de software
á
rbol de decisió
n credal
productos de software extraordinarios
pocas ú
ltimas dé
cadas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 10
Citaciones: Sin citaciones
La predicción de defectos de software (SDP) en el periodo inicial del ciclo de vida de desarrollo de software (SDLC) sigue siendo una tarea crítica e importante. El SDP se ha estudiado en profundidad durante las últimas décadas, ya que permite garantizar la calidad de los sistemas de software. La rápida previsión de artefactos defectuosos o imperfectos en el desarrollo de software puede servir al equipo de desarrollo para utilizar los activos existentes de manera competente y más eficaz para proporcionar productos de software extraordinarios en el tiempo dado o estrecho. Anteriormente, varios exploradores han industrializado modelos para la predicción de defectos utilizando técnicas de aprendizaje automático (ML) y estadísticas. Los métodos de ML se consideran un enfoque operativo y operacional para señalar los módulos defectuosos, en los que las partes móviles a través de la minería ocultan patrones en medio de métricas de software (atributos). Varios investigadores también utilizan técnicas de ML en conjuntos de datos sanitarios. Este estudio utiliza diferentes técnicas de ML para la predicción de defectos de software en siete conjuntos de datos ampliamente utilizados. Las técnicas de ML incluyen el perceptrón multicapa (MLP), la máquina de vectores de soporte (SVM), el árbol de decisión (J48), la función de base radial (RBF), el bosque aleatorio (RF), el modelo oculto de Markov (HMM), el árbol de decisión credal (CDT), el vecino más cercano a K (KNN), el estimador de dependencia media (A1DE) y Naïve Bayes (NB). El rendimiento de cada técnica se evalúa utilizando distintas medidas, como el error absoluto relativo (RAE), el error absoluto medio (MAE), el error cuadrático medio (RMSE), el error cuadrático relativo (RRSE), la recuperación y la precisión. El resultado global muestra el mejor rendimiento de RF, con un 88,32
con un 88,32% de precisión y un 2,96% de valor de rango, el segundo mejor rendimiento lo obtiene SVM con un 87,99
y 3,83 puntos. Además, CDT también muestra una precisión de 87,88
y un valor de 3,62, situándose en tercera posición. Los resultados globales de la investigación pueden utilizarse como punto de referencia para nuevas investigaciones en el ámbito del SDP y, por lo tanto, cualquier afirmación relativa a la mejora de la predicción sobre cualquier nueva técnica o modelo puede ser evaluada y probada.
Descripción
La predicción de defectos de software (SDP) en el periodo inicial del ciclo de vida de desarrollo de software (SDLC) sigue siendo una tarea crítica e importante. El SDP se ha estudiado en profundidad durante las últimas décadas, ya que permite garantizar la calidad de los sistemas de software. La rápida previsión de artefactos defectuosos o imperfectos en el desarrollo de software puede servir al equipo de desarrollo para utilizar los activos existentes de manera competente y más eficaz para proporcionar productos de software extraordinarios en el tiempo dado o estrecho. Anteriormente, varios exploradores han industrializado modelos para la predicción de defectos utilizando técnicas de aprendizaje automático (ML) y estadísticas. Los métodos de ML se consideran un enfoque operativo y operacional para señalar los módulos defectuosos, en los que las partes móviles a través de la minería ocultan patrones en medio de métricas de software (atributos). Varios investigadores también utilizan técnicas de ML en conjuntos de datos sanitarios. Este estudio utiliza diferentes técnicas de ML para la predicción de defectos de software en siete conjuntos de datos ampliamente utilizados. Las técnicas de ML incluyen el perceptrón multicapa (MLP), la máquina de vectores de soporte (SVM), el árbol de decisión (J48), la función de base radial (RBF), el bosque aleatorio (RF), el modelo oculto de Markov (HMM), el árbol de decisión credal (CDT), el vecino más cercano a K (KNN), el estimador de dependencia media (A1DE) y Naïve Bayes (NB). El rendimiento de cada técnica se evalúa utilizando distintas medidas, como el error absoluto relativo (RAE), el error absoluto medio (MAE), el error cuadrático medio (RMSE), el error cuadrático relativo (RRSE), la recuperación y la precisión. El resultado global muestra el mejor rendimiento de RF, con un 88,32
con un 88,32% de precisión y un 2,96% de valor de rango, el segundo mejor rendimiento lo obtiene SVM con un 87,99
y 3,83 puntos. Además, CDT también muestra una precisión de 87,88
y un valor de 3,62, situándose en tercera posición. Los resultados globales de la investigación pueden utilizarse como punto de referencia para nuevas investigaciones en el ámbito del SDP y, por lo tanto, cualquier afirmación relativa a la mejora de la predicción sobre cualquier nueva técnica o modelo puede ser evaluada y probada.