Explorando el Potencial de las GANs en el Análisis de Secuencias Biológicas
Autores: Murad, Taslim; Ali, Sarwan; Patterson, Murray
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
Categoría
Ciencias Naturales y Subdisciplinas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 3
Citaciones: Sin citaciones
El análisis de secuencias biológicas es un paso esencial para construir una comprensión más profunda de las funciones, estructuras y comportamientos subyacentes de las secuencias. Puede ayudar a identificar las características de los organismos asociados, como los virus, y a construir mecanismos de prevención para erradicar su propagación e impacto, ya que se sabe que los virus causan epidemias que pueden convertirse en pandemias globales. Nuevas herramientas para el análisis de secuencias biológicas son proporcionadas por tecnologías de aprendizaje automático (ML) para analizar de manera efectiva las funciones y estructuras de las secuencias. Sin embargo, estos métodos basados en ML enfrentan desafíos con el desequilibrio de datos, generalmente asociado con conjuntos de datos de secuencias biológicas, lo que obstaculiza su rendimiento. Aunque existen varias estrategias para abordar este problema, como el algoritmo SMOTE, que crea datos sintéticos, se centran en información local en lugar de la distribución general de clases. En este trabajo, exploramos un enfoque novedoso para manejar el problema del desequilibrio de datos basado en redes generativas adversariales (GANs), que utilizan la distribución general de datos. Las GANs se utilizan para generar datos sintéticos que se asemejan estrechamente a los datos reales, por lo tanto, estos datos generados pueden emplearse para mejorar el rendimiento de los modelos de ML al erradicar el problema del desequilibrio de clases para el análisis de secuencias biológicas. Realizamos cuatro tareas de clasificación distintas utilizando cuatro conjuntos de datos de secuencias diferentes (Virus de la Influenza A, PALMdb, VDjDB, Host) y nuestros resultados ilustran que las GANs pueden mejorar el rendimiento general de la clasificación.
Descripción
El análisis de secuencias biológicas es un paso esencial para construir una comprensión más profunda de las funciones, estructuras y comportamientos subyacentes de las secuencias. Puede ayudar a identificar las características de los organismos asociados, como los virus, y a construir mecanismos de prevención para erradicar su propagación e impacto, ya que se sabe que los virus causan epidemias que pueden convertirse en pandemias globales. Nuevas herramientas para el análisis de secuencias biológicas son proporcionadas por tecnologías de aprendizaje automático (ML) para analizar de manera efectiva las funciones y estructuras de las secuencias. Sin embargo, estos métodos basados en ML enfrentan desafíos con el desequilibrio de datos, generalmente asociado con conjuntos de datos de secuencias biológicas, lo que obstaculiza su rendimiento. Aunque existen varias estrategias para abordar este problema, como el algoritmo SMOTE, que crea datos sintéticos, se centran en información local en lugar de la distribución general de clases. En este trabajo, exploramos un enfoque novedoso para manejar el problema del desequilibrio de datos basado en redes generativas adversariales (GANs), que utilizan la distribución general de datos. Las GANs se utilizan para generar datos sintéticos que se asemejan estrechamente a los datos reales, por lo tanto, estos datos generados pueden emplearse para mejorar el rendimiento de los modelos de ML al erradicar el problema del desequilibrio de clases para el análisis de secuencias biológicas. Realizamos cuatro tareas de clasificación distintas utilizando cuatro conjuntos de datos de secuencias diferentes (Virus de la Influenza A, PALMdb, VDjDB, Host) y nuestros resultados ilustran que las GANs pueden mejorar el rendimiento general de la clasificación.