Extracción de Redes de Interacción Proteína-Proteína Utilizando Métodos de Minería de Texto Añade Perspectivas sobre el Trastorno del Espectro Autista
Autores: Nezamuldeen, Leena; Jafri, Mohsin Saleet
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
Categoría
Ciencias Naturales y Subdisciplinas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 4
Citaciones: Sin citaciones
Se están desarrollando métodos de minería de texto para asimilar el volumen de materiales textuales biomédicos que están en constante expansión. Comprender los déficits de interacción proteína-proteína (PPI) ayudaría a explicar la génesis de las enfermedades. En este estudio, diseñamos un sistema automatizado para extraer PPIs de la literatura biomédica que utiliza un modelo de clasificación de oraciones basado en aprendizaje profundo, un embedding de palabras preentrenado y una red neuronal recurrente BiLSTM con capas adicionales, un modelo de reconocimiento de entidades nombradas (NER) basado en campos aleatorios condicionales (CRF) y un modelo de camino de dependencia más corto (SDP) utilizando la biblioteca SpaCy en Python. El sistema automatizado asegura que se dirija a oraciones que contengan PPIs y no solo a estas proteínas mencionadas en el marco del descubrimiento de enfermedades u otro contexto. Nuestro primer modelo logró un 13% más de precisión en el corpus de referencia Aimed/BioInfr que los modelos de red neuronal BiLSTM de última generación anteriores. El modelo NER presentado en este estudio logró un 98% de precisión en el corpus Aimed/BioInfr en comparación con modelos anteriores. Con el fin de facilitar la producción de una representación precisa de la red PPI, se desarrollaron procesos para mapear sistemáticamente las interacciones de proteínas en los textos. En general, la evaluación de nuestro sistema a través del uso de 6027 resúmenes relacionados con siete proteínas asociadas con el Trastorno del Espectro Autista completó la red PPI curada manualmente para estas proteínas. En lo que respecta a enfermedades complicadas, estas redes ayudarían a entender cómo los déficits de PPI contribuyen al desarrollo de enfermedades, al mismo tiempo que enfatizan la influencia de las interacciones en la función de las proteínas y los procesos biológicos.
Descripción
Se están desarrollando métodos de minería de texto para asimilar el volumen de materiales textuales biomédicos que están en constante expansión. Comprender los déficits de interacción proteína-proteína (PPI) ayudaría a explicar la génesis de las enfermedades. En este estudio, diseñamos un sistema automatizado para extraer PPIs de la literatura biomédica que utiliza un modelo de clasificación de oraciones basado en aprendizaje profundo, un embedding de palabras preentrenado y una red neuronal recurrente BiLSTM con capas adicionales, un modelo de reconocimiento de entidades nombradas (NER) basado en campos aleatorios condicionales (CRF) y un modelo de camino de dependencia más corto (SDP) utilizando la biblioteca SpaCy en Python. El sistema automatizado asegura que se dirija a oraciones que contengan PPIs y no solo a estas proteínas mencionadas en el marco del descubrimiento de enfermedades u otro contexto. Nuestro primer modelo logró un 13% más de precisión en el corpus de referencia Aimed/BioInfr que los modelos de red neuronal BiLSTM de última generación anteriores. El modelo NER presentado en este estudio logró un 98% de precisión en el corpus Aimed/BioInfr en comparación con modelos anteriores. Con el fin de facilitar la producción de una representación precisa de la red PPI, se desarrollaron procesos para mapear sistemáticamente las interacciones de proteínas en los textos. En general, la evaluación de nuestro sistema a través del uso de 6027 resúmenes relacionados con siete proteínas asociadas con el Trastorno del Espectro Autista completó la red PPI curada manualmente para estas proteínas. En lo que respecta a enfermedades complicadas, estas redes ayudarían a entender cómo los déficits de PPI contribuyen al desarrollo de enfermedades, al mismo tiempo que enfatizan la influencia de las interacciones en la función de las proteínas y los procesos biológicos.