Un enfoque independiente de alineación para el estudio de la diversidad de secuencias virales en cualquier rango dado de la línea de taxonomía
Autores: Chong, Li Chuin; Lim, Wei Lun; Ban, Kenneth Hon Kim; Khan, Asif M.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
Categoría
Ciencias Naturales y Subdisciplinas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 10
Citaciones: Sin citaciones
El estudio de la diversidad viral es imperativo para entender el cambio de secuencia y sus implicaciones para las estrategias de intervención. Los enfoques dependientes de alineación, ampliamente utilizados para estudiar la diversidad viral, son limitados en su utilidad a medida que aumenta la disimilitud de secuencias, particularmente cuando se amplían al género o rangos superiores de la línea de especies virales. En este documento, presentamos un algoritmo independiente de alineación, implementado como una herramienta, UNIQmin, para determinar la diversidad efectiva de secuencias virales en cualquier rango de la línea de taxonomía viral. Esto se realiza mediante una búsqueda exhaustiva para generar el conjunto mínimo de secuencias para un conjunto de datos de secuencias virales no redundantes dado. El conjunto mínimo está compuesto por el menor número posible de secuencias únicas requeridas para capturar la diversidad inherente en el conjunto completo de -mers superpuestos codificados por todas las secuencias únicas en el conjunto de datos dado. Tal compresión de datos es posible a través de la eliminación de secuencias únicas, cuyo repertorio completo de -mers superpuestos puede ser representado por otras secuencias, volviéndolas redundantes para el conjunto colectivo de diversidad de secuencias. Se observó una reducción significativa, a saber, ~44%, ~45% y ~53%, para todas las secuencias únicas reportadas de las especies, género y familia Flaviviridae, respectivamente, mientras se captura todo el repertorio de diversidad del peptidoma viral nonámero (9-mer) presente en el conjunto de datos de entrada inicial. El algoritmo es escalable para grandes datos, ya que se aplicó a ~2.2 millones de secuencias no redundantes de todos los virus reportados. UNIQmin es de código abierto y está disponible públicamente en GitHub. El concepto de un conjunto mínimo es genérico y, por lo tanto, potencialmente aplicable a otros microorganismos patógenos de origen no viral, como las bacterias.
Descripción
El estudio de la diversidad viral es imperativo para entender el cambio de secuencia y sus implicaciones para las estrategias de intervención. Los enfoques dependientes de alineación, ampliamente utilizados para estudiar la diversidad viral, son limitados en su utilidad a medida que aumenta la disimilitud de secuencias, particularmente cuando se amplían al género o rangos superiores de la línea de especies virales. En este documento, presentamos un algoritmo independiente de alineación, implementado como una herramienta, UNIQmin, para determinar la diversidad efectiva de secuencias virales en cualquier rango de la línea de taxonomía viral. Esto se realiza mediante una búsqueda exhaustiva para generar el conjunto mínimo de secuencias para un conjunto de datos de secuencias virales no redundantes dado. El conjunto mínimo está compuesto por el menor número posible de secuencias únicas requeridas para capturar la diversidad inherente en el conjunto completo de -mers superpuestos codificados por todas las secuencias únicas en el conjunto de datos dado. Tal compresión de datos es posible a través de la eliminación de secuencias únicas, cuyo repertorio completo de -mers superpuestos puede ser representado por otras secuencias, volviéndolas redundantes para el conjunto colectivo de diversidad de secuencias. Se observó una reducción significativa, a saber, ~44%, ~45% y ~53%, para todas las secuencias únicas reportadas de las especies, género y familia Flaviviridae, respectivamente, mientras se captura todo el repertorio de diversidad del peptidoma viral nonámero (9-mer) presente en el conjunto de datos de entrada inicial. El algoritmo es escalable para grandes datos, ya que se aplicó a ~2.2 millones de secuencias no redundantes de todos los virus reportados. UNIQmin es de código abierto y está disponible públicamente en GitHub. El concepto de un conjunto mínimo es genérico y, por lo tanto, potencialmente aplicable a otros microorganismos patógenos de origen no viral, como las bacterias.