Base de datos de secuencias potenciales de promotores en el genoma
Autores: Rudenko, Valentina; Korotkov, Eugene
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Ciencias Naturales y Subdisciplinas
Subcategoría
Biología
Palabras clave
Método matemático
Alineación múltiple
Secuencias de promotores
Base de datos
Matriz de ponderación por posición
Tasa de falsos positivos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
En este estudio, utilizamos un método matemático para la alineación múltiple de secuencias altamente divergentes (MAHDS) para crear una base de datos de secuencias promotoras potenciales (PPS) en el genoma. Para buscar PPS, se calcularon 20 clases de secuencias estadísticamente significativas ubicadas en el rango de -499 a +100 nucleótidos cerca de los genes anotados. Para cada clase, se calculó una matriz de ponderación de posición (PWM) que luego se utilizó para identificar PPS en el genoma. En total, se detectaron 825,136 PPS, con una tasa de falsos positivos del 0.13%. Las PPS obtenidas con el método MAHDS fueron probadas utilizando TSSFinder, que detecta sitios de inicio de transcripción. La base de datos de las PPS encontradas proporciona sus coordenadas en los cromosomas, la alineación de cada PPS con el PWM y el nivel de significancia estadística como un argumento de distribución normal, y puede ser utilizada en ingeniería genética y biotecnología.
Descripción
En este estudio, utilizamos un método matemático para la alineación múltiple de secuencias altamente divergentes (MAHDS) para crear una base de datos de secuencias promotoras potenciales (PPS) en el genoma. Para buscar PPS, se calcularon 20 clases de secuencias estadísticamente significativas ubicadas en el rango de -499 a +100 nucleótidos cerca de los genes anotados. Para cada clase, se calculó una matriz de ponderación de posición (PWM) que luego se utilizó para identificar PPS en el genoma. En total, se detectaron 825,136 PPS, con una tasa de falsos positivos del 0.13%. Las PPS obtenidas con el método MAHDS fueron probadas utilizando TSSFinder, que detecta sitios de inicio de transcripción. La base de datos de las PPS encontradas proporciona sus coordenadas en los cromosomas, la alineación de cada PPS con el PWM y el nivel de significancia estadística como un argumento de distribución normal, y puede ser utilizada en ingeniería genética y biotecnología.