Ordenación de sufijos Códigos de Shannon-Fano-Elias
Autores: Adjeroh, Donald; Nan, Fei
Idioma: Inglés
Editor: Molecular Diversity Preservation International
Año: 2010
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Arreglo de sufijos
Problema de ordenamiento de sufijos
Estructura de datos de árbol de sufijos
Tiempo lineal
Espacio lineal
Códigos de Shannon-Fano-Elias
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 60
Citaciones: Sin citaciones
Dada una secuencia de tamaño , con símbolos de un alfabeto fijo , , la matriz de sufijos proporciona una lista de todos los sufijos de en orden lexicográfico. Dado , el problema de ordenar sufijos es construir su matriz de sufijos. El problema directo de ordenar sufijos es construir la matriz de sufijos de directamente usando la estructura de datos del árbol de sufijos. Aunque se han propuesto algoritmos para ordenar sufijos directos en tiempo lineal y espacio lineal, la constante real en el espacio lineal sigue siendo una preocupación importante, dado que las aplicaciones de árboles de sufijos y matrices de sufijos (como en el análisis de genomas completos) a menudo involucran conjuntos de datos enormes. En este trabajo, reducimos la brecha entre los resultados actuales y el requisito mínimo de espacio. Introducimos un algoritmo para el problema directo de ordenar sufijos con complejidad temporal en peor caso, que requiere solo bits en espacio de memoria. Esto implica bytes para el requisito total de espacio, (incluido el espacio tanto para la matriz de sufijos de salida como para la secuencia de entrada ) asumiendo , y 4 bytes por entero. La base de nuestro algoritmo es una extensión de los códigos de Shannon-Fano-Elias utilizados en la codificación fuente y la teoría de la información. Esta es la primera vez que se utilizan métodos de teoría de la información como base para resolver el problema de ordenar sufijos.
Descripción
Dada una secuencia de tamaño , con símbolos de un alfabeto fijo , , la matriz de sufijos proporciona una lista de todos los sufijos de en orden lexicográfico. Dado , el problema de ordenar sufijos es construir su matriz de sufijos. El problema directo de ordenar sufijos es construir la matriz de sufijos de directamente usando la estructura de datos del árbol de sufijos. Aunque se han propuesto algoritmos para ordenar sufijos directos en tiempo lineal y espacio lineal, la constante real en el espacio lineal sigue siendo una preocupación importante, dado que las aplicaciones de árboles de sufijos y matrices de sufijos (como en el análisis de genomas completos) a menudo involucran conjuntos de datos enormes. En este trabajo, reducimos la brecha entre los resultados actuales y el requisito mínimo de espacio. Introducimos un algoritmo para el problema directo de ordenar sufijos con complejidad temporal en peor caso, que requiere solo bits en espacio de memoria. Esto implica bytes para el requisito total de espacio, (incluido el espacio tanto para la matriz de sufijos de salida como para la secuencia de entrada ) asumiendo , y 4 bytes por entero. La base de nuestro algoritmo es una extensión de los códigos de Shannon-Fano-Elias utilizados en la codificación fuente y la teoría de la información. Esta es la primera vez que se utilizan métodos de teoría de la información como base para resolver el problema de ordenar sufijos.