Biblioteca76.515 documentos en línea

Artículo

n-Gram-Based Text CompressionCompresión de texto basada en n-gramas

Resumen

Proponemos un método eficaz para comprimir texto vietnamita utilizando diccionarios de n-gramas. Este método presenta una relación de compresión significativa en comparación con los métodos más avanzados en el mismo conjunto de datos. Dado un texto, el método propuesto lo divide primero en n-gramas y luego los codifica basándose en diccionarios de n-gramas. En la fase de codificación, utilizamos una ventana deslizante con un tamaño que oscila entre los bigramas y los cinco gramos para obtener el mejor flujo de codificación. Cada n-grama se codifica de dos a cuatro bytes en función de su correspondiente diccionario de n-gramas. Recogimos un corpus de texto de 2,5 GB de algunas agencias de noticias vietnamitas para construir diccionarios de n-gramas desde unigrama hasta cinco gramos y conseguir diccionarios con un tamaño de 12 GB en total. Para evaluar nuestro método, recopilamos un conjunto de pruebas de 10 archivos de texto diferentes con distintos tamaños. Los resultados experimentales indican que nuestro método alcanza una relación de compresión de alrededor del 90 y supera a los métodos más avanzados.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento