logo móvil
Contáctanos

DocCompare: un enfoque para prevenir el problema de la inyección de caracteres en el algoritmo de similitud de documentos

Autores: Namburu, Anupama; Surendran, Akhil; Balaji, S Vijay; Mohan, Senthilkumar; Iwendi, Celestine

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aumento
Datos
Plagio
Inyección de caracteres
Algoritmos de verificación de similitud
Procesamiento de imágenes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Existe un aumento constante en la cantidad de datos que se copian o se plagiarizan debido a la abundancia de contenido e información disponible de forma gratuita en Internet. Aunque los sistemas intentan verificar los documentos en busca de plagio, ha habido intentos de superar estos controles del sistema. En este artículo se presenta el concepto de inyección de caracteres para engañar al verificador de plagio. También se muestra cómo los algoritmos de verificación de similitud basados en k-gramas no logran detectar la inyección de caracteres. Para erradicar el problema o error en las tasas de similitud causado por el problema de la inyección de caracteres, se utilizan enfoques basados en procesamiento de imágenes de múltiples proyecciones de histogramas. Se ha desarrollado una aplicación para detectar la inyección de caracteres en el documento y producir la tasa de similitud precisa. Los resultados se muestran con algunos documentos de prueba y el método propuesto elimina cualquier tipo de carácter inyectado en el documento que engaña al plagio. El método propuesto ha abordado el problema de la inyección de caracteres con cambios basados en procesamiento de imágenes en los métodos existentes de algoritmos de verificación de similitud de documentos utilizando k-gramas. El método propuesto puede detectar el 100% de los caracteres inyectados, ya sea de cualquier alfabeto de cualquier idioma. El tiempo de procesamiento para la conversión, las proyecciones de histogramas y la aplicación del algoritmo de cribado es de 1.2 segundos por página en promedio cuando se experimenta con múltiples tipos de documentos de diferentes tamaños, desde 2 KB hasta 10 MB.

Documentos Relacionados

Temas Virtualpro