DocCompare: un enfoque para prevenir el problema de la inyección de caracteres en el algoritmo de similitud de documentos
Autores: Namburu, Anupama; Surendran, Akhil; Balaji, S Vijay; Mohan, Senthilkumar; Iwendi, Celestine
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Matemáticas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Existe un aumento constante en la cantidad de datos que se copian o se plagiarizan debido a la abundancia de contenido e información disponible de forma gratuita en Internet. Aunque los sistemas intentan verificar los documentos en busca de plagio, ha habido intentos de superar estos controles del sistema. En este artículo se presenta el concepto de inyección de caracteres para engañar al verificador de plagio. También se muestra cómo los algoritmos de verificación de similitud basados en k-gramas no logran detectar la inyección de caracteres. Para erradicar el problema o error en las tasas de similitud causado por el problema de la inyección de caracteres, se utilizan enfoques basados en procesamiento de imágenes de múltiples proyecciones de histogramas. Se ha desarrollado una aplicación para detectar la inyección de caracteres en el documento y producir la tasa de similitud precisa. Los resultados se muestran con algunos documentos de prueba y el método propuesto elimina cualquier tipo de carácter inyectado en el documento que engaña al plagio. El método propuesto ha abordado el problema de la inyección de caracteres con cambios basados en procesamiento de imágenes en los métodos existentes de algoritmos de verificación de similitud de documentos utilizando k-gramas. El método propuesto puede detectar el 100% de los caracteres inyectados, ya sea de cualquier alfabeto de cualquier idioma. El tiempo de procesamiento para la conversión, las proyecciones de histogramas y la aplicación del algoritmo de cribado es de 1.2 segundos por página en promedio cuando se experimenta con múltiples tipos de documentos de diferentes tamaños, desde 2 KB hasta 10 MB.
Descripción
Existe un aumento constante en la cantidad de datos que se copian o se plagiarizan debido a la abundancia de contenido e información disponible de forma gratuita en Internet. Aunque los sistemas intentan verificar los documentos en busca de plagio, ha habido intentos de superar estos controles del sistema. En este artículo se presenta el concepto de inyección de caracteres para engañar al verificador de plagio. También se muestra cómo los algoritmos de verificación de similitud basados en k-gramas no logran detectar la inyección de caracteres. Para erradicar el problema o error en las tasas de similitud causado por el problema de la inyección de caracteres, se utilizan enfoques basados en procesamiento de imágenes de múltiples proyecciones de histogramas. Se ha desarrollado una aplicación para detectar la inyección de caracteres en el documento y producir la tasa de similitud precisa. Los resultados se muestran con algunos documentos de prueba y el método propuesto elimina cualquier tipo de carácter inyectado en el documento que engaña al plagio. El método propuesto ha abordado el problema de la inyección de caracteres con cambios basados en procesamiento de imágenes en los métodos existentes de algoritmos de verificación de similitud de documentos utilizando k-gramas. El método propuesto puede detectar el 100% de los caracteres inyectados, ya sea de cualquier alfabeto de cualquier idioma. El tiempo de procesamiento para la conversión, las proyecciones de histogramas y la aplicación del algoritmo de cribado es de 1.2 segundos por página en promedio cuando se experimenta con múltiples tipos de documentos de diferentes tamaños, desde 2 KB hasta 10 MB.