Una encuesta de algoritmos de agrupamiento paralelo basados en Spark.
Autores: Xiao, Wen; Hu, Juan
Idioma: Inglés
Editor: Hindawi
Año: 2020
Acceso abierto
Artículo científico
Categoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
El clustering es una de las tareas más importantes de aprendizaje automático no supervisado, ampliamente utilizado en la recuperación de información, análisis de redes sociales, procesamiento de imágenes y otros campos. Con el crecimiento explosivo de los datos, los algoritmos de clustering clásicos no pueden cumplir con los requisitos de clustering para big data. Spark es una de las plataformas de procesamiento paralelo más populares para big data, y muchos investigadores han propuesto numerosos algoritmos de clustering paralelo basados en Spark. En este artículo, se clasifican y resumen los algoritmos de clustering paralelo existentes basados en Spark, se discute el marco de diseño paralelo de cada tipo de algoritmos, y después de comparar diferentes tipos de algoritmos, se discute la dirección de la investigación futura.
Descripción
El clustering es una de las tareas más importantes de aprendizaje automático no supervisado, ampliamente utilizado en la recuperación de información, análisis de redes sociales, procesamiento de imágenes y otros campos. Con el crecimiento explosivo de los datos, los algoritmos de clustering clásicos no pueden cumplir con los requisitos de clustering para big data. Spark es una de las plataformas de procesamiento paralelo más populares para big data, y muchos investigadores han propuesto numerosos algoritmos de clustering paralelo basados en Spark. En este artículo, se clasifican y resumen los algoritmos de clustering paralelo existentes basados en Spark, se discute el marco de diseño paralelo de cada tipo de algoritmos, y después de comparar diferentes tipos de algoritmos, se discute la dirección de la investigación futura.