Cuando mobilenetv2 se encuentra con transformer: un modelo equilibrado de reconocimiento facial de oveja
Autores: Li, Xiaopeng; Du, Jinzhi; Yang, Jialin; Li, Shuqin
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Ciencias Agrícolas y Biológicas Generales
Palabras clave
Modelos de reconocimiento facial de ovejas
Dispositivos periféricos
MobileViTFace
Transformador de Visión
Precisión de reconocimiento
Parámetros
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Los modelos de reconocimiento facial de ovejas desplegados en dispositivos periféricos requieren un buen equilibrio entre el tamaño del modelo y la precisión, pero los modelos de reconocimiento existentes no pueden hacerlo. Para resolver los problemas anteriores, este documento combina Mobilenetv2 con Vision Transformer para proponer un modelo equilibrado de reconocimiento facial de ovejas llamado MobileViTFace. MobileViTFace mejora la capacidad del modelo para extraer características detalladas y suprimir la interferencia de la información de fondo a través de Transformer para distinguir diferentes caras de ovejas de manera más efectiva. Por lo tanto, puede distinguir diferentes caras de ovejas de manera más efectiva. La precisión de reconocimiento del 96,94% se obtiene en un conjunto de datos autoconstruido que contiene 5490 fotos de caras de ovejas de 105 ovejas, lo que representa una mejora del 9,79% en comparación con MobilenetV2, con solo un pequeño aumento en Params (el número de parámetros) y FLOPs (operaciones de punto flotante). En comparación con modelos como Swin-small, que actualmente tiene el mejor rendimiento, los Params y FLOPs se reducen casi diez veces, mientras que la precisión de reconocimiento es solo un 0,64% más baja. Al desplegar MobileViTFace en la plataforma de computación periférica Jetson Nano, se obtienen resultados de reconocimiento en tiempo real y precisos, lo que tiene implicaciones para la producción práctica.
Descripción
Los modelos de reconocimiento facial de ovejas desplegados en dispositivos periféricos requieren un buen equilibrio entre el tamaño del modelo y la precisión, pero los modelos de reconocimiento existentes no pueden hacerlo. Para resolver los problemas anteriores, este documento combina Mobilenetv2 con Vision Transformer para proponer un modelo equilibrado de reconocimiento facial de ovejas llamado MobileViTFace. MobileViTFace mejora la capacidad del modelo para extraer características detalladas y suprimir la interferencia de la información de fondo a través de Transformer para distinguir diferentes caras de ovejas de manera más efectiva. Por lo tanto, puede distinguir diferentes caras de ovejas de manera más efectiva. La precisión de reconocimiento del 96,94% se obtiene en un conjunto de datos autoconstruido que contiene 5490 fotos de caras de ovejas de 105 ovejas, lo que representa una mejora del 9,79% en comparación con MobilenetV2, con solo un pequeño aumento en Params (el número de parámetros) y FLOPs (operaciones de punto flotante). En comparación con modelos como Swin-small, que actualmente tiene el mejor rendimiento, los Params y FLOPs se reducen casi diez veces, mientras que la precisión de reconocimiento es solo un 0,64% más baja. Al desplegar MobileViTFace en la plataforma de computación periférica Jetson Nano, se obtienen resultados de reconocimiento en tiempo real y precisos, lo que tiene implicaciones para la producción práctica.