logo móvil

E-clip: un modelo de lenguaje visual mejorado basado en CLIP para la detección y reconocimiento de frutas

Autores: Zhang, Yi; Shao, Yang; Tang, Chen; Liu, Zhenqing; Li, Zhengda; Zhai, Ruifang; Peng, Hui; Song, Peng

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico


Categoría

Ciencias Agrícolas y Biológicas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 10

Citaciones: Sin citaciones


Descripción
Con el avance de la modernización agrícola, la recolección inteligente de frutas está cobrando importancia. Mientras que la detección y reconocimiento de frutas son esenciales para la recolección robótica, los métodos existentes sufren de una generalización limitada, incluyendo la adaptación a entornos complejos y el manejo de nuevas variedades de frutas. Este problema se debe a su dependencia de datos visuales unimodales, lo que crea una brecha semántica entre las características de la imagen y la comprensión contextual. Para resolver estos problemas, este estudio propone un marco de detección y reconocimiento de frutas multimodal basado en modelos de lenguaje visual (VLMs). Al integrar información multimodal, el modelo propuesto mejora la robustez y generalización en diversas condiciones ambientales y tipos de frutas. El marco acepta instrucciones en lenguaje natural como entrada, facilitando la interacción efectiva entre humanos y máquinas. A través de su módulo central, Pre-entrenamiento de Lenguaje-Imagen Contrastivo Mejorado (E-CLIP), que emplea mecanismos de aprendizaje contrastivo de imagen-imagen e imagen-texto, el marco logra un reconocimiento robusto de varios tipos de frutas y sus niveles de madurez. Los resultados experimentales demuestran el excelente rendimiento del modelo, logrando un puntaje F1 de 0.752 y un [email protected] de 0.791. El modelo también muestra robustez bajo condiciones de oclusión e iluminación variables, alcanzando un [email protected] de cero disparos de 0.626 para frutas no vistas. Además, el sistema opera a una velocidad de inferencia de 54.82 FPS, equilibrando eficazmente velocidad y precisión, y muestra un potencial práctico para la agricultura inteligente. Esta investigación proporciona nuevas ideas y métodos para la aplicación práctica de la agricultura inteligente.

Documentos Relacionados

Temas Virtualpro