UniHSFormer X para la clasificación de cultivos hiperespectrales con estructuración semántica enrutada por prototipos
Autores: Du, Zhen; Liu, Senhao; Liao, Yao; Tang, Yuanyuan; Liu, Yanwen; Xing, Huimin; Zhang, Zhijie; Zhang, Donghui
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
Categoría
Ciencias Agrícolas y Biológicas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 9
Citaciones: Sin citaciones
La imagen hiperespectral (HSI) juega un papel fundamental en la agricultura moderna al capturar firmas espectrales detalladas que respaldan la clasificación de cultivos, la evaluación de la salud y el monitoreo del uso de la tierra. Sin embargo, la transición de datos espectrales en bruto a una comprensión semántica confiable sigue siendo desafiante, especialmente bajo patrones de siembra fragmentados, ambigüedad espectral y heterogeneidad espacial. Para abordar estas limitaciones, proponemos UniHSFormer-X, un marco unificado basado en transformadores que reconstruye la semántica agrícola a través de un enrutamiento de tokens guiado por prototipos y modelado jerárquico de contextos. A diferencia de los modelos convencionales que tratan uniformemente las características espectrales-espaciales, UniHSFormer-X modula dinámicamente el flujo de información en función de las afinidades conscientes de la clase, lo que permite la delineación precisa de los límites de los campos y el reconocimiento robusto de los tipos de cultivos espectralmente entrelazados. Evaluado en tres puntos de referencia basados en UAV-WHU-Hi-LongKou, HanChuan y HongHu-el modelo logra hasta un 99.80% de precisión general y un 99.28% de precisión promedio, superando a las arquitecturas CNN, ViT y híbridas de última generación en escenarios agrícolas tanto estructurados como heterogéneos. Estudios de ablación revelan además el papel crítico del enrutamiento semántico y la proyección de prototipos en la estabilización del comportamiento del modelo, mientras que el análisis de la superficie de parámetros demuestra una generalización consistente en diversas configuraciones. Más allá del alto rendimiento, UniHSFormer-X ofrece una arquitectura semánticamente interpretable que se adapta a la lógica espacial y al matiz compositivo de las imágenes agrícolas, representando un paso adelante hacia una clasificación de cultivos robusta y escalable.
Descripción
La imagen hiperespectral (HSI) juega un papel fundamental en la agricultura moderna al capturar firmas espectrales detalladas que respaldan la clasificación de cultivos, la evaluación de la salud y el monitoreo del uso de la tierra. Sin embargo, la transición de datos espectrales en bruto a una comprensión semántica confiable sigue siendo desafiante, especialmente bajo patrones de siembra fragmentados, ambigüedad espectral y heterogeneidad espacial. Para abordar estas limitaciones, proponemos UniHSFormer-X, un marco unificado basado en transformadores que reconstruye la semántica agrícola a través de un enrutamiento de tokens guiado por prototipos y modelado jerárquico de contextos. A diferencia de los modelos convencionales que tratan uniformemente las características espectrales-espaciales, UniHSFormer-X modula dinámicamente el flujo de información en función de las afinidades conscientes de la clase, lo que permite la delineación precisa de los límites de los campos y el reconocimiento robusto de los tipos de cultivos espectralmente entrelazados. Evaluado en tres puntos de referencia basados en UAV-WHU-Hi-LongKou, HanChuan y HongHu-el modelo logra hasta un 99.80% de precisión general y un 99.28% de precisión promedio, superando a las arquitecturas CNN, ViT y híbridas de última generación en escenarios agrícolas tanto estructurados como heterogéneos. Estudios de ablación revelan además el papel crítico del enrutamiento semántico y la proyección de prototipos en la estabilización del comportamiento del modelo, mientras que el análisis de la superficie de parámetros demuestra una generalización consistente en diversas configuraciones. Más allá del alto rendimiento, UniHSFormer-X ofrece una arquitectura semánticamente interpretable que se adapta a la lógica espacial y al matiz compositivo de las imágenes agrícolas, representando un paso adelante hacia una clasificación de cultivos robusta y escalable.