En diversos problemas de reconocimiento de patrones, se ha observado que el desequilibrio de clases puede disminuir el desempeño del clasificador, principalmente en los patrones de las clases minoritarias. Una estrategia para resolver el problema del desbalance, consiste en tratar por separado las clases incluidas en el problema (clase minoritaria o mayoritaria), a fin de equilibrar los conjuntos de datos. En este sentido, la motivación del presente artículo estriba en el hecho de que el modelo asociativo visto como Clasificador Híbrido Asociativo con Traslación (CHAT), es muy sensible al des-balance de las clases. Por ello, se analiza el impacto que los conjuntos de datos des-balanceados pueden tener sobre el rendimiento del CHAT. Adicionalmente, se analiza la conveniencia de utilizar métodos de bajo-muestreo para disminuir los efectos negativos que el modelo asociativo pueda sufrir. La viabilidad de este estudio se sustenta con los resultados experimentales obtenidos de once conjuntos de datos reales. Finalmente, el presente trabajo se considera como una investigación analítica-sintética.
Introducción
Karl Steinbuch introdujo el primer modelo asociativo, llamado Lernmatrix, en 1961 (Santiago, 2003); puede utilizarse como clasificador de patrones binarios. Desde entonces se han desarrollado varios modelos asociativos, como los modelos HACT, morfológico y alfa beta (Santiago, 2003).
El rendimiento del clasificador está muy relacionado con dos aspectos en el reconocimiento de patrones, independientemente de la aplicación (Japkowicz, 2002; Huang et al., 2006): el modelo de aprendizaje utilizado por el clasificador y la calidad del conjunto de datos (DS) utilizado para el entrenamiento. Algunos problemas inherentes al DS son el desequilibrio del DS, los patrones redundantes, la atipicidad y la alta dimensión (Barandela et al., 2005). Este artículo se centra en el problema del desequilibrio.
El desequilibrio se produce cuando una clase (minoritaria) está muy poco representada en comparación con otras clases (mayoritarias) (Weiss, 2004). Los casos reales (categorización de textos, análisis de créditos) suelen tener pocas muestras de clases minoritarias (Tan, 2005; Huang et al., 2006). La escasa representación de las clases minoritarias complica el aprendizaje del clasificador (Weiss, 2004) y actualmente no existe una solución universal para abordar este problema. Las estrategias de solución propuestas han incluido el muestreo (sobremuestreo o submuestreo) o el ajuste del algoritmo de entrenamiento (Barandela et al., 2005; Chawla et al., 2002).
En este estudio se analiza el rendimiento de un modelo asociativo (HACT) en desequilibrio en relación con dos aspectos: cómo se ve afectado el entrenamiento del modelo cuando se utiliza un DS desequilibrado y la conveniencia de utilizar un muestreo bajo de DS.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Síntesis de matrices lineales para la transmisión de energía inalámbrica basada en el algoritmo de optimización Brain Storm
Artículo:
Etiquetas RFID UHF de grafeno impresas en 3D y curadas fotográficamente sobre sustratos de tela, madera y cartón
Artículo:
Estudio sobre la antena lectora RFID de campo cercano y campo lejano ópticamente transparente
Artículo:
Diseño de un sistema MIMO práctico y compacto para ondas milimétricas con capacidad optimizada y arreglos en fase
Artículo:
Métricas y métodos para la evaluación del rendimiento en el aire de los equipos de usuario MIMO
Informe, reporte:
Diagnóstico sobre la logística del comercio internacional y su incidencia en la competitividad de las exportaciones de los países miembros
Manual:
Química de los taninos
Artículo:
Nuevas necesidades cosméticas : tendencias y productos específicos
Artículo:
Influencia del COVID-19 en las dinámicas de exportación, producción y consumo de carne vacuna en Colombia y el mundo: Una revisión monográfica.