Complejidad computacional y modelos ILP para problemas de patrones en el análisis lógico de datos
Autores: Lancia, Giuseppe; Serafini, Paolo
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Complejidad computacional y modelos ILP para problemas de patrones en el análisis lógico de datosCategoría
Ingeniería y Tecnología
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
El Análisis Lógico de Datos es un procedimiento destinado a identificar características relevantes en conjuntos de datos con muestras tanto positivas como negativas. El objetivo es construir fórmulas booleanas, representadas por cadenas sobre {0,1,-} llamadas, que se pueden utilizar para clasificar nuevas muestras como positivas o negativas. Dado que un conjunto de datos puede ser explicado de formas alternativas, surgen muchos problemas computacionales relacionados con la elección de un conjunto particular de patrones. En este documento estudiamos la complejidad computacional de varios de estos problemas de patrones (mostrando que, en general, son computacionalmente difíciles) y proponemos algunos modelos de programación entera que parecen ser efectivos. Describimos un modelo ILP para encontrar el conjunto de patrones de tamaño mínimo que explica un conjunto dado de muestras y otro para el problema de determinar si dos conjuntos de patrones son equivalentes, es decir, explican exactamente las mismas muestras. Basamos nuestro primer modelo en un procedimiento polinómico que calcula todos los patrones compatibles con un conjunto dado de muestras. Experimentos computacionales sustentan la efectividad de nuestros modelos en instancias bastante grandes. Finalmente, conjeturamos que la existencia de un modelo ILP efectivo para encontrar un conjunto de patrones de tamaño mínimo equivalente a un conjunto dado de patrones es improbable, debido a que el problema es NP-duro y co-NP-duro al mismo tiempo.
Descripción
El Análisis Lógico de Datos es un procedimiento destinado a identificar características relevantes en conjuntos de datos con muestras tanto positivas como negativas. El objetivo es construir fórmulas booleanas, representadas por cadenas sobre {0,1,-} llamadas, que se pueden utilizar para clasificar nuevas muestras como positivas o negativas. Dado que un conjunto de datos puede ser explicado de formas alternativas, surgen muchos problemas computacionales relacionados con la elección de un conjunto particular de patrones. En este documento estudiamos la complejidad computacional de varios de estos problemas de patrones (mostrando que, en general, son computacionalmente difíciles) y proponemos algunos modelos de programación entera que parecen ser efectivos. Describimos un modelo ILP para encontrar el conjunto de patrones de tamaño mínimo que explica un conjunto dado de muestras y otro para el problema de determinar si dos conjuntos de patrones son equivalentes, es decir, explican exactamente las mismas muestras. Basamos nuestro primer modelo en un procedimiento polinómico que calcula todos los patrones compatibles con un conjunto dado de muestras. Experimentos computacionales sustentan la efectividad de nuestros modelos en instancias bastante grandes. Finalmente, conjeturamos que la existencia de un modelo ILP efectivo para encontrar un conjunto de patrones de tamaño mínimo equivalente a un conjunto dado de patrones es improbable, debido a que el problema es NP-duro y co-NP-duro al mismo tiempo.