Extensión del Lenguaje SQL con Nuevas Primitivas para el Descubrimiento de Reglas de Asociación en una Arquitectura Fuertemente Acoplada con un SGBD
Extension of SQL Language with New Primitives for the Discovery of Association Rules in a Strongly Coupled Architecture with a DBMS
Los actuales sistemas de bases de datos han sido diseñados, principalmente, para dar soporte a aplicaciones de negocios. El éxito del lenguaje de consulta SQL se debe al reducido número de primitivas suficientes para soportar una vasta mayoría de este tipo de aplicaciones. Desafortunadamente, estas primitivas no son suficientes cuando se trata de dar soporte a la emergente familia de nuevas aplicaciones que involucran el descubrimiento de conocimiento en bases de datos. Por esta razón, se propone en este artículo, extender el lenguaje SQL con nuevas primitivas que soporten eficientemente la tarea de minería de datos asociación, al interior de un Sistema Gestor de Bases de Datos(SGBD). Para garantizar la eficiencia de las operaciones de minería de datos, el álgebra relacional se extiende con nuevos operadores algebraicos que se requieren en tareas de Asociación.
1. INTRODUCCCIÓN
Los actuales sistemas de bases de datos se han diseñado, principalmente, para soportar aplicaciones de negocios. Una buena parte del éxito del lenguaje de consulta SQL se debe al reducido número de primitivas suficientes para soportar una vasta mayoría de este tipo de aplicaciones. Desafortunadamente, estas primitivas no son suficientes para soportar la emergente familia de nuevas aplicaciones que tratan con el Descubrimiento de Conocimiento en Bases de Datos (DCBD) [ImMa96].
Algunos investigadores [HoSw95], [SuTA98], [ThSa98], [WaIS98], [PSTK99], [RCIC99], [ThCh99], [SuTA00], [YoPK00] han propuesto implementar tareas de minería de datos tales como asociación, patrones secuenciales y clasificación, entre otras, utilizando las operaciones tradicionales del lenguaje SQL como joins, agrupamiento y agregaciones que implementan los operadores del álgebra relacional [Codd70][Codd72][Codd79]. Sin embargo, su mayor desventaja es el bajo desempeño.
Para solucionar este problema se propone, en este artículo, extender el lenguaje SQL con nuevas primitivas que soporten eficientemente la tarea de minería de datos de asociación, al interior de un Sistema Gestor de Bases de Datos (SGBD) [TiMM03] [TiMi05a] [TiMi05b]. Para garantizar la eficiencia en las operaciones de minería de datos, el álgebra relacional se extiende con nuevos operadores algebraicos que facilitan los procesos más costosos.
En asociación [AgIS93] [AgSr94], el cálculo de los itemsets frecuentes, i.e. todos aquellos conjuntos de items cuyo soporte es mayor o igual al soporte mínimo definido por el usuario, determina el rendimiento total del proceso de encontrar reglas de asociación [ChHY96]. En este artículo se proponen nuevos operadores algebraicos para facilitar este proceso.
Recursos
-
Formatopdf
-
Idioma:español
-
Tamaño:2999 kb