Join Indices … as a tool for Spatial Datamining
Inhoud Inleiding Spatial Relations (Spatial) Join Index Implementatie Conclusie
Inleiding (1) Datamining is –Samenvatten –Classificeren –Clusterdetectie –Zoeken van associaties en afhankelijkheden –Zoeken naar trends en afwijkingen
Inleiding (2) Spatial Data Mining = DM + spatial criteria Implementatie lastig Gebrek aan SDM tools
Vooruitgang (1) Veel over Spatial Analysis in pre-GIS tijden Globale/locale autocorrelatie Geostatistiek
Vooruitgang (2) GeoMiner (uitbreiding op DBMiner) DBScan met R* bomen Uitbreidingen van ID3 en DBLearn STING Spatial Data Warehousing
Waarom Join Index? Belangrijk verschil tussen SDM en DM: –Spatial Relations Standaard structuur Spatial Join Operator vervangen door Join Index
Spatial Relations Autocorrelatie Intra-theme, Inter-theme Topologisch –Intersection, Contains, etc. Metrisch
Join Index RS C
Spatial Join Index (1) Obj1Obj2Distance R-1S R-1S R-2S R-3S R-3S
Spatial Join Index (2) Objecten –R,S,… Join Indices –C Elk paar C(obj1,obj2) matcht met criterium
Bouwen van Join Index Aparte join index voor elk predicaat Eén join index, kolommen voor elk predicaat Benadering van spatial criteria –Kolom met afstand tussen objecten –Alleen afstand < MAX_DIST (scope)
Contiguity Matrix Matrix M –M(i,j) = 1 als objecten contiguous zijn –M(i,j) = 0 anders Vaak “sparse” matrix Analoog aan Join Index Join Indices opslaan als contiguity matrices
Voordelen Spatial Analysis integreren in systemen –DLL, IPC, Webservices Gebruik maken van kracht van SQL Hogere performance –Pre-computing, Spatial Data Structures
Performance
Implementatie (1) SELECT R.name, R.population FROM R, S, Indices_dist_RS as I WHERE I.obj1 = R.id AND I.obj2 = S.id AND I.distance < 50
Implementatie (2)
Implementatie (3) Join Index is fysieke representatie van Spatial Relations Relational DB voldoet Simpel concept voor gebruikers
Implementatie (4) Weak integration –Tijdens data selectie in DM Strong integration –Low level, minder portable –Hogere performance
Object References Unieke “Object Identifier” ontbreekt in RDBMS Keys kunnen wijzigen Oplossing? Constraints of triggers Spatial databases veranderen niet veel
Join Index Set (1) Meerdere Spatial Relations Hoe hiermee omgaan? Twee oplossingen –Een ‘Join Index Set’ per relation –Eentje voor alle relations
Join Index Set (2) VoordelenNadelen Meerdere sets Geen overhead Inëfficient bij multi- criteria queries Eén setSnelVeel lege waardes
Extensibility van tools Spatial joins op basis van afstand –Ondersteuning ontbreekt Join extern berekenen –Opslaan als simpele tabel –Of in formaat van applicatie
Conclusie Spatial relationships van groot belang Compatible met contiguity matrices Te representeren als tabel, SQL Nog veel research te doen in SDM