Spatial subgroup mining Marlies Mooijekind
Overzicht Spatial subgroup mining: spatial patterns SubgroupMiner Spatial data Spatial subgroups Subgroup mining algoritme Applicatie
Spatial subgroup mining Subgroup: deelverzameling van een populatie met bepaalde eigenschappen Werkeloosheid is hoog voor jonge mannen met een lage opleiding Subgroup mining: subgroups vinden waarvan de target variabele afwijkt om afhankelijkheid tussen target variabele en explanatory variabelen te analyseren
Subgroup patterns Deviation pattern: beschrijft subgroup met een afwijking van target variabele t.o.v. hele populatie Association pattern: identificeert een paar van subgroups waartussen en associatie is. Trend pattern: identificeert subgroups met een trend in target variabele
SubgroupMiner Subgroup mining systeem: multirelationale hypotheses efficiënte database integratie, deel van zoek algoritme in spatial database system (SDBS) visualisatie resultaten in GIS
Sterke punten SubgroupMiner Data access: geen data transformatie, geen fouten Geen Pre-processing: joins alleen berekenen wanneer nodig Visualisatie: Visualisatie GIS en data mining gebruiken dezelfde data
Representatie spatial data Object-relational database Spatial data base S: verzameling relaties R1,…,Rn elke relatie Ri is gelinkt met een relatie Rk via een geometrische attribuut Gi of een attribuut Ai van Ri Geometrisch attribuut Gi: geordende verzameling x-y-coördinaten (punten, lijnen, polygonen)
Representatie spatial data Verschillende objecten (straten, gebouwen) opgeslagen in verschillende relaties Ri (geografische lagen) Elke laag heeft verzameling attributen A1,…,Am (thematische data) en maximaal 1 geometrisch attribuut Gi
Querying multirelational spatial data Extra operatie spatial join Linkt twee relaties op basis van hun geometrische attribuut Afstand of topologische relatie (disjoint, overlap, covers, inside, intersect, interacts) Index structures (KD-trees, quadtrees) voor efficiënt spatial joins
Pre-processing (1) SDBS: multirelational met non-atomic data types (punten, lijnen,polygonen) Veel spatial data mining aanpakken: singlerelational data met atomic data types Pre-processen: alle attributen die nodig zijn in 1 tabel joinen met alleen atomic data types
Pre-processing (2) Nadelen: Voordeel: sneller tijdens analyse beperkt hypothese ruimte inefficiënt voor opslag en rekentijd: onderzoekt hele hypothese ruimte overtollige data Voordeel: sneller tijdens analyse SubgroupMiner geen pre-processing: tabellen dynamisch joinen, attributen selecteren tijdens zoeken
Spatial subgroup Subverzameling van analyse objecten beschreven door een verzameling expressies: operaties op de spatial referenties van objecten Voorbeeld: alle vegetatie records dichtbij een rivier spatial predikaat minimum afstand op coördinaten van objecten vegetatie records en rivieren
Hypothesis language (1) Multirelational subgroup: concept set C = {Ci} concept Ci = {Ci.A1=v1,…, Ci.An=vn} C = { {records.river_distance=medium, records.indigofera=3}, {soil.type=‘Ql11-1a’} }
Hypothesis language (2) Multirelational subgroup: set of links L = {Li} link Li = Cj.Am θ Ck.Al tussen twee concepts Cj en Ck θ is ‘=‘, afstand, topologische relatie (disjoint, overlap, covers, inside, intersect) L = {{spatially_interacts(records.geometry, soil.geometry)}}
SubgroupMiner Integratie met spatial database systeem: subgroups omschrijven in een query taal query uitvoeren op spatial database teruggekregen subgroups uit database evalueren: hoeveel afwijking van target variabele
Subgroups in query-taal SQL: FROM: relaties (tabellen) WHERE: links en selectors (attribuut-waarde) C = { {records.river_distance=medium, records.indigofera=3}, {soil.type=‘Ql11-1a’} } L = {{spatially_interacts(records.geometry, soil.geometry)}}
Subgroup mining algoritme (1) Iteraties van general naar specific In elke iteratie: parents subgroups uitbreiden op allerlei manieren gespecialiseerde subgroups evalueren nieuwe parent subgroups selecteren voor volgende iteratie
Subgroup mining algoritme (2) Subgroup uitbreiden: selector of link toevoegen Subgroup evalueren: quality function gebaseerd op afwijking van target variabele en (relatieve) grootte van subgroup Subgroup selecteren: quality hoog
Subgroup mining algoritme (3) Stop criteria mining: maximum search depth geen enkele subgroup met hoge quality
Applicatie (1) Analyse van vegetatie data van Nigeria 132 vegetaties records: 1 per site, elk record beschrijft welke planten voorkomen terrein informatie: vorm oppervlak, afwatering bodem informatie: graad van erosie, inwortel diepte thematische lagen: rivieren, steden
Applicatie (2) Doel is onderzoeken van geschikte conditie voor het bestaan van een plantensoort: ander plantensoorten ecologische condities: regenval, bodem type niet-lokale condities: afstand tot rivier
Applicatie (3) Resultaten
Applicatie (4) Resultaten
Visualisatie(1)
Visualisatie(2) Plot P(T|C) tegen P(T)
Conclusies Subgroups SubgroupMiner Subgroup mining algoritme Database integratie Geen pre-processing Visulatie in GIS Subgroup mining algoritme Spatial joins duur: cach search results