De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Spatial subgroup mining Marlies Mooijekind. Overzicht n Spatial subgroup mining: spatial patterns n SubgroupMiner n Spatial data n Spatial subgroups n.

Verwante presentaties


Presentatie over: "Spatial subgroup mining Marlies Mooijekind. Overzicht n Spatial subgroup mining: spatial patterns n SubgroupMiner n Spatial data n Spatial subgroups n."— Transcript van de presentatie:

1 Spatial subgroup mining Marlies Mooijekind

2 Overzicht n Spatial subgroup mining: spatial patterns n SubgroupMiner n Spatial data n Spatial subgroups n Subgroup mining algoritme n Applicatie

3 Spatial subgroup mining n Subgroup: deelverzameling van een populatie met bepaalde eigenschappen –Werkeloosheid is hoog voor jonge mannen met een lage opleiding n Subgroup mining: subgroups vinden waarvan de target variabele afwijkt om afhankelijkheid tussen target variabele en explanatory variabelen te analyseren

4 Subgroup patterns n Deviation pattern: beschrijft subgroup met een afwijking van target variabele t.o.v. hele populatie n Association pattern: identificeert een paar van subgroups waartussen en associatie is. n Trend pattern: identificeert subgroups met een trend in target variabele

5 SubgroupMiner n Subgroup mining systeem: –multirelationale hypotheses –efficiënte database integratie, deel van zoek algoritme in spatial database system (SDBS) –visualisatie resultaten in GIS

6 Sterke punten SubgroupMiner n Data access: –geen data transformatie, geen fouten n Geen Pre-processing: –joins alleen berekenen wanneer nodig n Visualisatie: –Visualisatie GIS en data mining gebruiken dezelfde data

7 Representatie spatial data n Object-relational database n Spatial data base S: verzameling relaties R 1,…,R n –elke relatie R i is gelinkt met een relatie R k via een geometrische attribuut G i of een attribuut A i van R i n Geometrisch attribuut G i : geordende verzameling x-y-coördinaten (punten, lijnen, polygonen)

8 Representatie spatial data n Verschillende objecten (straten, gebouwen) opgeslagen in verschillende relaties R i (geografische lagen) n Elke laag heeft verzameling attributen A 1,…,A m (thematische data) en maximaal 1 geometrisch attribuut G i

9 Querying multirelational spatial data n Extra operatie spatial join n Linkt twee relaties op basis van hun geometrische attribuut n Afstand of topologische relatie (disjoint, overlap, covers, inside, intersect, interacts) n Index structures (KD-trees, quadtrees) voor efficiënt spatial joins

10 Pre-processing (1) n SDBS: multirelational met non-atomic data types (punten, lijnen,polygonen) n Veel spatial data mining aanpakken: singlerelational data met atomic data types n Pre-processen: alle attributen die nodig zijn in 1 tabel joinen met alleen atomic data types

11 Pre-processing (2) n Nadelen: –beperkt hypothese ruimte –inefficiënt voor opslag en rekentijd: onderzoekt hele hypothese ruimte –overtollige data n Voordeel: sneller tijdens analyse n SubgroupMiner geen pre-processing: tabellen dynamisch joinen, attributen selecteren tijdens zoeken

12 Spatial subgroup n Subverzameling van analyse objecten beschreven door een verzameling expressies: –operaties op de spatial referenties van objecten n Voorbeeld: alle vegetatie records dichtbij een rivier –spatial predikaat minimum afstand op coördinaten van objecten vegetatie records en rivieren

13 Hypothesis language (1) n Multirelational subgroup: –concept set C = {C i } –concept C i = {C i.A 1 =v 1,…, C i.A n =v n } C = { {records.river_distance=medium, records.indigofera=3}, {soil.type=‘Ql11-1a’} }

14 Hypothesis language (2) n Multirelational subgroup: –set of links L = {L i } –link L i = C j.A m θ C k.A l tussen twee concepts C j en C k –θ is ‘=‘, afstand, topologische relatie (disjoint, overlap, covers, inside, intersect) L = {{spatially_interacts(records.geometry, soil.geometry)}}

15 SubgroupMiner n Integratie met spatial database systeem: –subgroups omschrijven in een query taal –query uitvoeren op spatial database –teruggekregen subgroups uit database evalueren: hoeveel afwijking van target variabele

16 Subgroups in query-taal n SQL: –FROM: relaties (tabellen) –WHERE: links en selectors (attribuut- waarde) C = { {records.river_distance=medium, records.indigofera=3}, {soil.type=‘Ql11-1a’} } L = {{spatially_interacts(records.geometry, soil.geometry)}}

17 Subgroup mining algoritme (1) n Iteraties van general naar specific n In elke iteratie: –parents subgroups uitbreiden op allerlei manieren –gespecialiseerde subgroups evalueren –nieuwe parent subgroups selecteren voor volgende iteratie

18 Subgroup mining algoritme (2) n Subgroup uitbreiden: selector of link toevoegen n Subgroup evalueren: quality function gebaseerd op afwijking van target variabele en (relatieve) grootte van subgroup n Subgroup selecteren: quality hoog

19 Subgroup mining algoritme (3) n Stop criteria mining: –maximum search depth –geen enkele subgroup met hoge quality

20 Applicatie (1) n Analyse van vegetatie data van Nigeria –132 vegetaties records: 1 per site, elk record beschrijft welke planten voorkomen –terrein informatie: vorm oppervlak, afwatering –bodem informatie: graad van erosie, inwortel diepte –thematische lagen: rivieren, steden

21 Applicatie (2) n Doel is onderzoeken van geschikte conditie voor het bestaan van een plantensoort: –ander plantensoorten –ecologische condities: regenval, bodem type –niet-lokale condities: afstand tot rivier

22 Applicatie (3) n Resultaten

23 Applicatie (4) n Resultaten

24 Visualisatie(1)

25 Visualisatie(2) n Plot P(T|C) tegen P(T)

26 Conclusies n Subgroups n SubgroupMiner –Database integratie –Geen pre-processing –Visulatie in GIS n Subgroup mining algoritme n Spatial joins duur: cach search results


Download ppt "Spatial subgroup mining Marlies Mooijekind. Overzicht n Spatial subgroup mining: spatial patterns n SubgroupMiner n Spatial data n Spatial subgroups n."

Verwante presentaties


Ads door Google