Modelling spatial dependencies for mining geospatial data Marlies Mooijekind.

Modelling spatial dependencies for mining geospatial data Marlies Mooijekind

Inhoud n Spatial data mining n Spatial data n Predicting Locations n Technieken (vergelijking) –SAR –PLUMS n Conclusies

Spatial data mining n Spatial patterns belangrijk n 2 historische gevallen: –1855 Aziatische cholera in Londen –1909 inwoners van Colorado Springs n Spatial data mining = automatisch zoeken van mogelijke bruikbare patronen

Spatial data mining n Klassieke data mining algoritmes –onafhankelijke en identieke distributie –geen rekening met spatial autocorrelation –slechte resultaten n Spatial data first law: everything is related to everything else but nearby things are more related than distant things

Eigenschappen spatial data n Spatial autocorrelation –everything is related to everything else but nearby things are more related n Spatial heterogeneity –variatie in spatial data is een functie van zijn locatie

Technieken voor spatial data mining n Spatial statistics techniques: –expliciet spatial autocorrelation modelleren –veel rekenwerk n PLUMS (Predicting Locations Using Map Similarity)

Predicting Locations Using Map Similarity n Zoekt parameter space van modellen af m.b.v. map similarity measure n Nauwkeurigheid vergelijkbaar met spatial statistics techniques n Fractie van de rekenkosten n Generiek framework

Vergelijking technieken n Location prediction –nestlocaties –crime prevention

Voorbeeld: nestlocaties n Model bouwen voor voorspellen van locatie van nesten van rood- gevleugelde merel n Data van twee wetlands Dar en Stubble uit 1995 en 1996: –Dar 1995, Dar 1996, Stubble 1995, Stubble 1996

Model bouwen n Deel van data als learning/training data voor bouwen van learned model n Andere deel als testing data voor het testen van learned model n Learned model voor het voorspellen van locaties

Data n Onafhankelijk variabelen: –duurzaamheid van vegetatie –afstand tot open water –waterdiepte –etc. n Afhankelijke variabele –aanwezigheid van nest Deze variabelen gebruiken voor bouwen van model

Eigenschappen data n Spatial autocorrelation

Eigenschappen data n Spatial heterogeneity

Dus... n Negeren van spatial autocorrelation en spatial heterogeneity levert slechte resultaten

Classification accuracy measure n Standaard: percentage correct geclassificeerd objecten

Spatial accuracy measure n Spatial accuracy: hoe ver liggen voorspellingen van werkelijke posities n Average Distance to Nearest Prediction (ADNP) A k = echte nestlocaties P = map layer met voorspelde nestlocaties A k.nearest(P) = dichtstbijzijnde voorspelling bij A k

Location prediction n Spatial framework S bestaande uit sites {s 1,…,s n } n Verzamling explanatory functions –fx k : S  R k, k=1,…,K. n Dependent function f y : S  R y n Familie F van learning model functions R 1 ...  R K  R y

Location prediction n Vind een functie f ^ y  F n Doel: maximaliseer similarity(map s i  S (f ^ y (fx,…,fx k )), map(f y (s i )) = (1-  )classification_accuracy(f ^ y,f y ) + (  )spatial_accuracy(f ^ y,f y )

Location prediction van nestlocaties n Constraints –waarden van explanatory functions fx k s en dependent function f y hebben spatial autocorrelation –domein R k van explanatory functions is 1-D reële getallen –domein dependent variabele R y = {0,1}

Spatial autoregressive model (SAR) n Spatial statistics technique n Uitbreiding op linear regression n Modelleert expliciet spatial autocorrelation m.b.v. neigbourhood relationship contiguity matrix

Linear regression modelling n n-vector y met observaties n n  m matrix X met explanatory data n Classical linear regression modelleert relatie tussen y en X als y = X  +  n  = (  1 …  m ) n errorvector  = N(0,  2 )

Spatial autocorrelation kwantificeren n Veel measures voor kwantificeren spatial autocorrelation n Alle spatial autocorrelation measures afhankelijk van keuze contiguity matrix W

Neigbourhood relationship contiguity matrix

Spatial autoregressive model (SAR) n Relaties y i = f(y j ) modelleren, i  j n y =  Wy + X  +  n Spatial dependencies van error/dependent variabele direct in regressie model gemodelleerd met  Wy n W en  schatten m.b.v. maximum likelihood theory of Bayesian statistics n Veel rekenwerk

Linear regression versus SAR n Dar 1995 learning data n Comparison in space: Stubble 1995

Linear regression versus SAR n Dar 1995 learning data n Comparison in time: Dar 1996

Framework PLUMS

Keuzes in PLUMS n Map similarity –ADNP, nearest neighbour index etc. n Search algorithm –Greedy, simulated annealing etc. n Function family –Generalized linear, non-linear etc. n Discrezation of parameter space –Uniform, non-uniform etc.

Voorbeeld implementatie n Map similarity: ANDP n Discrezation: uniform grid met cell- grootte  n Function family: generalized linear model n Search algorithm: greedy search

Greedy search n Neemt een seed-value tuple van paramaters, bijv. (a,b,c) n Ondezoekt buren in directe omgeving van huidige tuple, bijv. (a+ ,b,c), (a- ,b,c), (a,b+ ,c), (a,b- ,c), (a,b,c+  ), (a,b,c-  ) n Herhaal voor buur met hoogste map similarity n Stopt in lokaal maximum

PLUMS en SAR n Dar 1995 learning data n Comparison in space: Stubble 1995

Conclusie n PLUMS –framework voor spatial data mining –bij location prediction sneller dan SAR –toekomst: andere data mining technieken in framework

Modelling spatial dependencies for mining geospatial data Marlies Mooijekind.

Verwante presentaties

Presentatie over: "Modelling spatial dependencies for mining geospatial data Marlies Mooijekind."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

Modelling spatial dependencies for mining geospatial data Marlies Mooijekind.

Verwante presentaties

Presentatie over: "Modelling spatial dependencies for mining geospatial data Marlies Mooijekind."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback