Modelling spatial dependencies for mining geospatial data Marlies Mooijekind
Inhoud n Spatial data mining n Spatial data n Predicting Locations n Technieken (vergelijking) –SAR –PLUMS n Conclusies
Spatial data mining n Spatial patterns belangrijk n 2 historische gevallen: –1855 Aziatische cholera in Londen –1909 inwoners van Colorado Springs n Spatial data mining = automatisch zoeken van mogelijke bruikbare patronen
Spatial data mining n Klassieke data mining algoritmes –onafhankelijke en identieke distributie –geen rekening met spatial autocorrelation –slechte resultaten n Spatial data first law: everything is related to everything else but nearby things are more related than distant things
Eigenschappen spatial data n Spatial autocorrelation –everything is related to everything else but nearby things are more related n Spatial heterogeneity –variatie in spatial data is een functie van zijn locatie
Technieken voor spatial data mining n Spatial statistics techniques: –expliciet spatial autocorrelation modelleren –veel rekenwerk n PLUMS (Predicting Locations Using Map Similarity)
Predicting Locations Using Map Similarity n Zoekt parameter space van modellen af m.b.v. map similarity measure n Nauwkeurigheid vergelijkbaar met spatial statistics techniques n Fractie van de rekenkosten n Generiek framework
Vergelijking technieken n Location prediction –nestlocaties –crime prevention
Voorbeeld: nestlocaties n Model bouwen voor voorspellen van locatie van nesten van rood- gevleugelde merel n Data van twee wetlands Dar en Stubble uit 1995 en 1996: –Dar 1995, Dar 1996, Stubble 1995, Stubble 1996
Model bouwen n Deel van data als learning/training data voor bouwen van learned model n Andere deel als testing data voor het testen van learned model n Learned model voor het voorspellen van locaties
Data n Onafhankelijk variabelen: –duurzaamheid van vegetatie –afstand tot open water –waterdiepte –etc. n Afhankelijke variabele –aanwezigheid van nest Deze variabelen gebruiken voor bouwen van model
Eigenschappen data n Spatial autocorrelation
Eigenschappen data n Spatial heterogeneity
Dus... n Negeren van spatial autocorrelation en spatial heterogeneity levert slechte resultaten
Classification accuracy measure n Standaard: percentage correct geclassificeerd objecten
Spatial accuracy measure n Spatial accuracy: hoe ver liggen voorspellingen van werkelijke posities n Average Distance to Nearest Prediction (ADNP) A k = echte nestlocaties P = map layer met voorspelde nestlocaties A k.nearest(P) = dichtstbijzijnde voorspelling bij A k
Location prediction n Spatial framework S bestaande uit sites {s 1,…,s n } n Verzamling explanatory functions –fx k : S R k, k=1,…,K. n Dependent function f y : S R y n Familie F van learning model functions R 1 ... R K R y
Location prediction n Vind een functie f ^ y F n Doel: maximaliseer similarity(map s i S (f ^ y (fx,…,fx k )), map(f y (s i )) = (1- )classification_accuracy(f ^ y,f y ) + ( )spatial_accuracy(f ^ y,f y )
Location prediction van nestlocaties n Constraints –waarden van explanatory functions fx k s en dependent function f y hebben spatial autocorrelation –domein R k van explanatory functions is 1-D reële getallen –domein dependent variabele R y = {0,1}
Spatial autoregressive model (SAR) n Spatial statistics technique n Uitbreiding op linear regression n Modelleert expliciet spatial autocorrelation m.b.v. neigbourhood relationship contiguity matrix
Linear regression modelling n n-vector y met observaties n n m matrix X met explanatory data n Classical linear regression modelleert relatie tussen y en X als y = X + n = ( 1 … m ) n errorvector = N(0, 2 )
Spatial autocorrelation kwantificeren n Veel measures voor kwantificeren spatial autocorrelation n Alle spatial autocorrelation measures afhankelijk van keuze contiguity matrix W
Neigbourhood relationship contiguity matrix
Spatial autoregressive model (SAR) n Relaties y i = f(y j ) modelleren, i j n y = Wy + X + n Spatial dependencies van error/dependent variabele direct in regressie model gemodelleerd met Wy n W en schatten m.b.v. maximum likelihood theory of Bayesian statistics n Veel rekenwerk
Linear regression versus SAR n Dar 1995 learning data n Comparison in space: Stubble 1995
Linear regression versus SAR n Dar 1995 learning data n Comparison in time: Dar 1996
Framework PLUMS
Keuzes in PLUMS n Map similarity –ADNP, nearest neighbour index etc. n Search algorithm –Greedy, simulated annealing etc. n Function family –Generalized linear, non-linear etc. n Discrezation of parameter space –Uniform, non-uniform etc.
Voorbeeld implementatie n Map similarity: ANDP n Discrezation: uniform grid met cell- grootte n Function family: generalized linear model n Search algorithm: greedy search
Greedy search n Neemt een seed-value tuple van paramaters, bijv. (a,b,c) n Ondezoekt buren in directe omgeving van huidige tuple, bijv. (a+ ,b,c), (a- ,b,c), (a,b+ ,c), (a,b- ,c), (a,b,c+ ), (a,b,c- ) n Herhaal voor buur met hoogste map similarity n Stopt in lokaal maximum
PLUMS en SAR n Dar 1995 learning data n Comparison in space: Stubble 1995
Conclusie n PLUMS –framework voor spatial data mining –bij location prediction sneller dan SAR –toekomst: andere data mining technieken in framework