Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdAgnes Brabander Laatst gewijzigd meer dan 10 jaar geleden
1
Modelling spatial dependencies for mining geospatial data Marlies Mooijekind
2
Inhoud n Spatial data mining n Spatial data n Predicting Locations n Technieken (vergelijking) –SAR –PLUMS n Conclusies
3
Spatial data mining n Spatial patterns belangrijk n 2 historische gevallen: –1855 Aziatische cholera in Londen –1909 inwoners van Colorado Springs n Spatial data mining = automatisch zoeken van mogelijke bruikbare patronen
4
Spatial data mining n Klassieke data mining algoritmes –onafhankelijke en identieke distributie –geen rekening met spatial autocorrelation –slechte resultaten n Spatial data first law: everything is related to everything else but nearby things are more related than distant things
5
Eigenschappen spatial data n Spatial autocorrelation –everything is related to everything else but nearby things are more related n Spatial heterogeneity –variatie in spatial data is een functie van zijn locatie
6
Technieken voor spatial data mining n Spatial statistics techniques: –expliciet spatial autocorrelation modelleren –veel rekenwerk n PLUMS (Predicting Locations Using Map Similarity)
7
Predicting Locations Using Map Similarity n Zoekt parameter space van modellen af m.b.v. map similarity measure n Nauwkeurigheid vergelijkbaar met spatial statistics techniques n Fractie van de rekenkosten n Generiek framework
8
Vergelijking technieken n Location prediction –nestlocaties –crime prevention
9
Voorbeeld: nestlocaties n Model bouwen voor voorspellen van locatie van nesten van rood- gevleugelde merel n Data van twee wetlands Dar en Stubble uit 1995 en 1996: –Dar 1995, Dar 1996, Stubble 1995, Stubble 1996
10
Model bouwen n Deel van data als learning/training data voor bouwen van learned model n Andere deel als testing data voor het testen van learned model n Learned model voor het voorspellen van locaties
11
Data n Onafhankelijk variabelen: –duurzaamheid van vegetatie –afstand tot open water –waterdiepte –etc. n Afhankelijke variabele –aanwezigheid van nest Deze variabelen gebruiken voor bouwen van model
12
Eigenschappen data n Spatial autocorrelation
13
Eigenschappen data n Spatial heterogeneity
14
Dus... n Negeren van spatial autocorrelation en spatial heterogeneity levert slechte resultaten
15
Classification accuracy measure n Standaard: percentage correct geclassificeerd objecten
16
Spatial accuracy measure n Spatial accuracy: hoe ver liggen voorspellingen van werkelijke posities n Average Distance to Nearest Prediction (ADNP) A k = echte nestlocaties P = map layer met voorspelde nestlocaties A k.nearest(P) = dichtstbijzijnde voorspelling bij A k
17
Location prediction n Spatial framework S bestaande uit sites {s 1,…,s n } n Verzamling explanatory functions –fx k : S R k, k=1,…,K. n Dependent function f y : S R y n Familie F van learning model functions R 1 ... R K R y
18
Location prediction n Vind een functie f ^ y F n Doel: maximaliseer similarity(map s i S (f ^ y (fx,…,fx k )), map(f y (s i )) = (1- )classification_accuracy(f ^ y,f y ) + ( )spatial_accuracy(f ^ y,f y )
19
Location prediction van nestlocaties n Constraints –waarden van explanatory functions fx k s en dependent function f y hebben spatial autocorrelation –domein R k van explanatory functions is 1-D reële getallen –domein dependent variabele R y = {0,1}
20
Spatial autoregressive model (SAR) n Spatial statistics technique n Uitbreiding op linear regression n Modelleert expliciet spatial autocorrelation m.b.v. neigbourhood relationship contiguity matrix
21
Linear regression modelling n n-vector y met observaties n n m matrix X met explanatory data n Classical linear regression modelleert relatie tussen y en X als y = X + n = ( 1 … m ) n errorvector = N(0, 2 )
22
Spatial autocorrelation kwantificeren n Veel measures voor kwantificeren spatial autocorrelation n Alle spatial autocorrelation measures afhankelijk van keuze contiguity matrix W
23
Neigbourhood relationship contiguity matrix
24
Spatial autoregressive model (SAR) n Relaties y i = f(y j ) modelleren, i j n y = Wy + X + n Spatial dependencies van error/dependent variabele direct in regressie model gemodelleerd met Wy n W en schatten m.b.v. maximum likelihood theory of Bayesian statistics n Veel rekenwerk
25
Linear regression versus SAR n Dar 1995 learning data n Comparison in space: Stubble 1995
26
Linear regression versus SAR n Dar 1995 learning data n Comparison in time: Dar 1996
27
Framework PLUMS
28
Keuzes in PLUMS n Map similarity –ADNP, nearest neighbour index etc. n Search algorithm –Greedy, simulated annealing etc. n Function family –Generalized linear, non-linear etc. n Discrezation of parameter space –Uniform, non-uniform etc.
29
Voorbeeld implementatie n Map similarity: ANDP n Discrezation: uniform grid met cell- grootte n Function family: generalized linear model n Search algorithm: greedy search
30
Greedy search n Neemt een seed-value tuple van paramaters, bijv. (a,b,c) n Ondezoekt buren in directe omgeving van huidige tuple, bijv. (a+ ,b,c), (a- ,b,c), (a,b+ ,c), (a,b- ,c), (a,b,c+ ), (a,b,c- ) n Herhaal voor buur met hoogste map similarity n Stopt in lokaal maximum
31
PLUMS en SAR n Dar 1995 learning data n Comparison in space: Stubble 1995
32
Conclusie n PLUMS –framework voor spatial data mining –bij location prediction sneller dan SAR –toekomst: andere data mining technieken in framework
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.