Algorithms and Application for spatial data mining Ronnie Bathoorn.

Slides:



Advertisements
Verwante presentaties
Visualisatie “The use of computer-supported, interactive, visual representations of abstract data to amplify cognition” (Card et al., 1999)
Advertisements

Help, ik moet naar Office 2007!?. Wat horen wij bij klanten Training “New UI will cause too big of a loss in productivity” Training “New UI will cause.
Atos, Atos and fish symbol, Atos Origin and fish symbol, Atos Consulting, and the fish itself are registered trademarks of Atos Origin SA. August 2006.
CO2, 1 april CO2, April 1 CO2 uitstoot door; CO2 emissions;
Hoe SQL injection werkt
Social Technographics Hoe ontwikkel je een succesvolle social media strategie? Reineke Reitsma Director, Consumer Technographics Forrester Research 11.
Taaltheorie en Taalverwerking Week 4: Parseer-algoritmes.
1 Company Proprietary and Confidential Copyright Info Goes Here Just Like This PRESENTATIE MULTIMEDIA GLR 2: 20 maart 2013 Company Proprietary and Confidential.
Teams on the frontline Geert Stroobant De Heide - Balans
Programmeren in Java met BlueJ
Lucene/SOLR 1: inleiding + indexering
COSTA Common Set of Tools for Assimilation of Data OpenDA/COSTA voor operationele modellen en kalibratie rivier toepassingen Nils van Velzen Simona gebruikersdag.
DATA over. Visie Elk jaar neemt behoefte aan data en interactie tussen systemen (zowel B-2- B als B-2-C) exponentieel toe; daarom zal het structureren.
OOS Object geOrienteerd Software-ontwerp - 4 Codeerperikelen Singleton Specificeren Scheiding GUI en Domein Facade.
AGENDA Tijd Agenda Spreker 08:00 – 08:30 Registratie en ontbijt
Omgevingen zijn dan geïmplementeerd als Symbol Tables. Symbol Table mapt een symbool met een Binding Meerdere noties van binding –Meerdere manieren te.
Light models Waarom? Mockup Independent Mark up Analyse geometrie samenstellingen >100+ Downstream gebruik Exact/gefacetteerd.
SQL injections en meer... PERU. web application vulnerabilities Cross Site Scripting (21.5%) SQL Injection (14%) PHP includes (9.5%) Buffer overflows.
Inleiding Databanken: oefeningen
Reusable Components and Subsystems Ahmed Lamkanfi Bart Meyers Karen Segers.
Ben Raes en Sam Decrock1 Tracking algoritmes Tracking Algoritmes Richting van ons project.
Jan Talmon Medische Informatica Universiteit Maastricht
Spatial Association. Spatial Association Rule X → Y X → Y P 1 ..  P m → Q1 ..  Qn (c%) P 1 ..  P m → Q1 ..  Qn (c%) Los predicaat: 1-predicate.
Specialismen Analyse en verificatie van protocollen Analyse van Petri-netten Component-specificatie Web-based information systems (Query)talen voor Web.
Synchronization and propagation in a network of electrically coupled cells =====
Algoritmiek Arrays: wat zijn dat en wat kun je ermee? Loops: hoe hou je ze in bedwang? Hoorcollege 6 - Ma. 9 okt L.M. Bosveld-de Smet.
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Probleem P 1 is reduceerbaar tot P 2 als  afbeelding  :P 1  P 2 zo dat: I yes-instantie van P 1   (I) yes-instantie van P 2 als ook:  polytime-algoritme,
Client Management met ConfigMgr Jannes Alink – Management.
Databases I EER and Object Modeling Martin Caminada / Wiebren de Jonge Vrije Universiteit, Amsterdam definitieve versie 2002.
Databases I (H.3) Het Entity-Relationship Model Wiebren de Jonge Vrije Universiteit, Amsterdam versie 2003.
IOP and Vrije Universiteit1 Example of bad interface  Windows: Use Start to Stop.
Advanced Business Information Solutions Interactieve marketing.
3.6 Architecture of HIS. 3.7 Integrity & Integration within HIS Suraja Padarath /10/2007.
Modelling spatial dependencies for mining geospatial data Marlies Mooijekind.
Effiecient Mining of Spatiotemporal Patterns GDM 2003 Dènis de Keijzer.
Netwerk Algorithms: Shortest paths1 Shortest paths II Network Algorithms 2004.
Spatial classificatie
Spatial subgroup mining
Flocking using Global Roadmaps Niels Gorisse Motion Planning 26 februari 2003 University Utrecht.
Hoorcollege 7 Collections, arrays. Programma ‘Snowflakes’ Sneeuwvlok object.
Bemonstering & digitale signaalanalyse
Present simple & continuous
Instructions and warnings. Instructions Om in het Engels een instructie te maken gebruikt men, net als in het Nederlands de Gebiedende Wijs.
Automation SolutionsMFG/Pro Dutch usergroup 8 februari 2007 ISA S88 & S95 Het gebruik van deze normen in de productie.
Hidden Markov Models Introductie Project: 1. Initializatie 2. Training.
JAVA1 H 22. COLLECTIONS FRAMEWORK. 1. INLEIDING. Collections framework Is een verzameling van data structuren, interfaces en algoritmen Meest voorkomende.
Reducing memory penalty by a programmable prefetch engine for on-chip caches Presentatie voor het vak computerarchitectuur door Armin van der Togt.
Hoofdstuk 2 Java. Soorten Java-programma’s nJava Applet programma “leeft” op een WWW-pagina nJava Application programma heeft een eigen window nJavascript.
1 Over het examen (1): Modus Mondeling met schriftelijke voorbereiding 4 uur, 3 onderdelen: –Modellering (  schriftelijk, dan mondeling) –Queries / relationeel.
Dutch Automatic Speech Recognition Using Kohonen Neural Networks Delft University of Technology Faculty of Information Technology and Systems Knowledge-Based.
Advanced Modulation and Coding : Estimation and decision theory 1 Geavanceerde Modulatie en Codering Estimatie- en Decisietheorie.
1 december KC Development Tools Hands-on Oracle HTML DB v2.0.
Future (toekomst) Je krijgt 2 verschillende vormen van Future.
AOPA KNVvL 1 Safety Management System (SMS) The Basics Paul van den Berk AOPA KNVvL Lelystad.
Shortest path with negative arc-costs allowed. Dijkstra?
Sketchpad - Introductie Mens en computer kunnen snel converseren door medium van line drawings Hexagons als één symbool (Ring Structure) Verschil met potlood.
Ted Nelson (1937- ) A file structure for the Complex, the changing, and the Interdeterminate.
Taaltheorie en Taalverwerking Parsing Continued. Totnutoe: Top-Down-Parser.
Combining pattern-based and machine learning methods to detect definitions for eLearning purposes Eline Westerhout & Paola Monachesi.
Major/minor Kwantitatieve methoden (HIR) Predoctoraal traject (HIR) Minor Business Research (TEW/MBE) maart 2014.
Plan Coordination by Revision in Collective Agent Based Systems Adriaan ter Mors en Gijsbert Deelder Plan Coordination by Revision in Collective.
BB examen Dorus Daris. Stage 1 Er zijn trends in de doorlooptijden waarneembaar.
C++ C++ als een verbetering van C Abstracte datatypen met classes Constructoren en destructoren Subklassen binding van functies 1.
The beast has been released! 4 arcade-style games Interviews with famous people in the game industry Develop browsers games for any device (phone, tablet,
Ant Systems for dynamic problems. Ants caught in a traffic jam Casper Joost Eyckelhof.
1 OMI Modelleren van content. 2 Vocabulary Content “gevangen” in begrippenapparaat: Vocabulary: lijst met termen nauwelijks semantiek Ontology:
Join Indices … as a tool for Spatial Datamining. Inhoud Inleiding Spatial Relations (Spatial) Join Index Implementatie Conclusie.
MBR AtT1 College 9 Diagnose met correctmodellen. Verdieping in de formalisatie. In reader: Characterizing diagnoses and Systems J. de Kleer, A.
Keuzevoorlichting havo wiskunde AB.
Transcript van de presentatie:

Algorithms and Application for spatial data mining Ronnie Bathoorn

Inhoud Spatial data mining Framework Spatial clustering algorithms Spatial characterization Spatial trend detection Spatial classification

Spatial data mining: Waarom? Handmatige interpretatie onmogelijk Door: –Grote hoeveelheid data –Continue groei in de hoeveelheid data

Spatial data mining: Wat? Het vinden van –Onregelmatigheden –Regels –Patronen In spatiële databases Voortgekomen uit KDD (Knowledge discovery in databases)

Wat is een spatiële database? Bevat objecten gekenmerkt door –Spatiele locatie / extentie –Meerdere niet-spatiele attributen

Wat is KDD? The non-trivial process of discovering valid, novel, potentially usefull and ultimately understandable patterns from data - Fayyad et al. 1996

Spatial data mining: Hoe? Gebruik maken van neighbourhood van objecten Waarde attributen buren kan invloed hebben op waarde attributen object

Spatial data mining 1. Spatial clustering 2. Spatial characterization 3. Spatial trend detection 4. Spatial classification

Framework voor spatial data mining Gebaseerd op: Neighbourhood relations Neighbourhood graphs Neighbourhood paths

Waarom een Framework? Versnelt de ontwikkeling Maakt algoritmes portable Gebruik beter index structuren versnelt alle algoritmen die framework gebruiken Integratie in comerciele DBMSen

Spatial neighbourhood relations Topologisch Afstand Richting En combinaties

Topologische relaties Disjoint Overlap Equals Covers Coverd by Contains Inside

Distance en Direction Distance A distance >2 B Direction B northeast A AB A B

Spatial neighbourhood graphs Definition G = (N,E) Nodes N = DB Edges E subset_of N x N edge e = (n 1,n 2 ) exists iff neighbour(n 1,n 2 ) holds DB neighbour

Spatial neighbourhood paths Definition Neighbourhood path of length k is a sequence [n 1,n 2,…,n k ] where neighbour(n i,n i+1 ) holds for all nodes with 1 ≤ i < k

KDD en paths Paths geven een mogelijkheid om de ruimte af te zoeken Kunnen gebruikt worden om de zoekruimte te beperken Beperken met filters

Filters Geven restricties op de mogelijke paden vanaf een start object StarlikeVariable-StarlikeVertical-Starlike

Extra neighbourhood operations Neighbours : Graph x Object x Predicate → Sets_of_Objects Paths : Sets_of_Objects x Int → Sets_of_Paths Extensions : Graph x s_of_p x Int x Predicate → Sets_of_Paths

DBMS ondersteuning Neighbourhood index –Maximum distance voor relaties om aantal object paren te beperken –Voor alle relatie types (topologisch, afstand, richting) worden de concrete relaties opgeslagen

Neighbourhood index Object-IDNeighbourDistanceDirectionTopology AB2.7South- West Disjoint AC0North- West Overlap ……………

Spatial clustering Groepeer objecten in clusters Objecten in een cluster lijken zoveel mogelijk op elkaar Objecten uit verschillende clusters verschillen zo veel mogelijk betekenis clusters staat niet vast

Spatial clustering Density based algoritme Voor elk punt in een cluster geldt: –Eps-neighbourhood bevat minstens een vastgesteld aantal punten –‘density’ in dit gebied moet boven een threshold liggen

Spatial clustering: GDBSCAN GDBSCAN(DB,NPred,MinWeight) DB zijn de spatiële objecten NPred is de neighbourhood relation MinWeight is de ‘density’ threshold

Spatial clustering: GDBSCAN Berekent de neighbourhood van elk object Als ‘density’ (neigbourhood) > threshold –Maak hier een cluster van –Bereken neighbourhood van alle toegevoegde objecten –Laat cluster groeien zolang ‘density’ > threshold

Spatial clustering: toepassing 1 Verdeel 5-D featurespace verkregen uit verschillende satteliet foto’s van Californië in classen Methode GDBSCAN met –NPred(X,Y) = dist(X,Y) < 1.42 –MinWeight(N) = cardinality(N) ≥ 20 Objecten in classen waarscheinlijk van zelfde type grond

Spatial clustering: toepassing 2 Detecteren van ‘influence regions’ in Economisch geografische data over Duitsland Methode –Detecteer ‘influence regions’ –Zoek maximale neighbourhood die lijkt op het centrale object van de cluster –Vergelijk met theoretische waarde voor het vinden van afwijkingen

Spatial characterization Vinden van compacte beschrijving van een subset uit een database beschrijving bestaat uit spatial association rules

Spatial association rules Beschrijven van associaties door middel van spatiële neighbourhood relaties Is_a(X,town) → close_to(X,Y) and is_a(Y,water) (80%)

Spatial Apriori Maakt gebruik van de realieve frequentie van waarden in de database ten opzichte van de subset ƒ (prop)= DB targets Freq targets (prop) Card(targets) freqDB(prop) Card(DB)

Spatial characterization Het vinden van alle eigenschappen waarvoor geldt: ƒ (prop) ≥ significance voor ten minste min_confidence objecten DB nh(subset)

Spatial characterization: Toepassing Vinden van spatial characterization van economische kracht van een gemeenschap Methode –Vergroot de regio om de start subset –Kies eigenschappen in deze regio die meest informatie bevatten –Genereer spatial rules die deze regio beschrijven

Spatial trend detection Spatial trend is gelijkmatige verandering van 1 of meer attributen wanneer je afstand neemt van startobject O Gelijkmatigheid wordt beschreven door regressie op de attributen van objecten in een neighbourhood path

Spatial trend detection: Algoritme Lineare Regressie –Start vanuit een source object O 1 –Bepaal de afstand to object O 2 op een neighbourhood path vanuit O 1 –Bepaal het verschil in niet-spatiële attributen tussen de 2 objecten –Er is een trend wanneer er genoeg correlatie tussen deze 2 waarden is

Spatial trend detection Detecteren globale trend –Breath-first search op all neighbourhood paths vanuit O 1 Detecteren locale trend –Depth-first search op all neighbourhood paths vanuit O 1

Spatial trend detection: Toepassing Detecteer trends in de economische welvaart van communities in Duitsland Methode Lineare regressie 0.6 < Correlatie < 0.8 op ‘gemiddelde huur’ Filter = vertical-starlike 4 < Path lengte < 7

Spatial Classification Ken object toe aan classe Mogelijke classen zijn gegeven Toekenning gebasseerd op waarde van attributen Waarde van attributen van buren kunnen ook van invloed zijn

Spatial classification: Algoritme Decision tree algorithm Uitbreiding op ID3 –Generalized attributes lijst met alle waardes van dit atribuut op een neighbourhood path –Lengte paden is begrenst omdat invloed van verre buren kleiner is

Spatial classification: Algoritme Nearest neighbour Nearest hit en nearest miss gebruikt om kenmerkende eigenschappen van classe te vinden Decision tree wordt gemaakt met kenmerkende attributen Boom gemaakt met geaggregeerde data

Conclusie Door gebruik te maken van neighbourhood graphs en paths kunnen mining algoritmen efficient uitgevoerd worden op commerciële DBMSen Het model kan uitgebreidt worden met de tijd-dimensie om analyse op historische gegevens mogelijk te maken