Fundamentals of spatial data warehousing for geographic knowledge discovery Michiel Rook, 15/9/2003
Introductie (1) Door technologische vooruitgang nieuwe eisen Evolutie van GIS volgt grofweg zelfde pad als overige IT Databases gebruiken voor besluitvorming Maar, – Meerdere, onafhankelijke databases – Lastig te integreren
Introductie (2) Behoefte aan – Gebruik data van huidige systemen – Snelle antwoorden – Simpele GUI – Verschillende niveaus van aggregatie, detail en tijd – (Gedeeltelijke) Automatische analyse Kortom, uit verschillende bronnen moet nuttige informatie gehaald worden
Data Warehouse (1) Beslissingsondersteunend Integratie van meerdere,verschillende bronnen Non-volatile, Read-only Meerdere detailniveaus
Data Warehouse (2) 1 van de belangrijkste buzzwords van afgelopen 10 jaar Combineren, transformeren en aggregeren van data is moeilijk en kost veel tijd – Incompatibiliteit – Ontbrekende data – Schaalverschillen Mogelijk erg groot
Data Warehouse vs. Database DatabaseData Warehouse BronKopie TransactiesAnalyse GedetailleerdAggregatie Applicatie-gerichtBusiness-gericht GenormaliseerdRedudancy
Data Mart Subset van Data Warehouse Gespecialiseerd op 1 onderwerp Hoog niveau, veel aggregatie, weinig detail
Data Mart vs. Data Warehouse Data WarehouseData Mart Voor analyseVoor analyse op hoger niveau AggregatieExtreme aggregatie Business-gerichtOnderwerp-gericht DenormalisatieExtreme denormalisatie Grote databaseKleine database
Multi-dimensioneel (1) N-dimensionele matrix – N onafhankelijke variabelen – 1 afhankelijke variabele (measure) Elke dimensie heeft members – Maanden = {Januari,Februari,Maart,…} – Hiërarchisch rangschikken Jaar > kwartaal > maand > week > dag
Multi-dimensioneel (2) Measures – bijv. totale omzet van vlees in 2002 in filiaal X ‘The reason why multidimensional systems appear intuitive is because they do business the way we do’
Multi-dimensioneel (3) Afhankelijk van sterke denormalisering – Redundancy – Grote databases – … maar wel sneller
Multidimensioneel (4) Veel dimensies, meerdere niveaus – Groot aantal ‘datacubes’ te berekenen Deelverzameling berekenen Betere methodes voor indexeren
OLAP (1) On-Line Analytical Processing Interactief bekijken en analyseren Multidimensioneel Visualisatie ‘Datacubes’
OLAP (2) ROLAP (Relational OLAP) MOLAP (Multidimensional OLAP) HOLAP (Hybrid OLAP) SOLAP (Spatial OLAP) Werkt het beste op ‘kleinere’ databases
Data Mining (1) Knowledge discovery uit data Automatisch ontdekken van trends en patronen Verschillende technieken – Neurale netwerken – Beslissingsbomen – Genetische algoritmen – Rule induction – Nearest neighbour
Data Mining (2) Beste prestaties op grote datasets – Volume – Complexiteit regels ‘There must be sufficient types and data in a database, before data mining software can discover any useful pattern’
Architecturen 4 ‘standaard’ architecturen – Generic – Federated – Multi-tiered – No Warehouse
Architecturen: Generic (1) Simpel en veel gebruikt Gecentraliseerd Clients gebruiken eigen software – OLAP – Data Mining – EIS
Architecturen: Generic (2)
Architecturen: Federated (1) Standaard ‘three-tiered’ architectuur Deels gedecentraliseerd Subset van data in data marts
Architecturen: Federated (2)
Architecturen: Multi-tiered (1) Typisch ‘four-tiered’ (meer is mogelijk) DW met data op schaal/detailniveau van bronnen DW(‘s) met geaggregeerde data Handig als resultaat van integratie waardevol is
Architecturen: Multi-tiered (2)
Architecturen: No Warehouse (1) No Warehouse = Virtual Warehouse Integratie wordt real-time gedaan Hogere responstijd
Architecturen: No Warehouse (2)
Physical DW vs. Virtual DW PhysicalVirtual Op diskNiet op disk Integratie voorafReal-time (‘on the fly’) Alle data integrerenOn-demand integratie SnellerExtreme denormalisatie Grote databaseKleine database
Spatial Data Warehousing (1) Combineren van GIS en DW geeft interessante resultaten Maar, GIS alleen niet genoeg voor beslissingsondersteuning Ruimtelijke en semantische data al geintegreerd Maar, tools nog steeds te beperkt
Spatial Data Warehousing (2) Numerieke measure – Inkomen per gemeente Ruimtelijke measure – Gebieden met zelfde hoogte
Spatial Data Warehousing (3) Integreren van ruimtelijke data is lastig – Elke kaart en overlay moet correct zijn – Consistente precisie – Juiste referentie systeem – Verschillende detailniveaus
Aggregeren van spatial data Aggregatie kan meerdere vormen aannemen – Geometrisch: polygons -> polygon – Niet-geometrisch: polygons -> naam – Combinatie: polygons -> naam + polygon
Problemen (1) Problemen bij importeren – Slechte documentatie van bronsystemen – Referentiesystemen zijn veranderd – Semantieken en begrippen zijn hergedefinieerd – Precisie van meetinstrumenten is veranderd – Historische gegevens ontbreken Mogelijk geen antwoord op vragen
Problemen (2) Niet altijd een probleem bij – Gereguleerde databases (kadaster) – Stricte kwaliteitseisen (topografische databases) Anders – Geen/ontbrekende historische data (eigenlijk geen DW) – Onbekende kwaliteit
Problemen (3) Gebrek aan data is onvermijdelijk Moeten we mee leven 80% van de moeite gaat in het bouwen van SDW Resultaat is vaak niet wat men hoopt
Research (1) Betere integratie, interoperability – Automatisch integreren a.d.h.v. metadata – Checken van constraints – Automatisch generaliseren Betere planning – Implementatie van warehouse – Inzicht in beperkingen van resultaten
Research (2) Beter omgaan met grote databases – Query optimizers – Spatio-temporal indexing and partitioning – Data update mechanisms Scalability – Incrementele updates – Detail niveaus
Research (3) Query building – Complexiteit van spatio-temporal querying – GUI mist die complexiteit Web technology – XML
Conclusie DW’s combineren data uit heterogene databases en ondersteunen door analyse de besluitvoering Spatial Data Warehouse Spatial OLAP Jong topic, nog veel onderzoek en ontwikkeling