Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdMichiel Smeets Laatst gewijzigd meer dan 6 jaar geleden
1
Over het gebruik van Big Data Resultaten
Sunil Choenni & Niels Netten Er moet vooral ruimte zijn voor een leuke groepsdiscussie over het vertalen van beleidsvraagstukken naar data-analytics vraagstukken, dus het zou fijn zijn als jullie wat prikkelende vragen/stellingen willen voorbereiden.
2
Inhoud Introductie Uitdagingen in het interpreteren van Big Data resultaten Twee strategieën voor interpretaties Conclusies
3
Big Data: gebaseerd op de (drie) V’s (volume, variety, velocity, …) gegevens zo omvangrijk en niet te beheren met conventionele technieken extraheren van kennis uit geïntegreerde datasets, Benut concepten/technieken uit statistiek, data mining, soft computing, real-time, enz Formeel induceert big data een model van de omgeving uit de database. aggregated E db Soft computing combineert wiskundige technieken die computers helpen om te gaan met onzekerheid, onnauwkeurigheid, vaagheid en onvolledigheid van informatie. M examples examples
4
DA: modellen? Twee belangrijke redenen zijn:
Model omgeving te voorspellen Model omgeving te begrijpen Deze redenen zijn beide: Tegengesteld: modellen die goed voorspellen, bieden niet noodzakelijk veel inzicht. Versterkend: inzicht kan de voorspellende nauwkeurigheid van modellen helpen verbeteren.
5
Wat is BD? E examples db M aggregated simulations real world
6
Wat is BD? E examples db M aggregated simulations real world
7
Wat is BD? E examples db M aggregated simulations real world
8
Data Legacy data: slechte documentatie Null-values
Veranderende omgeving/semantiek Interoperabiliteit Benutten van domain kennis Onzekerheid
9
Semantiek: Voorbeeld Opgeslagen geboorteplaats van een dader is USSR
In 1991, USSR is verdeeld in meerdere landen. Moet de opgeslagen geboorteplaats worden bijgewerkt naar Rusland of zo worden gelaten als het is? Het zo laten als het is: Hoeveel daders zijn geboren in Rusland? Nu reflecteert de USSR geen echte plek. DQ(land) in het verleden was oké, maar op dit moment slecht. Dus, DQ degradatie
10
Pierce (1903) onderscheid drie inferentieschema’s 1. Deduction
All men are mortal Socrates is a man Socrates is mortal 2. Abduction Socrates died 3. Induction Kant died Plato died
11
Uitkomsten Systeemwerkelijkheid Statistische Waarheid
12
Over de interpretatie van de uitkomst van DB
De systeemwerkelijkheid kan afwijken van de echte realiteit Databases kunnen grote hoeveelheden data bevatten die al verzameld en opgeslagen zijn in het (verre) verleden. Legacy databases dan houden de verkregen resultaten door analyse, (bijv. data mining) niet altijd stand in de realiteit van vandaag te dag. Resultaten kunnen gelden voor het verleden op het moment dat de data was verzameld. Analyse van de klachten over de afgelopen 35 jaar van de Nationale Ombudsman resulteerde in profiel: Mannen die goed opgeleid zijn en in stedelijke gebieden wonen hebben een grotere kans om een klacht in te dienen
13
Over de interpretatie van de uitkomst van DB
Statistische waarheden: Jonge mannen die rijden in lease-auto’s 80% kans om betrokken te raken bij auto-ongelukken Simplificatie: Jones heeft 80% kans betrokken te geraken bij een auto-ongeluk Frequentistische aanpak: p=relatieve frequentie Clonen Aantal ritten
14
Over de interpretatie van de uitkomst van DB
Statistische waarheden Simplificatie: Jones heeft 80% kans betrokken te geraken bij een auto-ongeluk Subjectieve aanpak: p = gekwantificeerd oordeel Prior probability (kan inclusief “frequentist approach”) Interpretatie verschillend voor ontvanger en de kans genererende entiteit
15
Twee strategieën voor interpretaties
Beschouw de uitkomst van BD als een “central body of evidence” en formuleer een hypothese Bijv. Jones is een risicovolle bestuurder Zoek naar bewijzen die de hypothese afzwakken Bijv. Jones is een voorzichtige man Als er voldoende bewijzen zijn gevonden om de hypothese voldoende af te zwakken, wordt de hypothese verworpen Self-denying prophecy: ware hypothese kan onwaar worden
16
Twee strategieën voor interpretaties:
Beschouw de uitkomst van BD als een “central body of evidence” en formuleer een hypothese Bijv. Jones is een is een risicovolle bestuurder Zoek naar bewijzen die de hypothese versterken Bijv. Jones is een roekeloos persoon Als er voldoende bewijzen zijn gevonden om de hypothese te versterken, wordt de hypothese geaccepteerd Selffulfilling prophecy: valse hypothese kan waar worden
17
Welke strategie te kiezen?
Hangt af van de toepassing impact van false positives en false negatives procedure voor om te gaan met false positives en false negatives Stem de strategie af op de toepassing Strategy 1: self-denying; heeft de neiging false positives te verminderen Strategy 2: self-fulfilling; heeft de neiging false negatives te verminderen
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.