Over het gebruik van Big Data Resultaten 1010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010 Sunil Choenni & Niels Netten Er moet vooral ruimte zijn voor een leuke groepsdiscussie over het vertalen van beleidsvraagstukken naar data-analytics vraagstukken, dus het zou fijn zijn als jullie wat prikkelende vragen/stellingen willen voorbereiden.
Inhoud Introductie Uitdagingen in het interpreteren van Big Data resultaten Twee strategieën voor interpretaties Conclusies
Big Data: gebaseerd op de (drie) V’s (volume, variety, velocity, …) gegevens zo omvangrijk en niet te beheren met conventionele technieken extraheren van kennis uit geïntegreerde datasets, Benut concepten/technieken uit statistiek, data mining, soft computing, real-time, enz Formeel induceert big data een model van de omgeving uit de database. aggregated E db Soft computing combineert wiskundige technieken die computers helpen om te gaan met onzekerheid, onnauwkeurigheid, vaagheid en onvolledigheid van informatie. M examples examples
DA: modellen? Twee belangrijke redenen zijn: Model omgeving te voorspellen Model omgeving te begrijpen Deze redenen zijn beide: Tegengesteld: modellen die goed voorspellen, bieden niet noodzakelijk veel inzicht. Versterkend: inzicht kan de voorspellende nauwkeurigheid van modellen helpen verbeteren.
Wat is BD? E examples db M aggregated simulations real world
Wat is BD? E examples db M aggregated simulations real world
Wat is BD? E examples db M aggregated simulations real world
Data Legacy data: slechte documentatie Null-values Veranderende omgeving/semantiek Interoperabiliteit Benutten van domain kennis Onzekerheid
Semantiek: Voorbeeld Opgeslagen geboorteplaats van een dader is USSR In 1991, USSR is verdeeld in meerdere landen. Moet de opgeslagen geboorteplaats worden bijgewerkt naar Rusland of zo worden gelaten als het is? Het zo laten als het is: Hoeveel daders zijn geboren in Rusland? Nu reflecteert de USSR geen echte plek. DQ(land) in het verleden was oké, maar op dit moment slecht. Dus, DQ degradatie
Pierce (1903) onderscheid drie inferentieschema’s 1. Deduction All men are mortal Socrates is a man Socrates is mortal 2. Abduction Socrates died 3. Induction Kant died Plato died
Uitkomsten Systeemwerkelijkheid Statistische Waarheid
Over de interpretatie van de uitkomst van DB De systeemwerkelijkheid kan afwijken van de echte realiteit Databases kunnen grote hoeveelheden data bevatten die al verzameld en opgeslagen zijn in het (verre) verleden. Legacy databases dan houden de verkregen resultaten door analyse, (bijv. data mining) niet altijd stand in de realiteit van vandaag te dag. Resultaten kunnen gelden voor het verleden op het moment dat de data was verzameld. Analyse van de klachten over de afgelopen 35 jaar van de Nationale Ombudsman resulteerde in profiel: Mannen die goed opgeleid zijn en in stedelijke gebieden wonen hebben een grotere kans om een klacht in te dienen
Over de interpretatie van de uitkomst van DB Statistische waarheden: Jonge mannen die rijden in lease-auto’s 80% kans om betrokken te raken bij auto-ongelukken Simplificatie: Jones heeft 80% kans betrokken te geraken bij een auto-ongeluk Frequentistische aanpak: p=relatieve frequentie Clonen Aantal ritten
Over de interpretatie van de uitkomst van DB Statistische waarheden Simplificatie: Jones heeft 80% kans betrokken te geraken bij een auto-ongeluk Subjectieve aanpak: p = gekwantificeerd oordeel Prior probability (kan inclusief “frequentist approach”) Interpretatie verschillend voor ontvanger en de kans genererende entiteit
Twee strategieën voor interpretaties Beschouw de uitkomst van BD als een “central body of evidence” en formuleer een hypothese Bijv. Jones is een risicovolle bestuurder Zoek naar bewijzen die de hypothese afzwakken Bijv. Jones is een voorzichtige man Als er voldoende bewijzen zijn gevonden om de hypothese voldoende af te zwakken, wordt de hypothese verworpen Self-denying prophecy: ware hypothese kan onwaar worden
Twee strategieën voor interpretaties: Beschouw de uitkomst van BD als een “central body of evidence” en formuleer een hypothese Bijv. Jones is een is een risicovolle bestuurder Zoek naar bewijzen die de hypothese versterken Bijv. Jones is een roekeloos persoon Als er voldoende bewijzen zijn gevonden om de hypothese te versterken, wordt de hypothese geaccepteerd Selffulfilling prophecy: valse hypothese kan waar worden
Welke strategie te kiezen? Hangt af van de toepassing impact van false positives en false negatives procedure voor om te gaan met false positives en false negatives Stem de strategie af op de toepassing Strategy 1: self-denying; heeft de neiging false positives te verminderen Strategy 2: self-fulfilling; heeft de neiging false negatives te verminderen