Over het gebruik van Big Data Resultaten

Slides:



Advertisements
Verwante presentaties
Presentatie advies ‘Ruimte voor duurzame landbouw’ Den Haag, 20 maart 2013
Advertisements

Ervaringen in samenwerking
Onderzoek naar competentiegericht beoordelen in het groene onderwijs
Overzicht Sessie 1 Inleiding
Europa en duurzame mobiliteit commentaar op COM(2006)314 Prof. Stef Proost Center for Economic Studies KULeuven.
UvAnalytics learning analytics voor de UvA Sijo Dijkstra
Linux in het bedrijfsleven
Modellering ruimtelijke gevolgen van infrastructuur op GrondGebruik met de LandUseScanner.
Vertaling van Miriam Zweverink Project No Presentatie 2009 Tool 1 Gezondheid & Prestatie Check.
Toegepaste scenario, wat te doen TAIDA Tracking Analysing Imaging Deciding Acting De controle handelingen voor het schrijven van een goed scenario.
Afstuderen bij Natuurkundige Informatica Faculteit Exacte Wetenschappen 20 November 1998 vrije Universiteit Divisie Natuurkunde en Sterrenkunde.
Besturings- systeem A Computer A Besturings- systeem B Computer B Netwerk Handmatige taak I Applicatie 2Applicatie 1 Handmatige taak II Applicatie 3 Gebruiker.
Wetenschappelijke methode
Databases.
Themabijeenkomst 1oktober 2009
Wat je zelf vindt, weet je beter
Uitdagingen in de 21-ste eeuw
Wiskunde C, A, B of B&D?.
Orde uit Chaos Symposium Centraal Bureau voor de Statistiek 14 maart 2013.
Elobase Kerntaak 2, Hoog Omgevingsanalyse
Statistische Valkuilen in Solvency II
Voor 2012 wens ik jullie…. veel leuke speeltjes…
28 mei Symposium Statistical Auditing Slide 1 Steekproefmethoden bij EU audits Paul van Batenburg.
APP Platform Rivium, 5 maart 2013 Rik Vietsch.
Over het ijzeren gordijn: de grenzen van sectoraal beleid Wim Groot Universiteit Maastricht.
Theresialyceum. OriëntatieTheorievormingOntwerpplanExperimentVerwerkingRapportagePresentatie Onderzoekscyclus Experiment.
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Module Waarnemen, observeren en rapporteren Les 2
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Organisatie en Beleid Bijeenkomst 1: Werken in een organisatie I
WERKEN MET GROEPEN JONGE KINDEREN Bijeenkomst 4. VORIGE BIJEENKOMST: * Bespreken uitkomsten van de praktijkopdrachten in groepen van drie/ vier personen.
Plancyclus, les 4  Actualiteit  Vragen naar aanleiding van vorige les  Vragen over hoofdstuk 4 en 5  Observeren met een plan; het verschil tussen observeren.
Psychologieles 7 lesweek 7
Onze school is zich ervan bewust dat sociale media een onlosmakelijk onderdeel zijn van de huidige samenleving en de leefomgeving van haar leerlingen,
De 25 beste ideeën voor een meer inspirerende planning en control Henk Doeleman Jean-Pierre Thomassen.
Wiskunde op het VWO Kies je voorzichtig of wil je meer? En waarom zou je dat willen?
Wijs met media: Deze workshop geeft ouders de gelegenheid ideeën en ervaringen uit te wisselen over het onderwerp “Wijs met media”. De drie kernthema’s.
MATHEKINGS - 25 JAAR KINDEROPVANG HUMANITAS -MATHEKINGSTENTOONSTELLING BERLIJN - ONDERDEEL VAN EEN RIJK ONTWIKKELINGSAANBOD.
Ontwerpen van 3D lesmateriaal voor biologie Ecent conferentie 20 mei 2015 Dirk Jan Boerwinkel Freudenthal Instituut voor Didactiek van Wiskunde en Natuurwetenschappen.
FOKKE en SUKKE helpen bij het veldwerk. Gebruik van een statistisch pakket SPSS Opslaan en bewerken data –selecteren –wegen –hercoderen –Ontwerpen van.
Bijeenkomst 5. Terugblik  Wat hebben we vorige bijeenkomst besproken?  Alles gelukt met het persoonlijk profiel?  Liepen jullie nog tegen dingen aan?
Zonnecellen op water Kompas voor oriëntatie op vervolgprojecten Minor People, Planet, Profit, Rijksuniversiteit Groningen Policy Lab ‘Duurzame.
Auteur: Anneke de Jong, Marja Legius en Lieven De Maesschalck Datum: 30 maart 2016 Onderzoekend vermogen.
Lob.
Opdracht bouw je eigen technologische huis van de toekomst:
Veilig werken via gedragsverandering Danny Wilms
Het is vandaag Girlsday!
Databases.
Oefening met atlas en kaarten
Mutatiekans modelleren
Het is vandaag Girlsday!
Big Data woensdag 15 februari 2017.
Grip & Controle op digitalisering
Mark: Goedemiddag allemaal, bedankt voor jullie komst naar onze presentatiesessie over het B2B Marketing Trendrapport 2017.
Reintegratie binnen SOS Kinderdorpen Internationaal
Cliëntenparticipatie
Keuzevoorlichting havo wiskunde AB.
Big Data.
Opdracht bouw je eigen technologische huis van de toekomst:
Moving objects in a geo-DBMS
Big Data.
Moving objects in a geo-DBMS
Het is vandaag Girlsday!
Databases.
Introductie- en Begeleidingscommissie
Workshop Voorbereiding op de Omgevingswet – hoe creëer je beweging?
Tot de enterprisekennismanagementsoftware behoort ook de verkoop van contentmanagement- en portallicenties. Deze verkopen zijn jaarlijks met 35 procent.
Technisch Ontwerp inhoud
Voorspelling van criminele carrières door 2-dimensionale extrapolatie
Examen samenvatten 2010 II Hoe luidt de beoordeling van de samenvatting? Hoe ziet de samenvatting eruit?
Transcript van de presentatie:

Over het gebruik van Big Data Resultaten 1010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010101010 Sunil Choenni & Niels Netten Er moet vooral ruimte zijn voor een leuke groepsdiscussie over het vertalen van beleidsvraagstukken naar data-analytics vraagstukken, dus het zou fijn zijn als jullie wat prikkelende vragen/stellingen willen voorbereiden.

Inhoud Introductie Uitdagingen in het interpreteren van Big Data resultaten Twee strategieën voor interpretaties Conclusies

Big Data: gebaseerd op de (drie) V’s (volume, variety, velocity, …) gegevens zo omvangrijk en niet te beheren met conventionele technieken extraheren van kennis uit geïntegreerde datasets, Benut concepten/technieken uit statistiek, data mining, soft computing, real-time, enz Formeel induceert big data een model van de omgeving uit de database. aggregated E db Soft computing combineert wiskundige technieken die computers helpen om te gaan met onzekerheid, onnauwkeurigheid, vaagheid en onvolledigheid van informatie. M examples examples

DA: modellen? Twee belangrijke redenen zijn: Model  omgeving te voorspellen Model  omgeving te begrijpen Deze redenen zijn beide: Tegengesteld: modellen die goed voorspellen, bieden niet noodzakelijk veel inzicht. Versterkend: inzicht kan de voorspellende nauwkeurigheid van modellen helpen verbeteren.

Wat is BD? E examples db M aggregated simulations real world

Wat is BD? E examples db M aggregated simulations real world

Wat is BD? E examples db M aggregated simulations real world

Data Legacy data: slechte documentatie Null-values Veranderende omgeving/semantiek Interoperabiliteit Benutten van domain kennis  Onzekerheid

Semantiek: Voorbeeld Opgeslagen geboorteplaats van een dader is USSR In 1991, USSR is verdeeld in meerdere landen. Moet de opgeslagen geboorteplaats worden bijgewerkt naar Rusland of zo worden gelaten als het is? Het zo laten als het is: Hoeveel daders zijn geboren in Rusland? Nu reflecteert de USSR geen echte plek. DQ(land) in het verleden was oké, maar op dit moment slecht. Dus, DQ degradatie

Pierce (1903) onderscheid drie inferentieschema’s 1. Deduction All men are mortal Socrates is a man Socrates is mortal 2. Abduction Socrates died 3. Induction Kant died Plato died

Uitkomsten Systeemwerkelijkheid Statistische Waarheid

Over de interpretatie van de uitkomst van DB De systeemwerkelijkheid kan afwijken van de echte realiteit Databases kunnen grote hoeveelheden data bevatten die al verzameld en opgeslagen zijn in het (verre) verleden. Legacy databases  dan houden de verkregen resultaten door analyse, (bijv. data mining) niet altijd stand in de realiteit van vandaag te dag. Resultaten kunnen gelden voor het verleden op het moment dat de data was verzameld. Analyse van de klachten over de afgelopen 35 jaar van de Nationale Ombudsman resulteerde in profiel: Mannen die goed opgeleid zijn en in stedelijke gebieden wonen  hebben een grotere kans om een klacht in te dienen

Over de interpretatie van de uitkomst van DB Statistische waarheden: Jonge mannen die rijden in lease-auto’s 80% kans om betrokken te raken bij auto-ongelukken Simplificatie: Jones heeft 80% kans betrokken te geraken bij een auto-ongeluk Frequentistische aanpak: p=relatieve frequentie Clonen Aantal ritten

Over de interpretatie van de uitkomst van DB Statistische waarheden Simplificatie: Jones heeft 80% kans betrokken te geraken bij een auto-ongeluk Subjectieve aanpak: p = gekwantificeerd oordeel Prior probability (kan inclusief “frequentist approach”) Interpretatie verschillend voor ontvanger en de kans genererende entiteit

Twee strategieën voor interpretaties Beschouw de uitkomst van BD als een “central body of evidence” en formuleer een hypothese Bijv. Jones is een risicovolle bestuurder Zoek naar bewijzen die de hypothese afzwakken Bijv. Jones is een voorzichtige man Als er voldoende bewijzen zijn gevonden om de hypothese voldoende af te zwakken, wordt de hypothese verworpen Self-denying prophecy: ware hypothese kan onwaar worden

Twee strategieën voor interpretaties: Beschouw de uitkomst van BD als een “central body of evidence” en formuleer een hypothese Bijv. Jones is een is een risicovolle bestuurder Zoek naar bewijzen die de hypothese versterken Bijv. Jones is een roekeloos persoon Als er voldoende bewijzen zijn gevonden om de hypothese te versterken, wordt de hypothese geaccepteerd Selffulfilling prophecy: valse hypothese kan waar worden

Welke strategie te kiezen? Hangt af van de toepassing impact van false positives en false negatives procedure voor om te gaan met false positives en false negatives Stem de strategie af op de toepassing Strategy 1: self-denying; heeft de neiging false positives te verminderen Strategy 2: self-fulfilling; heeft de neiging false negatives te verminderen