Orde uit Chaos Symposium Centraal Bureau voor de Statistiek 14 maart 2013
Big & dirty data Kees Zeelenberg (Directeur Methoden en Statistisch Beleid)
2 Inhoud Wat zijn Big Data? Voorbeelden Wat zijn Dirty Data? Uitdagingen en problemen Hoe verder? Orde uit Chaos: Big & dirty data
3 Data met een groot volume, hoge frequentie (doorloopsnelheid) en grote variëteit 33 Wat zijn big data? Orde uit Chaos: Big & dirty data
444 Voorbeelden van big data Gegevens uit b.v.: Scanners bij kassa’s (kassabonnen) Verkeerslussen Mobiele telefoons Beurstransacties Sociale media Orde uit Chaos: Big & dirty data
5 Big data in de statistiek “Big data are everywhere” Nieuwe databron voor statistiekbureau’s Voordelen: (meestal) Erg tijdig Hoge frequentie Veel detail Nieuwe statistieken Orde uit Chaos: Big & dirty data
6 Uitdagingen Toegang Privacy IT: gespecialiseerde hardware en software Statistische methoden Orde uit Chaos: Big & dirty data
7 Big Data & Dirty Data Representativiteit en selectiviteit Volatiliteit Meetfouten Nieuw paradigma? Analysemethoden Rechtstreeks op ruwe data Ook meet- en waarnemingsfouten modelleren Orde uit Chaos: Big & dirty data
8 Nieuwe methoden Probabilistisch modelleren Bayesiaanse methoden Multilevel modellen Statistical-learning methoden Occupancy-modellen Maar ook nieuwe vaardigheden Orde uit Chaos: Big & dirty data
9 Slot Occupancy modellen in de natuurstatistiek: dirty data nieuwe methoden samenwerking Voorbeeld van innovatie in de statistiek Orde uit Chaos: Big & dirty data
Orde uit Chaos Symposium Centraal Bureau voor de Statistiek 14 maart 2013