De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Data Maarten Terpstra en Peter le Clerq. Wij leven in het big data tijdperk. Dagelijks worden enorme hoeveelheden data gegenereerd en opgeslagen in slimme.

Verwante presentaties


Presentatie over: "Data Maarten Terpstra en Peter le Clerq. Wij leven in het big data tijdperk. Dagelijks worden enorme hoeveelheden data gegenereerd en opgeslagen in slimme."— Transcript van de presentatie:

1 Data Maarten Terpstra en Peter le Clerq

2 Wij leven in het big data tijdperk. Dagelijks worden enorme hoeveelheden data gegenereerd en opgeslagen in slimme applicaties, databases, en op het world wide web. Deze data worden met elkaar in verband gebracht en gecombineerd, waardoor inzichten onstaan die gebruikt kunnen worden ten bate van consument en leverancier. Het electronische patientendossier zou er voor moeten zorgen dat een arts met 1 druk op de knop de historie van een nieuwe patient kunnen tonen en de arts in staat stellen de best passende behandeling voor te schrijven. Een mooi voorbeeld van de potentie die in (big) data sharing zit, maar er niet altijd uitkomt. Alle ondernemingen zijn data verwerkers. Verwerkers van de data die consumenten en processen genereren. De data worden gebruikt in operationele processen, bijvoorbeeld in de bediening van de klant die naar de klantenservice belt, in de logistieke processen, bijvoorbeeld om de inkoop af te stemmen op omzetsnelheid, in de marketing, bijvoorbeeld om nieuwe producten te ontwikkelen, en in de sales, bijvoorbeeld om de klant op het juiste adres te benaderen. Daarom neemt data beheer een steeds belangrijker rol in de bedrijfsvoering in, wat ook blijkt uit de positie van de CIO in de directie van steeds meer grote ondernemingen. Wij denken dat het volwassenheidsniveau van de datahuishouding kan worden gekarakteriseerd op basis van de data verzameling, verwerking, opslag, en distributie. In het volgende worden de kenmerken van de volwassen onderneming geschetst en de uitdagingen waar ondernemingen voor staan. Inleiding 10 October 2014Presentation name

3 Data verzameling 10 October 2014Presentation name De volwassen data huishouding Voorbeeld 1.Verschillende toepassingen vragen om verschillende data. Zo zijn er direct marketing toepassingen die klantdata en identificatie vragen en financiele toepassingen die productidentificatie vragen 2.De volwassen huishouding heeft faciliteiten voor de verzameling van verschillende soorten data zoals klantdata, contactdata, productdata, financiele data, logistieke data 3.De volwassen huishouding heeft faciliteiten voor de verzameling van verschillende data formats, zoals tekst, geluid, en beeldmateriaal 4.De volwassen huishouding heeft toegang tot verschillende bronnen zoals interne administraties, internet loggings, contact loggings, social media, survey onderzoek, en internet documenten 5.In de volwassen huishouding wordt de data verzameling centraal aangestuurd en gefaciliteerd. Door standaardisatie van tools wordt de interpretatie van gegevens vereenvoudigd Data definitie: je moet uitzoeken welke klantdata in welke mate nodig is voor welke toepassing. Wellicht wil je 360 o klantbeeld over gedrag en intersses en bestedingen in een bepaald domein maar hoef je dat niet voor een ander domein? Bouw van een 360 o klantbeeld: hoe kom je achter compleet profiel van gedrag, interesses, en bestedingen van de klant? Illustratie van de groei van de data volumes op internet en in apps, slimme apparaten die gegevens opslaan, scannen van passen bij AH en OV, et cetera Uitdagingen

4 Gebeurtenissen genereren data. Surfgedrag wordt geregistreerd in de databases van de providers. Reizen met het OV wordt via de OV chipcard geregistreerd, de boodschappen bij de Albert Heijn worden geregistreerd via de bonuskaart, en sensors in electronische en mechanische apparatuur registreren alle vormen van gebruiksgedrag. Ondernemingen kunnen deze data goed gebruiken. TomTom kan ons op de snelste manier langs de files sturen, Linkedin kan ons de interessantste contacten voorstellen, Amazon de beste boeken, en Spotify de juiste muziek op het juiste moment. Focus data verzameling: data volumes 10 October 2014Presentation name Source: IDC's Digital Universe Study, sponsored by EMC, December 2012 Consumentenorganisaties vragen om maatregelen om opslag en gebruik van persoonsdata te reguleren. Dit laat echter onverlet dat de hoeveelheden data toenemen, en de toepassingen ook en toepassingen alleen maar toenemen. IDC verwacht een explosieve groei in data tot 2020 Een veelgebruikte term is big data. Volgens Gartner gaat het in big data in elk geval om drie factoren: de hoeveelheid data, de snelheid waarmee de data binnenkomen en opgevraagd worden, en de diversiteit van de data, zoals de combinatie van gestructureerde data en ongestructureerde data. Naast deze definitie kan big data ook gezien worden als een ontwikkeling (Graydon): de steeds geavanceerder hard- en software waarmee meer en meer data verzameld, bewerkt en bewaard kunnen worden.

5 Data verwerking 10 October 2014Presentation name De volwassen data huishouding Uitdagingen 1.Verschillende data moeten op verschillende manieren worden verwerkt. Zo kunnen bepaalde klantgegevens worden verwerkt in een RDBMS, en kunnen bepaalde contactgegevens in een andere omgeving worden verwerkt. 2.In de volwassen huishouding is er een data governance die richtlijnen en requirments formuleert voor de data verwerking. 3.In de volwassen huishouding zijn de processen van data verwerking gestandaardiseerd en gedocumenteerd. Dit moet kwaliteit en eenduidigheid van data borgen Klantidentificatie: ga je proberen om de klanten op internet of social media te identificeren of niet? Data koppeling: hoe ga je om met koppelen van data uit verschillende bronnen, zoals internet, social media, CBS, en de eigen database? Data integriteit: op welk punt in het proces worden data gecontroleerd en geschoond? Illustatie van NoSQL oplossingen voor verwerking van ongestructureerde data Voorbeeld

6 Relationele database management systemen worden traditioneel gebruikt voor de verwerking van gestructureerde data. De gegevens worden opgeslagen in tabellen waarin de rijen de informatiedragers of records vormen, en de kolommen de informatie die voor elk record moet worden opgeslagen. Verschillende tabellen kunnen met elkaar worden verbonden door een kolom toe te voegen waarin een verwijzing naar een record in een andere tabel wordt opgenomen. Relationele databases hebben grote voordelen zoals de toepassing van database normalisatie en het bestaan van een universele gestandaardiseerde taal (SQL) die gebruikt kan worden om de database te raadplegen. Daar staat tegenover dat een relationele database niet geschikt is voor de verwerking van ongestructureerde data, zoals emails, webpagina’s, documenten, afbeeldingen, video, en audio. Voor de verwerking van dit soort gegevens zijn NoSQL structuren veel meer geschikt. NoSQL databases is een verzameling van database systemen. Een belangrijk kenmerk van de systemen is dat de tabellen niet noodzakelijk in een vast gedefinieerd schema staan. Het aantal velden kan van record tot record varieren. Dit maakt het mogelijk om hele tekst strings, zoals bv de logging van clicks, op te slaan. Een ander kenmerk van de systemen is dat ze eenvoudig schaalbaar zijn door uitbreiding van het systeem met nieuwe servers. Een bekend voorbeeld van deze NoSQL databases is Hadoop. Hadoop is een database systeem waarbij de data wordt opgeslagen op een cluster van servers. Het systeem zorgt voor replicatie van data over het cluster en een efficiente verwerking van queries via MapReduce. De schaalbaarheid zit hem in het feit dat het cluster eenvoudig kan worden utigebreid met nieuwe servers. Hadoop is in Nederland de standaard voor big data. Focus data verwerking: No SQL 10 October 2014Presentation name

7 Data opslag 10 October 2014Presentation name De volwassen data huishouding Uitdagingen 1.De volwassen huishouding gebruikt verschillende systemen voor de opslag van verschillende data. Zo is er een datawarehouse waarin verschillende klantdata worden gerelateerd voor marketing toepassingen en zijn er andere systemen voor opslag van financiele data of kostprijzen of logistieke processen 2.De volwassen huishouding bewaart historische klantdata zodat bijvoorbeeld de customer journey kan worden getraceerd 3.In volwassen huishouding is de opslag centraal geregeld. Dit faciliteert de koppeling van data en vergroot de eenduidigheid van bronnen 4.In de volwassen huishouding zijn de processen voor data monitoring gedefinieerd. Hiermee moet kwaliteit van data worden geborgd Clicks en social media data: ga je de data ongestructureerd of gestructureerd opslaan en wat is impact op performance en kosten/baten? Data integriteit: hoe houd je de data schoon en actueel? Illustratie van datakwaliteitsproblemen: verspilling van DM agv verouderde NAW-gegevens Voorbeeld

8 Een groot voordeel van relationele databases is dat het ontwerp wordt genormaliseerd. Dit normaliseren dient verschillende doelen waaronder integriteit. Een gegeven wordt op 1 plek opgeslagen, en kan van daaruit worden gekoppeld aan andere informatie. Wanneer een gegeven, zoals telefoonnummer of emailadres van een klant wijzigt, wordt dat op die plaats aangepast en nergens anders. Daardoor worden inconsistenties vermeden. Een relationele database is geen garantie voor data kwaliteit. Uiteindelijk is het onderhoud van de data in de database een proces wat geformaliseerd moet worden. Dit is onderdeel van data governance. Hoewel niet het meest sexy onderdeel van big data, is het van groot belang en lonend. Onderzoek heeft aangetoond dat in de Verenigde Staten door fouten in de adressering van consumenten per jaar 600 miljard dollar aan direct marketing wordt verspild (Breur, 2013). Focus data opslag: data integriteit 10 October 2014Presentation name

9 Data distributie 10 October 2014Presentation name De volwassen data huishouding Uitdagingen 1.In de volwassen huishouding hebben de verschillende functie een eigen interface naar de data. Zo heeft de sales functie heel andere behoeften en rechten dan de marketing functie of finance. Zij hebben dus toegang tot verschillende databronnen. 2.In de volwassen huishouding krijgen de verschillende gebruikers op maat producten. Zo zijn er binnen de marketingafdeling verschillende datamarts 3.De volwassen huishouding verzekert een vast niveau van dienstverlening. Zo moeten aan operationele afdelingen 100% betrouwbare data worden gegarandeerd. 4.In de volwassen huishouding is er uniformiteit in definities zodat consistentie tussen stuurinfo gegarandeerd is 5.In de volwassen huishouding is de metadata centraal geadministreerd. Hierdoor kan iedereen die met de data werkt ook zien wat er is en wat het betekent Illustratie van data governance: regelgeving, requirements en processen rondom beheer van de data. Identificatie van de gebruikers: wie zijn de gebruikers en hoe willen ze de data hebben? Differentiatie naar gebruikers: online en offline behoefen en real time data solutions Kwaliteitsgaranties: als data essentieel is voor bedrijfsvoering moeten er een soort van service level agreements gemaakt worden, hoe moeten die er uit zien? Voorbeeld

10 Verschillende afdelingen stellen verschillende eisen aan de data. Zo hebben operationele afdelingen 100% betrouwbare en actuele data op klantniveau nodig, en hebben meer strategisch georienteerde afdelingen wellicht behoefte aan historische data. Wanneer aantal afnemers met verschillende behoeften groeit is het nuttig om afspraken te formaliseren in service level agreements. Focus data distributie: service level agreements 10 October 2014Presentation name Een universele bron van ergernis zijn inconsistenties tussen rapportages. Bijvoorbeeld wanneer de marketingrapportage afwijkende cijfers van de finance rapportage produceert. Dit soort verschillen zijn een bron van ergernis en leiden tot eindeloze zoektochten naar de oorzaak van het verschil. Het kan aan het algoritmen liggen, aan de onderliggende data, of aan de bronnen. Vaak is er een complex van oorzaken. Hoewel dit soort problemen een fact of life zijn, heb ik ervaren dat er enorm veel wordt gewonnen door centrale data documentatie en uniforme definities. Metadata en definities zijn misschien wel de essentie van data warehousing.


Download ppt "Data Maarten Terpstra en Peter le Clerq. Wij leven in het big data tijdperk. Dagelijks worden enorme hoeveelheden data gegenereerd en opgeslagen in slimme."

Verwante presentaties


Ads door Google