Metadata Het organiseren van informatie Tjalling Gelsema
Inhoud Waarom metadata? Soorten Standaarden Data Service Center Datameer
Metadata: analogie
Waarom metadata? Informatie, bedoeld om: Het zoeken en vinden van statistische data te ondersteunen; Mogelijkheden te bieden om potentiele gebruikers van data te informeren over de betekenis ervan; Automatische processen de mogelijkheid te bieden om data te kunnen verwerken; Rol van metadata wordt kritischer naarmate: meer (diverse) data, meer gebruikers, meer automatische processen.
Soorten metadata Grofweg in te delen in: Structurele metadata: informatie die de inhoud en structuur van een dataset beschrijft. Variabelen, datatypes, classificaties, etc.; Kwaliteitsmetadata: informatie over kwaliteitsaspecten, zoals: relevantie, nauwkeurigheid, tijdigheid, samenhang, etc,; Procesmetadata: informatie over de totstandkoming van een dataset, verwijzend naar stappen in het statistisch proces.
Structurele metadata dimensie classificatie variabele
Kwaliteitsmetadata: ESQRS ESS Standard for Quality Reports Structure
Procesmetadata: GSBPM Generic Statistical Business Process Model
Standaarden Statistical Data and Metadata eXchange (SDMX). Uitwisselen van statistieken. Ook: specificatie; Data Documentation Initiative (DDI). Beschrijven en documenteren van (statistisch) onderzoek; Generic Statistical Information Model (GSIM): klassendiagram voor structurele metadata. `doorsnede van DDI en SDMX’; Data Catalog Vocabulary (DCAT): W3C-standaard voor minimale vereisten voor een open data catalogus van datasets. Gericht op het vinden van datasets en catalogi.
Standaarden: DCAT Op RDF gebaseerde verzameling van termen (vocabulary) om een datacatalogus te beschrijven; Bevordert de ‘interoperabiliteit’ tussen datacatalogi; Standaardattributen (Dublin Core) voor: Catalog, Dataset en Distribution; Dublin Core: title, description, publisher, language; Distribution: beschrijft het formaat (csv, html, API) waarin een dataset is gepubliceerd; Catalog: mogelijkheden om catalogi te classificeren aan de hand van thema’s; Uitbreidingen: StatDCAT, GeoDCAT.
Standaarden: DCAT
Data Service Center “Waar had ik mijn data ook alweer gelaten?” “Kan ik mijn data over 10 of 20 jaar terugvinden?” “Kan ik de data over 10 of 20 jaar nog gebruiken?” “Kan ik de toegang tot de data beheren en controleren?”
Data Service Center: idee Delen en hergebruiken van statistische (bron-) data binnen het bureau; Voorheen: uitwisseling gebeurde `bilateraal’ en weinig georganiseerd; Met het DSC: datasets worden centraal geregistreerd en onder voorwaarden toegankelijk gemaakt. Afnemers kunnen zich abonneren; Informatie over datasets in toegankelijk via een catalogus, die voor iedereen in te kijken is; Gedachte: van elkaar weten welke data we in huis hebben; Ook: afstemmen van begrippen, hergebruik van begrippen.
Data Service Center: metadata Grote catalogus van databestanden stelt eisen: uniforme werkwijze van beschrijven, voldoende informatie om datasets te vinden; Dit vertaalt zich naar: model voor metadata, richtlijnen, kwaliteitseisen aan bepaalde metadata-elementen;
Richtlijnen DSC De DSC-organisatie toetst de kwaliteit van metadata aan de hand van richtlijnen, in het bijzonder van naamgeving; Voorbeeld: “De naam van een variabele bevat de grootheid die wordt gemeten”; Beschouw: Kosten van onderhoud en reparatie vs. Onderhoud en reparatie; Voorbeeld: “De aggregaatfunctie is opgenomen in de naam van een variabele (waar van toepassing)”; Beschouw: Gemiddeld besteedbaar inkomen vs. Besteedbaar inkomen.
DSC 2013-2014 De schatkamer ontsloten DSC gevuld met enorm veel metadata en datasets Zie de DSC Metadata Catalogus Centrale opslag van bronbestanden en goed versiebeheer is hiermee bereikt, én uitwisseling via DSC.
Proces hoofdlijnen
Samenvattend: Voor het publiceren van metadata bij open data, is nodig: Een model, of structuur, waarin metadata uniform wordt beschreven (bijvoorbeeld: DCAT); Kwaliteitseisen voor metadata; Procedures voor het toetsen van de kwaliteit van metadata.
Datameer Behoefte aan snelle nieuwe inzichten om zo in te spelen op de actualiteit; DSC voorziet ten dele in die behoefte; Maar: nog weinig voorzieningen om mogelijkheden te ontdekken voor het combineren van datasets; In DSC: datasets zijn discrete, geïsoleerde, entiteiten. Informatie over relaties tussen datasets is beperkt; Ook beperkt: mogelijkheden om eigen dataset samen te stellen; Datameer: vraag en aanbod van statistische informatie dichter bij elkaar brengen; DSC staat t.o.v. Datameer als open data t.o.v. linked open data.
Afnemers / Onderzoekers Slimme / flexibele processen Datameer centraal Afnemers / Onderzoekers Zelfstandig gebruiken Afnemers Publiceren Hergebruiken / Combineren Berichtgevers Respondenten Streaming data Registraties Exploreren Slimme / flexibele processen Datameer Microdata Stat. data Artikelen/Visualisaties Afnemers Ophalen
Datameer: metadata
Samenvatting Goed beheer van informatie binnen de eigen organisatie maakt dat open data kan worden beschouwd als een outputkanaal naast alle andere en verbonden met alle andere. Het inrichten van zo’n portaal wordt daarmee eenvoudiger. Metadata is daarvoor van wezenlijk belang.
Vragen?