DATAMANAGEMENT WOZEP 12 dec 2016, Peter van der Kamp, Wageningen Marine Research
Agenda Organisatie rond datamanagement Aanlevering van data Totale tijd ca. 40 minuten. Deze bijeenkomst is bedoeld om de organisatie vorm te geven zodat er ook ruimte voor discussie is. Vragen kunt u tussendoor stellen, sowieso is daar gelegenheid voor aan het eind van elk onderwerp.
Wat is datamanagement? Data Resource Management is the development and execution of architectures, policies, practices and procedures that properly manage the full data lifecycle needs of an enterprise. Bron: DAMA, Wikipedia Aan publiek vragen: wat is een definitie van datamanagement? Afkomstig van Data Management Association Er zijn er ongetwijfeld veel meer, vanuit het perpectief van Wozep en deze bijeenkomst is dit wel een passende. Architectuur zal ik niet bespreken, beleid en praktijk zijn wel onderdeel van deze presentatie.
Wat is datamanagement? policies, practices and procedures data lifecycle needs Data levensduur Beleid Voor deze workshop zijn deze punten uit de definitie van belang. Beleid en praktijk zijn rechtstreeks van invloed op het leven dat data binnen een organisatie leidt. Als een beleidskeuze bijv. is dat van uitwisselformat X naar Y wordt overgestapt met een overgangsperiode van 2 jaar, dan betekent dat voor de praktijk dat er conversies moeten worden uitgevoerd. Beleid hoeft overigens niet alleen te ontstaan vanuit een project, kan ook overheidsbeleid zijn. Denk bijv. aan bewaartermijnen van data. Practices and procedures
Waarom datamanagement? Eenmalig inwinnen, meervoudig gebruik Meervoudig gebruik vereist: vindbaarheid van data data beschikbaar in een afgesproken standaard informatie over de data zelf (metadata) Waarom doen we eigenlijk aan datamanagement? Aan publiek vragen. Zijn we daar als Wozep uniek in? Nee.
Waarom datamanagement -NWO “Bij goed onderzoek hoort verantwoord datamanagement.” “Om de data die voortkomen uit NWO-gefinancierd onderzoek zoveel mogelijk toegankelijk en herbruikbaar maken heeft NWO besloten op het datamanagementbeleid per 1 oktober 2016 te implementeren in alle NWO instrumenten.” “De onderzoeker wordt gevraagd reeds voor aanvang van het onderzoek na te denken over de vraag hoe de verzamelde data geordend en gecategoriseerd moeten worden zodat het beschikbaar stellen daarvan voor hergebruik mogelijk wordt.” Zie: http://www.nwo.nl/beleid/open+science/datamanagement Enkele citaten uit het datamanagementprotocol van NWO
Practices and procedures -Afspraken Wie heeft welke rol Wat wordt het standaard uitwisselingsformat Authorisatie Wie is aanspreekpunt Bewaartermijnen Wat valt er zoal onder praktijk?
Organisatie datamanagement - rollen Inwinner/producent Gebruiker Provider Advies Databeheer Aan publiek vragen welke rollen er zijn. Opdrachtgever
Organisatie datamanagement – Wie heeft welke rol Wozep partijen – Inwinner, gebruiker, aanlevering WMR - Beschikbaarstelling, databeheer, gebruiker RWS - Gebruiker, opdrachtgever Deltares – Advies
Datamanagement - rolverdeling Ruwe data Basis data Inwinner AQUO IMWA Metadata Repository Deze dia geeft weer hoe de verschillende rollen zijn ingebed in het datamanagement van Wozep en wie voor welke componenten verantwoordelijk is. Datalab Databeheer Provider Advies Opdrachtgever Gebruiker
Authorisatie Wie? Mag wat En wanneer? Met data Het gebruik van data is afhankelijk van regels. Dat kunnen regels zijn die bij wet zijn opgelegd of regels die tussen partijen zijn overeengekomen. Ik heb ze hier samengenomen onder de term Authorisatie.
Authorisatie – welke situaties? Is duidelijk wie de eigenaar van de data is of wordt? Gelden er gebruiksrestricties op de data, bijv. alleen voor niet-commercieel gebruik? Is er een embargo op de data van toepassing, bijv. t.b.v. publicaties? Is er verschil in restricties tijdens de looptijd van het project en na afloop van het project? Is er verschil in restricties tussen ruwe data en basisdata? Is data herleidbaar tot personen? Aan publiek vragen waaraan zij denken bij authorisatie.
Vragen/discussie Einde deel 1
Aanlevering van data Ruwe data Data rechtstreeks afkomstig van waarnemingen, instrumenten etc. Geen bewerking ondergaan Basisdata data is resultaat van eerste bewerkingsstap Metadata Informatie over de data zelf, indicatie voor kwaliteit.
Aanlevering van data - formats Ruwe data Aanlevering in elk format dat door gangbare software kan worden verwerkt bijv. CSV ‘proprietary’ format? Dan software meeleveren indien mogelijk (wel beheersprobleem) Basisdata AQUO IMWA metingen (csv, GML) Beheersprobleem software is in de gaten houden dat updates van software ook in het repository terechtkomen, licentieproblematiek, kosten. Bij basisdata: csv is makkelijk leesbaar, GML kan intimiderend zijn. Voordeel is dat alle data in een bestand kan worden opgenomen. Dit i.t.t. csv waar bijv. biologische meetpunten, meetmonsters en meetwaardes in separate bestanden moeten worden uitgewisseld. Metadata Bij voorkeur via INSPIRE metadata-editor
INSPIRE metadata - editor
Aanlevering data - rolverdeling Ruwe data Basis data Inwinner AQUO IMWA Metadata Repository Datalab Advies Opdrachtgever Databeheer
Aanlevering van data - aandachtspunten Omvang ruwe datafiles Discipline m.b.t. repository Meer?
Vragen/discussie Einde deel 2