1 3TU.Datacentrum ’09 | 12 Jeroen Rombouts 1. Achtergrond… 2. Project 3TU.Datacentrum 3. Belang! This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License Mini seminar Waardevolle Data & Diensten
2 3TU.Datacentrum ’09 | 12 Toelichting •SURF Share project WP6 Datacuratie looptijd december ’08 – juni ’09. •“Motiveren door ondersteunen van dataproducenten en onderzoeken van voordelen van data publicatie”. •Toetsing generaliseerbaarheid van opgestelde functionele eisen en identificeren van factoren die de generaliseerbaarheid bepalen. (welke eisen afhankelijk van vakgebied, ‘onderzoekstype’, …).
3 3TU.Datacentrum ’09 | 12 Achtergrond Onderzoek Manuscript Publicatie DataMetadata Repository Bibliotheek
4 3TU.Datacentrum ’09 | 12 Motivatie •Fysiek verval opslag media; •Verlies van de beschrijvende (meta) data; •Niet meer kunnen ‘draaien’ van software om datasets te kunnen visualiseren/bewerken. Risico’s huidig onderzoeksdata ‘beheer’ Belangen lange termijn toegankelijkheid •Waarde van data (kostenintensief, valorisatie, longitudinaal); •Kwaliteit van onderzoek (verificatie, overdracht, kennisdelen).
5 3TU.Datacentrum ’09 | 12 Omgeving • Plan van de National Science Foundation voor betrouwbare opslag van digitale wetenschappelijke output (2006) ; • In Nederland voor alfa- en gamma wetenschappen: DANS (Data Archiving and Networked Services) (2005); • Voor bètawetenschappen nog geen initiatieven.
6 3TU.Datacentrum ’09 | 12 Het 3TU.Datacentrum Project • Bouwt voort op twee eerdere projecten; • E-Archiving – digitaal depot • Darelux – Data Archiving River Environment Luxemburg • Looptijd 3 jaar ; Pilot en financiering via Centres of Excellence (CoE); • Pilot TUD, daarna ook datasets TU/e en UT • Doel: langdurige toegang tot technisch- wetenschappelijke datasets.
7 3TU.Datacentrum ’09 | 12 Het 3TU.Datacentrum •Exploiteren ‘data-archief’ (faciliteren van dataproducenten); •Adviseren van dataproducenten; •Kennis over lange termijn toegankelijkheid ontwikkelen en verspreiden. Taken Onderdelen •Data repository (archief voor statische data); •Samenwerkingsomgeving (voor lopend onderzoek); •Diensten en toegang tot andere ‘archieven’.
8 3TU.Datacentrum ’09 | 12 Activiteiten • Verzamelen data samenwerken met onderzoekers tijdens het onderzoek (o.a. DARELUX). Datamodel, metadata, ingest, access, … • Publiceren van data faciliteren van zelfstandig publiceren of in relatie met een publicatie). Citeerbaar (doi), vindbaar, versiebeheer, … • Preserveren van data verzorgen van lange termijn opslag van digitale datasets en zorgdragen voor ‘leesbaarheid’. Multiple backups, normalisatie, refreshing, migratie, audit trail, … • Toegankelijk maken van datasets. User agreement, interface, …
9 3TU.Datacentrum ’09 | 12 (Overige) resultaten/activiteiten •Website datacentrum.3tu.nl;datacentrum.3tu.nl •Samenwerking met SURF, DANS ( en KB o.a. in Nationale Coalitie Digitale Duurzaamheid ( en Onderzoeksdata forum (press release); •Samenwerking met o.a. TIB, ETH Zurich, INIST, BL, DTU in DataCite (DOI) consortium (press release); •DRIVER-II (EU-7FP) Demonstrator voor Enhanced Publications CoE MSP; Demonstrator •Waardevolle Data & Diensten project (SURF) Onderzoek naar gebruikers behoeften en positieve effecten.
10 3TU.Datacentrum ’09 | 12 Belang! •Borging wetenschappelijk niveau Verificatie (en replicatie), nieuw (multi-disciplinair) onderzoek, discussie, … •Efficiëntie (ondersteuning) van onderzoek Kosten dataverzameling = ‘sunk costs’, veiligstellen van data en ‘leesbaarheid’, centraal beheer & ontwikkeling, standaarden, … •Communicatie (zichtbaarheid, imago en concurrentie positie) Datasets, publicaties, wetenschapper, instelling, Nederland, EU •Bewaren ‘wetenschappelijk erfgoed’ Longitudinaal onderzoek, historisch onderzoek, …
11 3TU.Datacentrum ’09 | 12 Welke data en waarom ‘deponeren’? •Data die openbaar kan/moet zijn en interessant is voor de samenleving (verificatie, nieuw onderzoek); •Toename van publicatie ‘waarde’ (onderbouwd, meer citaties, …); •Data gegenereerd door ‘moeilijk’ herhaalbare processen (kosten, observaties, complexiteit, longitudinaal, …); •Voorwaarden van onderzoeksfinanciers en uitgevers (Nature Publishing Group, NWO, Overheden, …); •Eenvoudig veiligstellen en delen van data; Anderen doen het!
12 3TU.Datacentrum ’09 | 12 Vragen ?
13 3TU.Datacentrum ’09 | 12 Enkele bronnen •"Unavailability of online supplementary scientific information from articles published in major journals" doi: /fj lsf.doi: /fj lsf •"Going, Going, Gone: Lost Internet References" doi: /science doi: /science •“Sharing Detailed Research Data Is Associated with Increased Citation Rate” doi: /journal.pone doi: /journal.pone •“To share or not to share” •“NSF’s Cyberinfrastructure Vision for 21st century Discovery” •“Introduction to Scientific Data Management” Mario Valle’s website (Swiss National Supercomputing Centre) management.html. management.html