De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

DataTools Models Data, modellen en tools: Voor het oplossen van elk complex waterbouwkundig vraagstuk gebruik je in meer of mindere mate: data, modellen.

Verwante presentaties


Presentatie over: "DataTools Models Data, modellen en tools: Voor het oplossen van elk complex waterbouwkundig vraagstuk gebruik je in meer of mindere mate: data, modellen."— Transcript van de presentatie:

1 DataTools Models Data, modellen en tools: Voor het oplossen van elk complex waterbouwkundig vraagstuk gebruik je in meer of mindere mate: data, modellen en tools.

2 Wat is het probleem? •Kwaliteit, snelle beschikbaarheid en toegankelijkheid van data voor analyse is onvoldoende •Modellen en door engineers ontwikkelde tools zijn niet goed gedocumenteerd en staan niet onder versie beheer Kan veel beter! Data: data niet onder versie beheer, altijd verschillende file formaten, metadata vaak niet beschikbaar bij de data. Modellen en tools: verschillende tools-versies op PC’s gebruikers, onduidelijkheid welke versie van tool is gebruikt bij bepaalde berekeningen.

3 OPeNDAP Server Raw DataTools Models SubVersion Server GedetailleerdVersimpeld OpenEarth (BwN) biedt een infrastructuur voor dit probleem. Basis elementen: SubVersion server & OPeNDAP server. Uitgangspunt: Vaste structuur – flexibele toegang. Gebruiker Toeleverancier

4 X Z T Y •Een matrix gebaseerde datastructuur voor het opslaan van multidimensionele data •N-dimensionale coordinatensystemen –X coordinaat (e.g. longitude) –Y coordinaat (e.g. latitude) –Z coordinaat (e.g. altitude) –Tijd dimensie –… andere dimensies •Variabelen – maximale flexibiliteit voor het definieren van alle datatypen –Temperatuur, druk, zoutgehalte, korreldiameter, etc •Geometrie – impliciet of expliciet –Regelmatig grid (implicit – opslag efficientie) –Onregelmatig grid (expliciet) –Punten NetCDF: NASA's Earth Science Data Systems Standards Process Group raadt NetCDF aan als te hanteren dataopslagstandaard. Voordelen: grote data uitwisselbaarheid, platform onafhankelijk, robuust in gebruik en toch eenvoudig te begrijpen. Wat is NetCDF?

5 Efficiente data opslag: Binair NetCDF formaat maakt complete definitie van variabelen mogelijk met gebruik van minimaal aantal getallen (zie voorbeeld) en minimale herhaling metadata. Resultaat: minimale opslagruimte, zeer grote datasets snel te bevragen. XYZQ X YZ 32 getallen14 getallen

6 transect.nc netcdf transect.nc { dimensions: crossshore = 198 ; time = 3 ; variables: float crossshore_distance(crossshore), shape = [198] crossshore_distance:unit = "meter" float year(time), shape = [3] year:unit = "year" float height(time,crossshore), shape = [3 198] height:unit = "meter" data: coastward_distance = (-65:5:920); year = (2006:2008); height = [ … … … ]; } x = nc_varget(transect.nc, 'crossshore_distance'); y = nc_varget(transect.nc, 'time'); z = nc_varget(transect.nc, 'height'); surface(x, y, z); Voorbeeld NetCDF file: 198 kustdwarse punten, 3 tijdsopnames, 3 x 198 hoogtes. Metadata in één file samen met de data. NB: transect.nc is een binaire file. Eenvoudige Matlab routines beschikbaar: nc_varput, nc_addvar, nc_varget (zie inzet) Voorbeeld:

7 SubVersion: open source versiebeheer systeem. Gebruikers ‘committen’ hun files in één centrale database (regelmatig updaten lokale kopie). Iedere commit krijgt een eigen uniek revisienummer. Per commit kun je in een comment aangeven wat er is gewijzigd.

8 Blame functionaliteit: van elke regel code is bekend door wie, wanneer en als onderdeel van welk revisie nummer deze is gewijzigd. Kleuren geven de ouderdom van de code aan (blauwer = ouwer). Elke wijziging kan achteraf altijd worden teruggedraaid.

9 Merge tool: Verschillen tussen verschillende versies van een tool zijn eenvoudig inzichtelijk te maken. Wanneer meerdere users aan de zelfde code werken helpt de merge tool eventuele conflicten op te lossen.

10 Version control: elke routine/datafile kan automatisch een comment block meekrijgen met daarin info over: datum en auteur laatste wijziging, revisie nummer etc. Sla bij een project het revisienummer van de gebruikte code op en je weet welke versie is gebruikt.

11 Statistieken: Per project of tool kun je een aparte ‘repository’ aanmaken. Herbruikbare tools combineren in één centrale repository heeft grote voordelen (delen, samenwerken, leren). OpenEarth tools, oa gebruikt in Building with Nature, is open source en freeware.

12 Raw dataScriptsDatabase Store raw data in subversion to keep track of history Stored files (netcdf) accessible through the web Extract Transform Load Charts & Maps Tools and websites Provide Add meta information Script to convert raw data into netcdf OpenEarth RawData OpenEarth OPeNDAP OpenEarth Tools Data workflow: OpenEarth heeft de volgende afspraken voor het beschikbaar maken van data: 1. ruwe data in SubVersion, 2. scriptgewijze verrijking met meta data naar NetCDF, 3. automatisch uploaden *.nc files naar OpenDap, en 4. flexibele toegang

13 Community of practice: De OpenEarth opzet heeft een brede kring gebruikers (Building with Nature, EU FP7 MICORE, Delft Cluster etc.). Vanuit Building with Nature worden trainingen verzorgd (SubVersion gebruik, programmeerstandaarden, etc.).


Download ppt "DataTools Models Data, modellen en tools: Voor het oplossen van elk complex waterbouwkundig vraagstuk gebruik je in meer of mindere mate: data, modellen."

Verwante presentaties


Ads door Google