De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Bioinformatica Datamodellering.

Verwante presentaties


Presentatie over: "Bioinformatica Datamodellering."— Transcript van de presentatie:

1 Bioinformatica Datamodellering

2 Onderwerpen Doel van database-opslag
Gestructureerd versus ongestructureerd Van gegevens naar datamodellering Stappenplan datamodellering Inventarisatie Selectie Optimalisatie Voorbeeld Veldeigenschappen

3 Doel van database-opslag
Onderzoek genereert gigantische hoeveelheden data Genomics  proteomics  metabo[ln]omics Interessant voor verder/ander onderzoek Dus: beschikbaar stellen in opvraagbare vorm Maar: speld in hooiberg is makkelijker te vinden!

4 Gestructureerd v ongestructureerd
De volgende twee slides bevatten precies dezelfde gegevens Waar heb je het meeste aan, en waarom?

5 Enzym Herkenningssite
Eco17I (EcoRV) GATATC Eco24I (HgiJII) GRGCY^C Eco25I (HgiJII) GRGCYC Eco26I (HgiJII GRGCYC Eco31I GGTCTCN^ Eco31I ^NNNNNGAGACC Eco32I (EcoRV) GAT^ATC Eco35I (HgiJII) GRGCYC Eco38I (EcoRII) CCWGG Eco39I (AsuI) GGNCC Eco40I (EcoRII) CCWGG Eco41I (EcoRII) CCWGG Eco42I (Eco31I) GGTCTC Eco42I (Eco31I) GAGACC Eco43I (ScrFI) CCNGG Eco47I (AvaII) G^GWCC Eco47II (AsuI) GGNCC Eco47III AGC^GCT

6 Structuur is essentieel voor gericht opvragen van gegevens!
Eco17I (EcoRV)GATATCEco24I (HgiJII)GRGCY^C Eco25I (HgiJII)GRGCYCEco26I(HgiJIIGRGCYC Eco31IGGTCTCN^Eco31I^NNNNNGAGACCEco32I (EcoRV)GAT^ATCEco35I (HgiJII)GRGCYC Eco38I (EcoRII)CCWGGEco39I (AsuI)GGNCC Eco40I (EcoRII)CCWGGEco41I (EcoRII)CCWGG Eco42I (Eco31I)GGTCTCEco42I (Eco31I)GAGACC Eco43I (ScrFI)CCNGGEco47I (AvaII)G^GWCC Eco47II (AsuI)GGNCCEco47IIIAGC^GCT Structuur is essentieel voor gericht opvragen van gegevens!

7 Van gegevens naar datamodellering
willekeurig feit Informatie Gegeven(s) nodig om beslissing te kunnen nemen Doel van gegevensbeheer Gestructureerde opslag van gegevens om op juiste moment de juiste informatie te kunnen leveren Datamodellering Bepalen welke gegevens in welke structuur nodig zijn om aan informatiebehoefte te kunnen voldoen

8 Gegevensbeheer betekent afbeelden van de werkelijkheid in de computer
Werkelijkheid bestaat uit objecten boom Object heeft kenmerken of attributen hoogte Specifieke boom heeft waarde 4.78 m 4.78m

9 Abstract object wordt beschreven met lijst kenmerken: objecttype
boom: soort, hoogte, leeftijd, lokatie Concreet object wordt geidentificeerd door lijst waarden voor kenmerken: record Plataan, 4.78m, 7 jaar, NW-hoek plein

10 objecttype record tabel kolom
soort hoogte locatie plataan 4.78 NW-hoek kolom Database: set samenhangende (gerelateerde) tabellen

11 Stappenplan datamodellering
Doel Effectief en efficiënt opslaan van de gegevens die nodig zijn voor een bepaalde taak Drie stappen Inventarisatie Selectie Optimalisatie (normalisatie)

12 Inventariseren Brainstormen welke gegevens van belang kunnen zijn
Ruim denken (strepen is beter dan vergeten) Uitgangspunten Papieren administratie (formulieren) Gesprekken met medewerkers Vragen die in het werk opkomen Gezond ‘boeren-’ verstand

13 Selecteren Elk gegeven kost tijd voor invoeren, wijzigen, etc.
Essentie: het kiezen van de kenmerken nodig voor het werk Keuze gebaseerd op: relevantie (nodig, nuttig, aardig) beschikbaarheid hoeveelheid ruimte hoeveelheid werk (invoeren, onderhouden) Resultaat: platte tabel (nulde normaalvorm) Kolommen voor de kenmerken (velden) Regels voor de objecten (records)

14 Optimaliseren Datamodel efficiënter maken zonder dataverlies
Principes bedacht door E.F. Codd Proces heet normaliseren Uitgangspunt nulde NV Achtereenvolgens Eerste normaalvorm Tweede normaalvorm Derde normaalvorm Enzovoorts Eerste is essentieel; hogere afhankelijk van grootte database en motivatie

15 Voorbeeld huisartsenpraktijk Kenmerken (nulde NV)
Datum bezoek Naam patiënt Adres patiënt Plaats patiënt Naam huisarts Adres huisarts Telefoon huisarts Bloedgroep patiënt Kosten bezoek

16 Drie consulten van dezelfde patient
Naam H.A. Kunnen Adres Gorterstraat 1 Plaats Deventer Bloedgroep O Huisarts J.A. Jansen Adres arts Brink 35 Tel.nr. arts Bezoekdatum 14/2/96 Kosten bezoek €120.58 Naam H.A. Kunnen Adres Gorterstraat 1 Plaats Devanter Bloedgroep O Huisarts J.A. Jansen Adres arts Brink 34 Tel.nr. arts Bezoekdatum 8/3/96 Kosten bezoek €100.00 Naam H.A. Kunnen Adres Gorterstraat 1 Plaats Deventer Bloedgroep P Huisarts J.A. Jansen Adres arts Brink 35 Tel.nr. arts Bezoekdatum 22/4/96 Kosten bezoek €80.20

17 Problemen bij de platte tabel:
1. Gegevens die in meer records nodig zijn en identiek zijn (repeterende groep) Redundantie 2. Gegevens die in meer records nodig zijn maar verkeerd worden ingetikt Inconsistentie

18 Naam H.A. Kunnen Adres Gorterstraat 1 Plaats Deventer Bloedgroep O Huisarts J.A. Jansen Adres arts Brink 35 Tel.nr. arts Bezoekdatum 14/2/96 Kosten bezoek €120.58 Bezoekdatum 8/3/96 Kosten bezoek €100.00 Huisarts J.A. Jansen Adres arts Brink 35

19 Foreign key relatie Primary key Patientnr 007 Artsnr 003
Bezoekdatum 14/2/96 Kosten bezoek €120.58 Patientnr Artsnr Bezoekdatum 14/3/96 Kosten bezoek €100.00 Artsnr Huisarts J.A. Jansen Adres arts Brink 35 Tel.nr. arts Naam H.A. Kunnen Adres Gorterstraat 1 Plaats Deventer Bloedgroep O Primary key Foreign key relatie

20 Platte tabel = nulde normaalvorm
Resultaat na afsplitsen repeterende groepen = eerste normaalvorm Eerste normaalvorm vereist, want… niet moeilijk weinig werk veel resultaat Overige normaalvormen facultatief

21 Voorbeeld Situatie Magazijn waar reagentia worden bewaard en uitgeleend/uitgegeven Mogelijke vragen en overzichten Wat is de actuele voorraad van reagens A? Wat zijn de risico’s van reagens B? Waar is reagens C opgeslagen? Hoeveel heeft afdeling X deze maand verbruikt? Welke reagentia moeten vrijdag besteld worden? ... Bijhouden Wie krijgt wat mee (waar is iets; budgettering) Informatie over de reagentia

22 Inventarisatiestap Naam reagens Naam klant Afdeling klant
Lokatie reagens Veiligheidscategorie reagens Functie klant Hobby klant Kristalstructuur reagens Voorraad reagens Afhaalinformatie (datum, hoeveelheid) Verpakkingseenheid reagens Afbeelding reagens ...

23 Selectiestap Hobby klant Kristalstructuur reagens Afbeelding reagens
Want weinig relevant, veel werk, ... Kristalstructuur reagens Want te weinig relevant, moeilijk te achterhalen Afbeelding reagens Want te weinig relevant, veel werk, veel opslagruimte

24 Resultaat na selectiestap: nulde normaalvorm
Naam reagens Naam klant Afdeling klant Lokatie reagens Veiligheidscategorie reagens Functie klant Voorraad reagens Afhaaldatum Afhaalhoeveelheid Verpakkingseenheid reagens

25 Optimalisatiestap Hetzelfde reagens zal vaker worden afgehaald
repeterende groep, lang  afsplitsen Dezelfde klant zal vaker reagentia halen Op dezelfde dag zal vaker iets worden afgehaald Repeterende groep, kort  niet afsplitsen

26 Resultaat na optimalisatie: eerste normaalvorm
Hoofdtabel: afhaalinformatie (reagensnr, klantnr, datum, hoeveelheid) Hulptabel: reagentia (reagensnr, naam, lokatie, veiligheidscategorie, verpakkingseenheid, voorraad) Hulptabel: klanten (klantnr, naam, afdeling, functie)

27 Veldeigenschappen Veld (attribuut, kenmerk, kolom)
Essentiële kenmerken: Veldnaam Inhoud (waarde) Overige eigenschappen Lengte Type (tekst, getal, datum) Verplicht/niet verplicht Uniek/niet uniek Sleutel/geen sleutel Controles (constraints) Op vorm (postcode: “9999 AA”) Op inhoud (temperatuur tussen 35 en 45 graden)


Download ppt "Bioinformatica Datamodellering."

Verwante presentaties


Ads door Google