Bioinformatica Datamodellering.

Slides:



Advertisements
Verwante presentaties
SQL deel 2: datamodel ontwerp
Advertisements

Eerst wat terminologie vooraf….
Normaliseren Uitgangspunt
Module 7 – Hoofdstuk 5 (1) SQL – een begin.
Rooster Generator Voor Huisarts Posten
Normaliseren Inleiding.
Datamodelleren.
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
Kennismaking MS Access. Wat is een databank ? = Een gestructureerde verzameling van gegevens bestaat uit één of meer tabellen.
Databases Informatica Ga verder met een muisklik. SQL FCO DBMS NE FA
Entiteit-Relatie Model
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Wouter van der Zwan Lezing Draaitabellen Wouter van der Zwan
Van Nul naar Drie Normaliseren.
Normaliseren Datamodellering 2006.
Databases.
<Mdl01 hoorcollege 1>
Opleiding AI cursus Databases
Base: bewerkingen 2 soorten - Oplopend- Aflopend.
Registratie. Waarom? Registratie Registratie kan: - input voor besluitvorming zijn - basis voor coaching zijn.
LauwersCollege Buitenpost Informatica
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen College 5.
Databanken by Steven Stinis.
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Normalisatie Relationeel databaseontwerp:
Opleiding Kunstmatige Intelligentie cursus Databases voor AI
SQL (structured Query Language) DDL (Data Definition Language) DML (Data Manipulation Language) Ontwerp databaseBevraag database.
Optuigen van datastructuren
Hogere wiskunde Limieten college week 4
Hoofdstuk 3 Databaseontwikkeling 4 Access.  Uitgangspunt is altijd de informatiebehoefte van de klant  Deze wordt vaak bepaald door rapporten, formulieren.
Werken met een adressenbestand in Word 2010 wo
Grafieken, organigrammen
Databases.
Optimalisatie objectkenmerken
Boomerang.
SQL ( SERVER ) Les #02: T-SQL. A GENDA Herhaling les 4 Views SELECT…INTO Beheren van tabellen: CREATE ALTER DROP Opdracht voor de volgende les.
Anonimisering van testgegevens Privacy Paleis 28 januari 2015
LauwersCollege Buitenpost Informatica
Computervaardigheden Hoofdstuk 4 — Databank (Basis)
Databases I Het Entity-Relationship Model
?.
Les 0 Structured Query Language SQL. Programma Les 0 – Introductieopdracht Les 1 Les 2 Les 3 Schriftelijke toets.
Java Objectgeoriënteerd Programmeren in Java met BlueJ
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Insights & Essentials Willem van Putten
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Analyse 3 INFANL01-3 week 2 CMI Informatica.
ANALYSE 3 INFANL01-3 WEEK 8 CMI Informatica. ANALYSE 3- INFANL01-3 ▸ Vorige les ▸ Herhaling ▸ Normaliseerregels ▸ Omzetten ERD ▸ Group by en SET ▸ Proeftentamen.
Gecijferdheid 2 (Meten 1 – ME144X) week 3
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Keuzemodule Groen Ondernemen Coen van Wetering
Datamodelleren FCO-IM methode.
EERDER….. Tabellen rij (record, tuple, occurence) kolom (attribuut, veld) tabel (relatie) tabelstructuur : patient(PAT#,PNAAM,LEEFTIJD,GESLACHT,ARTS)
Wat is SQL (1)? SQL (Structured Query Language):  is een zeer krachtige taal met een beperkt vocabulaire (aantal ‘woorden’)  is declaratief (‘WAT’ niet.
SharePoint Alles over metadata In de Private en Public cloud.
Datamodelleren FCO-IM methode.
Databases.
Entiteiten bedrijfsvoering (Extra)
LauwersCollege Buitenpost Informatica
Gegevensdeling via de hubs iShare conferentie 12/11/2015
Normaliseren.
Een computersysteem organiseert gegevens in een hiërarchie die begint bij een bit die de waarde 0 of een 1 vertegenwoordigt. Bits kunnen worden gegroepeerd.
Databases.
Kan je zelf een geschikte schaalverdeling maken
Hoofdstuk 3 Indeling van het magazijn
SQL Les 3 17 February 2019.
Tweede normaalvorm DERDE STAP: afsplitsen van labeltypen die afhankelijk zijn van een ander (niet-sleutel) labeltype Onderzoek in iedere strook of alle.
Datamodelleren FCO-IM methode.
SQL Les 6 14 April 2019.
SQL en Datanormalisatie
Transcript van de presentatie:

Bioinformatica Datamodellering

Onderwerpen Doel van database-opslag Gestructureerd versus ongestructureerd Van gegevens naar datamodellering Stappenplan datamodellering Inventarisatie Selectie Optimalisatie Voorbeeld Veldeigenschappen

Doel van database-opslag Onderzoek genereert gigantische hoeveelheden data Genomics  proteomics  metabo[ln]omics Interessant voor verder/ander onderzoek Dus: beschikbaar stellen in opvraagbare vorm Maar: speld in hooiberg is makkelijker te vinden!

Gestructureerd v ongestructureerd De volgende twee slides bevatten precies dezelfde gegevens Waar heb je het meeste aan, en waarom?

Enzym Herkenningssite Eco17I (EcoRV) GATATC Eco24I (HgiJII) GRGCY^C Eco25I (HgiJII) GRGCYC Eco26I (HgiJII GRGCYC Eco31I GGTCTCN^ Eco31I ^NNNNNGAGACC Eco32I (EcoRV) GAT^ATC Eco35I (HgiJII) GRGCYC Eco38I (EcoRII) CCWGG Eco39I (AsuI) GGNCC Eco40I (EcoRII) CCWGG Eco41I (EcoRII) CCWGG Eco42I (Eco31I) GGTCTC Eco42I (Eco31I) GAGACC Eco43I (ScrFI) CCNGG Eco47I (AvaII) G^GWCC Eco47II (AsuI) GGNCC Eco47III AGC^GCT

Structuur is essentieel voor gericht opvragen van gegevens! Eco17I (EcoRV)GATATCEco24I (HgiJII)GRGCY^C Eco25I (HgiJII)GRGCYCEco26I(HgiJIIGRGCYC Eco31IGGTCTCN^Eco31I^NNNNNGAGACCEco32I (EcoRV)GAT^ATCEco35I (HgiJII)GRGCYC Eco38I (EcoRII)CCWGGEco39I (AsuI)GGNCC Eco40I (EcoRII)CCWGGEco41I (EcoRII)CCWGG Eco42I (Eco31I)GGTCTCEco42I (Eco31I)GAGACC Eco43I (ScrFI)CCNGGEco47I (AvaII)G^GWCC Eco47II (AsuI)GGNCCEco47IIIAGC^GCT Structuur is essentieel voor gericht opvragen van gegevens!

Van gegevens naar datamodellering willekeurig feit Informatie Gegeven(s) nodig om beslissing te kunnen nemen Doel van gegevensbeheer Gestructureerde opslag van gegevens om op juiste moment de juiste informatie te kunnen leveren Datamodellering Bepalen welke gegevens in welke structuur nodig zijn om aan informatiebehoefte te kunnen voldoen

Gegevensbeheer betekent afbeelden van de werkelijkheid in de computer Werkelijkheid bestaat uit objecten boom Object heeft kenmerken of attributen hoogte Specifieke boom heeft waarde 4.78 m 4.78m

Abstract object wordt beschreven met lijst kenmerken: objecttype boom: soort, hoogte, leeftijd, lokatie Concreet object wordt geidentificeerd door lijst waarden voor kenmerken: record Plataan, 4.78m, 7 jaar, NW-hoek plein

objecttype record tabel kolom soort hoogte locatie plataan 4.78 NW-hoek kolom Database: set samenhangende (gerelateerde) tabellen

Stappenplan datamodellering Doel Effectief en efficiënt opslaan van de gegevens die nodig zijn voor een bepaalde taak Drie stappen Inventarisatie Selectie Optimalisatie (normalisatie)

Inventariseren Brainstormen welke gegevens van belang kunnen zijn Ruim denken (strepen is beter dan vergeten) Uitgangspunten Papieren administratie (formulieren) Gesprekken met medewerkers Vragen die in het werk opkomen Gezond ‘boeren-’ verstand

Selecteren Elk gegeven kost tijd voor invoeren, wijzigen, etc. Essentie: het kiezen van de kenmerken nodig voor het werk Keuze gebaseerd op: relevantie (nodig, nuttig, aardig) beschikbaarheid hoeveelheid ruimte hoeveelheid werk (invoeren, onderhouden) Resultaat: platte tabel (nulde normaalvorm) Kolommen voor de kenmerken (velden) Regels voor de objecten (records)

Optimaliseren Datamodel efficiënter maken zonder dataverlies Principes bedacht door E.F. Codd Proces heet normaliseren Uitgangspunt nulde NV Achtereenvolgens Eerste normaalvorm Tweede normaalvorm Derde normaalvorm Enzovoorts Eerste is essentieel; hogere afhankelijk van grootte database en motivatie

Voorbeeld huisartsenpraktijk Kenmerken (nulde NV) Datum bezoek Naam patiënt Adres patiënt Plaats patiënt Naam huisarts Adres huisarts Telefoon huisarts Bloedgroep patiënt Kosten bezoek

Drie consulten van dezelfde patient Naam H.A. Kunnen Adres Gorterstraat 1 Plaats Deventer Bloedgroep O Huisarts J.A. Jansen Adres arts Brink 35 Tel.nr. arts 653781 Bezoekdatum 14/2/96 Kosten bezoek €120.58 Naam H.A. Kunnen Adres Gorterstraat 1 Plaats Devanter Bloedgroep O Huisarts J.A. Jansen Adres arts Brink 34 Tel.nr. arts 653781 Bezoekdatum 8/3/96 Kosten bezoek €100.00 Naam H.A. Kunnen Adres Gorterstraat 1 Plaats Deventer Bloedgroep P Huisarts J.A. Jansen Adres arts Brink 35 Tel.nr. arts 653781 Bezoekdatum 22/4/96 Kosten bezoek €80.20

Problemen bij de platte tabel: 1. Gegevens die in meer records nodig zijn en identiek zijn (repeterende groep) Redundantie 2. Gegevens die in meer records nodig zijn maar verkeerd worden ingetikt Inconsistentie

Naam H.A. Kunnen Adres Gorterstraat 1 Plaats Deventer Bloedgroep O Huisarts J.A. Jansen Adres arts Brink 35 Tel.nr. arts 653781 Bezoekdatum 14/2/96 Kosten bezoek €120.58 Bezoekdatum 8/3/96 Kosten bezoek €100.00 Huisarts J.A. Jansen Adres arts Brink 35

Foreign key relatie Primary key Patientnr 007 Artsnr 003 Bezoekdatum 14/2/96 Kosten bezoek €120.58 Patientnr 007 Artsnr 003 Bezoekdatum 14/3/96 Kosten bezoek €100.00 Artsnr 003 Huisarts J.A. Jansen Adres arts Brink 35 Tel.nr. arts 653781 Naam H.A. Kunnen Adres Gorterstraat 1 Plaats Deventer Bloedgroep O Primary key Foreign key relatie

Platte tabel = nulde normaalvorm Resultaat na afsplitsen repeterende groepen = eerste normaalvorm Eerste normaalvorm vereist, want… niet moeilijk weinig werk veel resultaat Overige normaalvormen facultatief

Voorbeeld Situatie Magazijn waar reagentia worden bewaard en uitgeleend/uitgegeven Mogelijke vragen en overzichten Wat is de actuele voorraad van reagens A? Wat zijn de risico’s van reagens B? Waar is reagens C opgeslagen? Hoeveel heeft afdeling X deze maand verbruikt? Welke reagentia moeten vrijdag besteld worden? ... Bijhouden Wie krijgt wat mee (waar is iets; budgettering) Informatie over de reagentia

Inventarisatiestap Naam reagens Naam klant Afdeling klant Lokatie reagens Veiligheidscategorie reagens Functie klant Hobby klant Kristalstructuur reagens Voorraad reagens Afhaalinformatie (datum, hoeveelheid) Verpakkingseenheid reagens Afbeelding reagens ...

Selectiestap Hobby klant Kristalstructuur reagens Afbeelding reagens Want weinig relevant, veel werk, ... Kristalstructuur reagens Want te weinig relevant, moeilijk te achterhalen Afbeelding reagens Want te weinig relevant, veel werk, veel opslagruimte

Resultaat na selectiestap: nulde normaalvorm Naam reagens Naam klant Afdeling klant Lokatie reagens Veiligheidscategorie reagens Functie klant Voorraad reagens Afhaaldatum Afhaalhoeveelheid Verpakkingseenheid reagens

Optimalisatiestap Hetzelfde reagens zal vaker worden afgehaald repeterende groep, lang  afsplitsen Dezelfde klant zal vaker reagentia halen Op dezelfde dag zal vaker iets worden afgehaald Repeterende groep, kort  niet afsplitsen

Resultaat na optimalisatie: eerste normaalvorm Hoofdtabel: afhaalinformatie (reagensnr, klantnr, datum, hoeveelheid) Hulptabel: reagentia (reagensnr, naam, lokatie, veiligheidscategorie, verpakkingseenheid, voorraad) Hulptabel: klanten (klantnr, naam, afdeling, functie)

Veldeigenschappen Veld (attribuut, kenmerk, kolom) Essentiële kenmerken: Veldnaam Inhoud (waarde) Overige eigenschappen Lengte Type (tekst, getal, datum) Verplicht/niet verplicht Uniek/niet uniek Sleutel/geen sleutel Controles (constraints) Op vorm (postcode: “9999 AA”) Op inhoud (temperatuur tussen 35 en 45 graden)