INLEIDING BIOINFORMATICA Dr. Chris Evelo INLEIDING BIOINFORMATICA
OTHER INSTRUCTORS (pictures left to right) BLOKCOORDINATOR Dr. Ir. Chris Evelo (chris.evelo@bigcat.unimaas.nl) ORGANISATION Dr. Drs. Lars Eijssen (l.eijssen@bigcat.unimaas.nl) OTHER INSTRUCTORS (pictures left to right) Ir. Michiel Adriaens (michiel.adriaens@bigcat.unimaas.nl) Dr. Susan Coort (susan.coort@bigcat.unimaas.nl) Drs. Stan Gaj (stan.gaj@bigcat.unimaas.nl) Dr. Ir. Martijn van Iersel (martijn.vaniersel@bigcat.unimaas.nl) Ir. Thomas Kelder (thomas.kelder@bigcat.unimaas.nl) Drs. Martina Kutmon (martina.kutmon@bigcat.unimaas.nl) Drs. Jahn-Takeshi Saito (jahn.saito@bigcat.unimaas.nl) Student assistant: Sarah Baetke
ENKELE PRAKTISCHE PUNTEN De lezingen en practica worden in het Nederlands gegeven De slides zijn wel grotendeels in het Engels De middagpractica en de Perl practica (2e helft blok, ochtenden) zullen worden afgetekend nadat de opdrachten af zijn De groepsopdracht (meer informatie volgt zo meteen) zal op grond van een voldoende beoordeling van de bevindingen en de presentatie worden afgetekend In juni hebben de middagpractica afwijkende tijden (korter) en ruimtes. Dit komt door beperkingen rond de beschikbaarheid van pc zalen in die maand De stroomtoets wordt afgenomen op 6 juli, van 13.45-17.45 in pc ruimtes 1 en 2 – het is een open boek tentamen in de pc ruimte 3
CURSUSMATERIAAL ELEUM Een blokboek, dat per onderwerp de leerdoelen, een samenvatting, en literatuurreferenties bevat Na elk college: de slides van het betreffende college Voor aanvang van elk practicum: de practicumopdrachten Enkele weken na elk practicum: de uitwerkingen van de opdrachten Zo nodig nog wat ondersteunend materiaal LITERATUUR (beschikbaar op het studielandschap) Bioinformatics and Functional Genomics Jonathan Pevsner Understanding bioinformatics M Zvelebil and J.O. Baum Learning Perl Randal L. Schwartz and Tom Phoenix 4
Onderwerpen Introduction and Genome Sequences Biological Databases Genetic Variation Sequence Alignment Blast CpG islands, SNP and miRNAs Protein Structures Gene Expression Data Clustering and Pathway analysis Introduction Systems Biology 2e helft stroomblok: Perl: bioPerl (8.30-10.30)
De groepsopdracht
DE GROEPSOPDRACHT (I) Om alles wat jullie in dit blok leren te integreren, gaan jullie werken aan een groepsopdracht Het is de bedoeling dat elke groep zelf tijd en afspraken maakt om aan de opdracht te werken (zo nodig buiten lestijd); elke groep mag zelf weten hoe dat wordt ingevuld – taken verdelen, bij elkaar komen etc. In het algemeen zal er bij de middagpractica wat tijd over zijn om aan de opdracht te werken, maak hier zelf afspraken over met je groep Let op dat in juni de practica korter zijn, dan zal er weinig of geen tijd over zijn tijdens de practicumuren 7
DE GROEPSOPDRACHT (II) Op 28 juni om half 9 houden we gezamenlijke presentatiesessies waar elke groep in 10-15 minuten de bevindingen zal presenteren Locatie: Deb1 D003 en D005 (4 groepen per ruimte) Er zullen door ons en/of medestudenten vragen gesteld worden Je mag zelf bepalen wie uit de groep de presentatie houdt/houden Maar de vragen moeten door andere groepsleden beantwoord worden 8
DE GROEPSOPDRACHT (III) Elke groep krijgt de naam van een transcriptiefactor (TF) Het is de bedoeling dat jullie over deze TF allerlei informatie gaan verzamelen Dit kunnen jullie doen aan de hand van wat jullie in de colleges en practica leren Jullie mogen het werk zelf onderling verdelen We hebben een aantal vragen gesteld die je als richtlijn kan gebruiken om te bedenken wat je allemaal gaat opzoeken en hoe (volgende slide) Let op: je kan dus niet meteen alle vragen beantwoorden, ze sluiten aan bij diverse onderwerpen die gedurende het stroomblok aan bod komen 9
DE GROEPSOPDRACHT (IV) Vraag 1 Veroorzaken mutaties in dit eiwit een genetische aandoening? Zo ja, is dit een zeldzame aandoening? Komt hij overal over de wereld even veel voor? Vraag 2 Is dit gen genoeg geconserveerd dat je het ook met behulp van muizen kunt bestuderen? Beantwoord dezelfde vraag voor zebravis, C.elegans, en S.cerevisiae. Welke eiwit domeinen zijn het meest geconserveerd? Hoe verhouden de eiwitten zich tot elkaar in een phylogenetische boom? Vraag 3 Speelt alternative splicing een rol in dit eiwit? Hoeveel alternative splicing varianten kun je vinden? Welk splicing variant komt het meeste voor? Hoe is de verdeling over verschillende weefsels? Vraag 4 Kun je een genetische mutatie in dit eiwit relateren aan de 3D eiwitstructuur? Kun je dat ook relateren aan een functie of een eiwit domein? Vraag 5 In welk cellulair proces speelt dit gen een rol? In welke biologische pathway speelt dit gen een rol? Waardoor wordt dit eiwit gereguleerd en wat reguleert het? 10
DE GROEPSOPDRACHT (V) Dit zijn de transcriptiefactoren waarmee jullie aan de slag gaan: groep1 en groep5 Estrogen receptor (ESR1) groep2 en groep6 Pparα (PPARA) groep3 en groep7 BRCA1 groep4 en groep8 GATA1 reserve p53 (TP53) 11
Introduction and Genome Sequences
What is Bioinformatics? Bioinformatics uses “informatics” techniques (from applied math, computer science, statistics, etc.) to understand and organize biological information, like genes, proteins and molecules on a large-scale.
Why Bioinformatics? DATA KNOWLEDGE CONVERT DATA TO KNOWLEDGE GENERATE NEW HYPOTHESES Experimental DATA KNOWLEDGE Public Databases DESIGN NEW EXPERIMENTS
Central dogma of Molecular Biology Transcription Translation Gene (DNA) mRNA Protein Cells express different subset of the genes in different tissues and under different conditions
Gateways to the genome sequences Presentation on the Human Genome Project (lecture 1b) Gateways to the genome sequences
Genome browsers Over the last few decades a gigantic amount of information on DNA sequences, gene locations, gene transcripts, protein functions and so on has been gathered Now we will discuss several websites that provide all this information collection, and that you will use in the afternoon session
* We will use the UCSC browser later during the course Genome Browsers NCBI UCSC* http://www.ncbi.nlm.nih.gov/Genomes http://genome.ucsc.edu/ Ensembl http://www.ensembl.org/ * We will use the UCSC browser later during the course
Comparison Similarities Differences All browsers display the same sequence information (based on the same database build) All browsers support ‘annotation tracks’ to show genes, SNPs etc. Differences Different ‘annotation tracks’ available Look and feel, user interface
NCBI Genome mapviewer
http://www.ncbi.nlm.nih.gov/mapview/
NCBI offers a human map viewer
Filter on Gene
Filtered on genes
Map viewer: RBP4 on chromosome 10 Click to customize the tracks on this map
Options in the MAP viewer
OMIM protein HomoloGene Genomic location
Filter on Transcript RefSeq
Evidence viewer
NCBI’s evidence viewer provides data on gene models (e.g. mapping ESTs to genomic DNA)
NCBI evidence viewer: gene structures
NCBI evidence viewer: gene structures Evidence for a discrepancy (e.g. sequencing error or polymorphism)
Ensembl Genome viewer
HOMEPAGE: WWW.ENSEMBL.ORG
HUMAN GENOME
KARYOTYPE
SUMMARY CHROMOSOME 16
Markers are visible!
Synteny