Modificatie van Galaxy voor Next-Generation Sequencing Bataillie Michiel 2010 – 2011 Bachelorproef Hoge School West-Vlaanderen Dept. Simon Stevin
Stageplaats Project Galaxy High-Throughput Sequencing Resultaten Besluit Overzicht
VIB – BITS Bioinformatics Training and Service Facility support aan alle onderzoeksdepartementen binnen het VIB Stageplaats
Project Nieuwe server Klaarzetten van server voor gebruik binnen het VIB voor analyse van biologische data BITS Galaxy server
Specificaties 12 CPU – 24 cores 96 GB RAM Hoofdbesturingssysteem: Red Hat Enterprise Linux 6 KVM OS werkt virtueel op server Virtuele machines CentOS = guest OS Iedere virtuele machine heeft eigen specifiek doel Default Galaxy ongewijzigd Development Galaxy ontwikkelen … Server
Webplatform voor managen van: Bio-informatica tools Datasets Analyses Voordelen: Applicaties verzameld op één plaats gebruiksvriendelijk Workflows/pijplijn Reproduceerbaarheid Galaxy
Lijst van tools Framework Galaxy
Werkpaneel
Framework Galaxy Geschiedenis Output bekijken in werkpaneel
High-Throughput sequencing BITS Galaxy server tools gericht op High-Throughput Sequencing (HTS) Next-Generation Sequencing (NGS) tweede generatie sequentieplatformen Genereert miljoenen kleine sequentiefragmenten (= reads) in korte tijdspanne Illumina (HiSeq) korte fragmenten: 50 – 150 bp gigabasen / run AB (SOLiD) korte fragmenten: 60 – 90 bp gigabasen / run Roche (454) lange fragmenten: 300 – 800 bp megabasen / run
Mapping Mapping = alignering korte nucleotide sequenties (reads) tegen een referentie sequentie (bv.: humaan genoom) Mapping in Galaxy duurt uren tot dagen Mappers = Applicatie om reads te aligneren Bowtie BWA BFAST LastZ MAQ … Elke mapper is efficiënter in mappen van reads met specifieke lengte Input: FASTQ Output: SAM file
Mapping FASTQ Iedere read = 4 lijnen 1 ste lijn: begint steeds met dan omschrijving + naam van fragment 2 de lijn: ruwe sequentie in lettertekens 3 de lijn: begint altijd met ‘+’ 4 de lijn: kwaliteitswaarden voor sequentie op lijn 2 lengte lijn 4 = lengte lijn 2 ieder symbool (ASCII) representeert numerieke waarde = kwaliteitsscore
Mapping SAM = Sequence Alignment Map Algemeen formaat voor het opslaan van de resultaten van mappers Alignment informatie van sequenties tegen referentiegenomen Hoofdsectie en aligneringssectie Formaat ondersteunt short & long reads
Resultaten BITS Galaxy server zelf tools ontwikkelen implementeren Histogram tool “oefening” CG Graph Reports tool rapport met grafieken Script Install tool installeert tools vanuit interface IGV tool integratie van IGV in Galaxy Monitor tool benchmarking mappers
Ontwikkeling van tools: script + xml Perl Python Bash (Linux) Implementeren van tools in Galaxy
IGV tool Input: BAM file = Binary Alignment Map Binaire representatie van SAM file exact dezelfde informatie maar omvang kleiner schijfruimte besparen Output: IGV (= genoombrowser) met BAM file en vooringestelde parameters
IGV tool Galaxy conferentie: 25 – 26 mei IGV integratie onlangs aanwezig Toegevoegd in release van 8 april 2011
Monitor tool Benchmarking mappers Monitor CPU verbruik RAM verbruik Tijd SAM analyse
Monitor tool Twee outputs: SAM file = normale output Mapping report = extra output
NBIC Benchmark tool Netherlands Bioinformatics Centre (NBIC) Andere aanpak: Aparte tool Geïntegreerd in mappers
NBIC Benchmark tool Perl Wrapper script herschreven Mappers: BWA MAQ SAM analyse: uitvoeriger aantal juist gemapped aantal verkeerd gemapped aantal niet gemapped Python Wrapper script behouden Mappers: Bowtie BWA BFAST LastZ … SAM analyse: eenvoudig unique + multiple hits Eigen Monitor tool
Besluit Galaxy flexibel platform met veel mogelijkheden Analyses gemakkelijk door gebruik van workflows Reproduceerbaarheid Default Galaxy & Development Galaxy operationeel Production Galaxy Benchmarking mappers
Modificatie van Galaxy voor Next-Generation Sequencing Bataillie Michiel 2010 – 2011 Bachelorproef Hoge School West-Vlaanderen Dept. Simon Stevin