door Ben Cokelaere, student Howest Galaxy pipelines voor de analyse van omics data
Inhoudstafel 1. Doel 2. Galaxy 3. Tijdspad / Methodologie 4. Resultaten Toolintegratie Tools Bioinformatics Laboratory 5. Discussie 6. Conclusie
Doel van het project 1. Toolintegratie in Galaxy bestuderen 2. Tools Bioinformatics Laboratory terug functioneel krijgen
Galaxy Galaxy: Gratis software framework Tools voor gebruikers zonder programmeerervaring
Galaxy (
Tijdspad / Methodologie In chronologische volgorde: Aanleren van R en Python Eigen Galaxy omgeving opzetten Onderzoek naar het opladen van tools Tools terug werkend krijgen
Resultaten: Tool integratie Galaxy Toolshed
Resultaten: Tool integratie Installeren van eigen tool Benodigdheden: Dezelfde bestandsmap ! Script (R, Perl, Python …) Tool definition file (XML)
Resultaten: Tool integratie for each sequence in a file toolExample2.pl $input $output This tool computes GC content from a FASTA file.
Tool Integration: Eigen tool GC-teller van een willekeurige sequentie in FASTA formaat
Tool Integratie: Eigen tool Sequentie: >gi| |gb|KF | Crocidura paradoxura voucher FMNH breast cancer susceptibility 1 (BRCA) gene, partial GAACCCCTTTATGGAAGAAGAAAACTGAATAAACAGAAATTGTCATGCTCTGACAGCCCTGAG GATCCCCAAGAGATGACTTGGATGACTTCGAAGAGTAGCCTACAGAAAGTTAATGATTGGTTT TCTAGAAGTGATGATGTATTAACTTCTGATGATTTCCATGATGCAGGGTCTAATTCAAATACAA AAGCTGAGACAGAAGAAATCCCAAGTGCAGCAGATGGGTTTTTTGTTTCTTCAGAGAAAGAA GATTTAATGGCCAGTGATCAGTGTGATGCTTTAATGTATGAAAGTAGCAGAGTCCTCTCCAAA CCAGTAGAGAGTAGCATTGAAGATAAAATATTTGGGAAAACTTATCGGAGGAAAGCAAGCTTC CCTAACTTGAACTGCACAACTGAAGATGTAACTCTAGAATCATCTCTACTAGAACCGCATATGG CACACAAACACCCCTTCACAAATAAATTAAAACGTAAAAGAAGAATTGCATCAAGCCTTGGTC CTGAGGATTTTATAAAGAAAGTAGATTTGACAGTTGTTCAAAAGTCTCCTGAAAATAAAATCGA GAGGCTCGACCAAATGGAT Output:
Resultaten: Bioinformatics Tools Galaxy workflow
Resultaten: Bioinformatics Tools Galaxy workflow
Aanmaak van de ExpressionSet Opgelet: Door het toevoegen van het datatype Rdata is het ook mogelijk om rechtstreeks een ExpressionSet op te laden zonder gebruik te maken van bovenstaande tools Soort toolFunctieBenodigdhedenOutput APMLtoExpressionSetAPML bestand ExpressionSet 1)APMLfile 2)Experimentaldesign file ExpressionSet (Rdatabestand) TabletoExpressionSetTab-gescheiden data ExpressionSet 1)Data in tab- gescheiden formaat 2)Experimentaldesign file ExpressionSet (Rdatabestand)
Resultaten: Bioinformatics Tools Galaxy workflow
Analyse van de ExpressionSets Soort toolFunctieBenodigdhedenOutput ClassificationAnalysisClassificatiemethodes voor dataineen ExpressionSet 1)ExpressionSetResultfile (Rdata bestand) Differential ExpressionAnalysis Test opdifferentiële expressie kenmerken in een ExpressionSet 1)ExpressionSetTekstbestandmet resultaten in tab- gescheidenkolommen QualityMetricsAanmaken van HTML kwaliteitsrapport van data inExpressionSet 1)ExpressionSetHTML bestand dat het kwaliteitsrapport weergeeft QualityControlUitvoeren van kwaliteitscontroleop de data van eenExpressionSet 1)ExpressionSetZip file met afbeeldingen (clusterdendrogramme n,correlatiematicres, …)
Resultaten: Bioinformatics Tools Galaxy workflow
Rapportage Soort toolFunctieBenodigdhedenOutput Classification Report Deze tool zet de output van de Classification Analysis tool om in een HTML bestand. 1)Resultfile van de Classification Analysis tool HTML bestand waarin afbeeldingen (histogrammen, boxplots, …)van de gekozen classificatiemethode in voorgesteld worden
Discussie Alle tools terug operationeel in Galaxy Workflow werkt terug Classification Analysis tool werkt niet voor alle classificatiemethodes: → verschillende errors per opgeladen dataset per classificatiemethode waardoor precieze fout in de code moeilijk te bepalen was
Conclusie Wetenschappers zonder programmeerervaring die computationele data analyse willen uitvoeren? → Galaxy Maar wat als men persoonlijke aanpassingen wil aanbrengen aan de uitgevoerde analyse? → Programmeertaal nodig ! ↓ In de toekomst: programmeertaal zoals R aanleren is geen overbodige luxe; tools kunnen zelf geschreven of aangepast worden
door Ben Cokelaere, student Howest Galaxy pipelines voor de analyse van omics data