HK07 – Les 3 Meervoudige alignering Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie 2001-2002.

Slides:



Advertisements
Verwante presentaties
Organisatiekunde.
Advertisements

Visual Knowledge Building
Nectar & Biologie voor jou: een vergelijking
Wat gebeurt er als ik in een Word-document …
© prof. dr. Lucas C.P.M. Meijs, prof.dr. Lucas C.P.M. Meijs Lonneke Roza MscBA Strategische filantropie.
Zorgroute basisschool Dijkerhoek.
Afdeling/Naam Meervoudige installatie van Futurion op een netwerk Z:\Futurion.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Base: bewerkingen 2 soorten - Oplopend- Aflopend.
Oefenles examen bloedsomloop Script Concordance Test
Medicijnontwikkeling
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen College 5.
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen (II) College 6.
Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)
Wiskunde in het hbo (Fontys)
Insertie van etheen in BH 3 en NH 3 Doorrekenen van een reactiepad.
BiO-M Wiskundig Modelleren BiO-M Wiskundig Modelleren Hoorcollege 4 Differentie- en differentiaalvergelijkingen.
PersoneelsResultatenOnderzoek Een blik achteruit én vooruit.
Rijen en differentievergelijkingen met de TI-83/84-familie
Lokale zoekmethoden Goed in de praktijk:
Methodologie & Statistiek I Verband tussen twee variabelen 3.1.
Hoe en waarom brengt de burger zijn snoeihout snel naar de biomassa verbrander? Van consument tot biomassaleverancier.
havo A Samenvatting Hoofdstuk 3
Lesplanning Binnenkomst Intro Vragen huiswerk Uitleg docent 1.3 Zelfstandig werken, met radio?? Afsluiting van de les. Lokaal verlaten.
Hogeschool HZ Zeeland 19 augustus 2003augustus 2003 Data Structuren & Algoritmen Week 3.
ELIS – Multimedia Lab Internettechnologie Rik Van de Walle Vakgroep Elektronica en Informatiesystemen (ELIS) Faculteit Ingenieurswetenschappen Universiteit.
1 Datastructuren Een informele inleiding tot Skiplists Onderwerp 13.
HK07 – Les 5 Verborgen Markov modellen Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie
Het hele werkwoord.
Kwadratische vergelijkingen
2.1 Rekenen K. van Dorssen.
Tekenen les 2 compositie joeri lefévre.
Ouder-betrokkenheid en taal Technisch lezen
The [31,21,5] error correcting cyclic code Door: Finbar S. Bogerd.
Coderen.
havo B Samenvatting Hoofdstuk 1
Hoe kan je lengtematen, inhoudsmaten en gewichten herleiden?
Onze nieuwe rekenmethode
Dag Van Het Afstudeeronderzoek Presentatie Elaine van der Poorten.
Instructies examen 26/ Waarover gaat het? Hoofdstuk ‘Thema 2: België’ (volledig, pp. 1-12) Hoofdstuk ‘Thema 1: De Europese Unie’ (gedeeltelijk,
Opstellen begroting Openingsbalans.
1 BUE Middenkader 2003 Een eerste verkenning van de resultaten.
MBR AtT1 College 7 : covering theorie (Deel 2) model MAB-diagnose: College 6: Covering theorie College 7: Algoritme voor covering theorie werkelijk.
En rekenen met variabelen Bijzondere producten. Variabele: rekenen met variabelen een variabele is een letter die een getal voorstelt. de letters a, b,
SKILLS KWARTAAL 4 Kwartaal 4 les 1. Indeling kwartaal 4 WeekInhoud les Week 1Canvas business model en oefenen Week 2Theorie over schrijven technisch paper.
Snijpunt bepalen. Lijn p en lijn q snijden elkaar. Wat zijn de coördinaten van het snijpunt ?
 12 dm bestaat uit 2 delen  12 is het maatgetal  dm is de maateenheid.
Welkom! maandag 16 November 2015 Les B-2.
Meervoudige intelligentie
Grammatica zinsdelen H1 t/m H6
Minimum Opspannende Bomen Algoritmiek. 2 Inhoud Het minimum opspannende bomen probleem Een principe om een minimum opspannende boom te laten groeien Twee.
Evolutie van groenwieren: diepe fylogenetische relaties in de Chlorophyta en speciatie in Halimeda Eeckhout Justine Universiteit Gent, onderzoeksgroep.
Talentontwikkeling “Zoek en vind het talent van ieder kind”
Meervoudige Intelligentie theorie (Gardner)
Effecten van taal Onderzoek naar wat woorden, zinsconstructies en tekststructuren doen met de ontvanger.
Actieonderzoek Jongens en Pubergedrag. Inhoud Problematiek Gewenste werksituatie Onderzoeksvragen en Hypotheses Aanpak van het Onderzoek Conclusie en.
Kolossenzen 3 & 4 gaat over het nieuwe leven
Welkom havo 3..
Door Anthony, Seyma, Seyda en Lisa
Welkom havo 3..
The Wonderful World of RNA
Door Roos K, Roos V, Lianne, Yosta en Marlijne
Inleiding voor productieplanning
Functionele rekenvaardigheid
Onze rekenmethode.
SQL Les 3 23 February 2019.
Fleximatrix.
SQL Les 4 12 May 2019.
Vergelijkingen van de vorm x + a = b oplossen
Praktijk - fleximatrix
Transcript van de presentatie:

HK07 – Les 3 Meervoudige alignering Yves Moreau 3de jr. Burg. Ir. Elektrotechniek Dataverwerking & Automatisatie

Meervoudige alignering Hoe kunnen we de sequenties van meerdere proteïnen uit dezelfde familie tegelijkertijd vergelijken (dus niet paarsgewijs) ? Meervoudige alignering zijn bvb. belangrijk om de rol van de residus te onderzoeken in de 3D structuur van de proteïnen (idealiter, zouden gealigneerde residus dezelfde 3D coordinate moeten hebben en zouden evolutionair gerelateerd moeten zijn) Handmatig opbouwen van meervoudige aligneringen is tijdsrovend

Meervoudige alignering

Elementen van een meervoudige alignering Scoringsmodel Algoritme om de beste alignering te vinden In theorie (gegeven de fylogenetische boom van de sequenties) is de waarschijnlijkheid van een meervoudige alignering het product van de waarschijnlijkheden van alle evenementen die nodig zijn om deze boom te produceren (in praktijk hebben we nooit genoeg gegevens om dit uit te rekenen)

Scoringsmodel Een pragmatische scoringsfunctie heeft de vorm S(m) = G +  i S(m i ) G gapkost, m i kolom i van de meervoudige alignering, S(m i ) score voor kolom i Kolomscore: sum-of-pairs score S(m i )=  l  k<l s(m i k,m i l ) s() substitutiematrix Sum-of-pairs score is niet statistisch onderbouwd Uitbreiding van log-odds score (3 seqs.): log(p abc /(q a q b q c )) Sum of pairs: log(p ab /(q a q b )) + log(p bc /(q b q c )) + log(p ac /(q a q c ))

PSI-BLAST

Position-Specific Iterated BLAST Het zoeken in een databank met een scorematrix die een proteïnefamilie beschrijft is veel gevoeliger dan het gebruik van een enkelvoudige querysequentie Idee: Run BLAST op de querysequentie Verzamel de significante aligneringen Bouw een specifieke matrix die de gealigneerde sequenties beschrijft Run BLAST met deze specifieke matrix om meer sequenties te rekruteren Bouw een nieuwe matrix en itereer tot er geen nieuwe sequentie meer worden gerekruteerd

PSI-BLAST Motieven zijn aanwezig in proteïnefamilies ; indien wij zulke motieven gebruiken in onze zoekbewerkingen, kunnen we verdere familieleden opsporen Het is moeilijk om meerdere motieven automatisch te bepalen in een reeks sequenties ; daarom bouwt PSI- BLAST een enkelvoudige motief die even land is als de query ( L x 20 matrix) De motief is geen substitutiematrix maar geeft voor elke positie een specifieke score voor de aanwezigheid van ieder aminozuur en wordt daarom positiespecifieke scoringsmatrix (PSSM) genoemd (gapkost is niet positiespecifiek)

Positiespecifieke scoringsmatrix MFGKRAFVHHYVGEGMEENEFTDARQDLYELEVDYANL MFKRKGFLHWYTGEGMEPVEFSEAQSDLEDLILEYQQY MFSRKAFLHWYTGEGMEEGDFAEADNNVSDLLSEYQQY RGAFLDQFRREDIFKDDLNELDESRETVDCLVQEYEAA RNAFLDNFRRESMFQDDLTELDIARDTVDCLVQEYEAA RSKRAFIDKFEKIDNFSLDMMDDAMHIVQDLLDEYKAV RNAFLEQYKKEAPFQDGLDEFDEARAVVMDLVGEYEAA RDAYMNIFKQTKIFEDNLDEFDSSDEVVKSLIDEYAAA ENYKKESMFSSADGQGNFEEMESSKEITQNLIDEYKSA RNAFLEQYKKEAIFEDDLNEFDSSRDVVADLINEYEAC RNAFMPQYQKEAMFEKNLDEFDEARATVQDLIEEYQAC MYAKRAFVHWYVGEGMEEGEFSEAREDLAALEKDYEEV MYSKRAFVHWYVGEGMEEGEFSEAREDLAALEKDYEEV MYAKRAFVHWYVGEGMEEGEFSEAREDLAALEKDFEEV MYAKRAFVHWYVGEGMEEGEFSEAREDMAALEKDYEEV MYAKRAFVHWYVGEGMEEGEFSEAREDLAALEKDYEEV MYSKRAFVHWYVGEGMEEGEFSEAREDLAALERDYEEV

Constructie van de meervoudige alignering BLAST de querysequentie Verzamel alle gealigneerde sequentie met P een bepaalde drempel (bvb., P<0.01 ) Verwijder alle sequenties die identiek zijn aan de query Bewaar enkel een instantie van alle sequenties die meer dan 98% identiek zijn met elkaar Schat de frequentie van ieder aminozuur op iedere positie (MOEIJLIJK!!!)

Schatting van de frequenties Om de ruis te verminderen in de schatting van de frequenties, zijn de matrixscores voor een bepaalde positie niet enkel afhankelijk van de betrokken kolom maar ook van andere kolommen Aangezien we lokale alignering gebruiken, dekken de gealigneerde sequenties niet de volledige query – we moeten daarom de gegevensmatrix reduceren om de berekeningen mogelijk te maken Voor de aligneringen met een insertie in de query worden de betrokken kolommen verwijderd Voor iedere kolom C, bouw de gereduceerde M C door enkel de sequenties te beschouwen die een residu op C hebben en door enkel de kolommen te beschouwen waar al deze sequenties aanwezig zijn Schat de frequenties met behulp van de gereduceerde matrix

q t1t1 q t2t2 q t3t3 Verwijder inserties CC’ Contextafhankelijke matrixscore  Vind gealigneerde matches  Verwijder inserties  Voor kolom C, bouw de gereduceerde matrix M C  Idem voor C’  Schat frequenties voor de PSSM M C’ Positiespecifieke Scoringsmatrix MCMC Gereduceerde matrix

Schatting van de frequenties Aangezien gelijkaardige sequenties redundant zijn kan hun bijdrage tot de scorematrix best gesplitst worden ; dus we gebruiken gewogen residufrequenties f i voor residu b=i Het aantal onafhankelijke observaties voor een bepaalde kolom kan sterk varieren en is verschillend van het aantal sequenties ; tel het gemiddelde aantal residus N C in de kolommen van M C Schat de gegevensafhankelijke pseudocounts g i en schat de frequenties met behulp van pseudocountverbeteringen Q i = (  f i +  g i ) / (  +  ) (bvb.,  = N C – 1,  = 10 ) Bereken de scores als log-odds ratios s(i,C) = log(Q i /P i ) met P i achtergrondfrequenties uit de substitutiematrix

BLAST met PSSMs Enkel beperkte aanpassingen zijn nodig om BLAST te runnen met een positiespecifieke scoringsmatrix (in essentie, vervangen we de score die we normaal gezien via de query en de substitutiematrix s(t i,q i ) bekomen door de score die we via de PSSM s(t i,C) bekomen) Om de parameters van BLAST niet te moeten modificeren, moeten de scores op een aangepaste manier herschaald worden

Protein familyQuery (SWISS-PROT) Smith- Waterman BLASTPSI-BLAST (# matches) Serine proteaseP Serine protease inhibitorP RasP GlobinP HemagglutininP Interferon alphaP Alcohol dehydrogenaseP Histocompatibility antigenP Cytochrome P450P Glutathione transferaseP H + -transport ATP synthaseP Running time PSI-BLAST voorbeeld

CLUSTALW

Meervoudige alignering kan geformuleerd worden als multidimensioneel dynamisch programmeren, maar voor N sequenties van lengte L is de complexiteit O(L N ) (onmogelijk in de praktijk dus) CLUSTALW (Cluster and ALign) is een voorbeeld van progressieve meervoudige alignering Bouw een begeleidingsboom gebaseerd op sequentiesimilariteit (geen echte fylogenetische boom) Doe paarsgewijs alignering langs de begeleidingsboom Paasgewijs sequentiealignering Sequentie–groep alignering Groep–groep alignering

sequenties afstandsmatrix paarsgewijs alignering sequentie-groep alignering groep-groep alignering begeleidingsboom finale meervoudige alignering

CLUSTALW Algoritme Bouw afstandsmatrix voor alle sequentieparen Bereken paarsgewijs ‘gapped’ aligneringen voor alle paren Score met percentage verschillen tussen gealigneerde sequenties (gaps geexcludeerd) Bouw de begeleidingsboom Gebruik de ‘neighbor-joining’ methode Zet de wortel op de tak waar de gemiddelde taklengte is gelijk aan beide kanten Gebruik de boom om het gewicht van iedere sequentie te bepalen Aligneer progressief langs de boom (seq.-seq., seq.-groep, groep-groep) Vergrendel reeds gealigneerde sequenties samen Aligneer twee groepen via dynamisch programmeren met sum-of-pairs scores Gebruik enkele heuristieken

‘Neighbor-joining’ methode Afstanden d ij tussen sequenties i en j worden afgeleid uit de paarsgewijs aligneringen Definieer de genormalizeerde afstanden D ij (om te compenseren voor variabele evolutietijden) als D ij = d ij – (r i + r j ) r i =  k d ik /(N – 2)

Initialisatie De sequenties zijn de bladeren L van de boom T Iteratie Pak het paar (i,j) waarvoor D ij minimaal is Definieer een nieuwe knoop k en voeg die toe aan de boom met takken d ik = (d ij + r j – r j ), d jk = d ij – d jk Verwijder i en j uit de bladeren L, vervang die door k en zet d km = (d im + d jm – d ij )/2 voor alle m in L Eind Verwijder de laatste twee bladeren en zet hun takken op d ij Zet de wortel op de tak waar de gemiddelde taklengte gelijk is aan beide kanten

Samenvatting Meervoudige alignering PSI-BLAST CLUSTALW