Hoofdstuk 12 Complexe ANOVA/MANOVA modellen MANOVA

Slides:



Advertisements
Verwante presentaties
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
Erfelijkheid Thema 3.
Les 2 klassediagrammen II
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Toetsen van verschillen tussen twee of meer groepen
Math Candel Universiteit Maastricht. •Achtergrond: –Diagnose probleem –Meetinstrumenten –Conceptueel model •Presentaties van eigen analyses •Voorbeeld.
Lessen uit de eerste ronde OnderwijsBewijs Lex Borghans Universiteit Maastricht Voorzitter begeleidingscommissie OnderwijsBewijs.
-Glucuronidase (GUS)
Statistiek II Deel 1.
College 2 Between-subject en within-subject designs
Vergelijkbaarheid historische studies
Hoofdstuk 10 Onderzoeken met SPSS en MS Excel
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Is cosmology a solved problem?. Bepaling van Ω DM met behulp van rotatie krommen.
Thema 3 Erfelijkheid Van een pasgeboren baby wordt vaak gezegd: ‘Ik vind dat hij op zijn moeder lijkt,’ of: ‘Hij heeft de ogen van zijn vader.’ Toch zijn.
Chromosomen en waarom je op je ouders lijkt.
Hoofdstuk 3 – Gegevens verzamelen
Experimenteel en quasi-experimenteel onderzoek
Hoofdstuk 8: Variantieanalyse met herhaalde metingen hoofdstuk 8
II. Intermezzo: de berekening van verwantschap
Recap Tom Wenseleeers, 22 oktober 2009
Experimenteel Design Prof. Dr. S. Van Dongen
vwo C Samenvatting Hoofdstuk 12
Chapter 9. Understanding Multivariate Techniques
Gegevensverwerving en verwerking
Chapter 9. Understanding Multivariate Techniques
Non-parametrische technieken
Meervoudige lineaire regressie
Twee-factor Variantie-analyse
Inferentie voor regressie
Schatter voor covariantie
Multifactoriële designs
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Meten bij marktonderzoek
Voorspellende analyse
Meten bij marktonderzoek
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Populatiegemiddelden: recap
Vormen van studie (ontwerp)
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
Hoofdstuk 16 Het vermogen van een test
De vangnetpopulatie in de Ziektewet: kenmerken en risicofactoren voor langdurig verzuim Het onderzoek.
Opbrengsten van onderwijs
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
Partiële r² Predictie van y gebaseerd op z alleen
Controle van bijkomende variabelen
Inhoud college Bespreken opdracht Lijnbalancering: TPM
Die ziekte in mijn familie krijg ik die later ook?
Baarde en de goede Hoofdstuk 11: Data-analyse
Het optimale design versus de weerbarstige praktijk Prof. Dr. Jan Busschbach
Stage: Basisschool de Klingerberg
Onze doelen en visie in beeld
ANW Module 2 Leven Door Gabriella, Melanie, Elise en Fabienne van v4.
Interpunctie, Veghel WEB-CURSUS.
Waar moeten we ons druk om maken? Effectiviteit van het natuurkunde- onderwijs in 5 vwo als het gaat om het eindexamencijfer natuurkunde.
Week 2 : Ontwikkelingspsychologie, Liesbeth van Beemen:
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Opvoeding en ontwikkeling van het jonge kind
 Bepaald?  Bepaald:De het  Bepaald: de het  Onbepaald?
Testen met een klein aantal testmonsters Rob Ross.
Kan je zien of iemand holebi is?
Fokkerij 1.1 Wat is genetica?.
Toetsen van verschillen tussen twee of meer groepen
Hoofdstuk 4 Kwantitatieve dataverzamelingsmethoden Nel Verhoeven
Voorspellende analyse
Hoofdstuk 10 Onderzoeken met SPSS en MS Excel
Vererving van kwantitatieve kenmerken
Gebruik van SNP-merkers in fokwaardeschatting
Transcript van de presentatie:

Hoofdstuk 12 Complexe ANOVA/MANOVA modellen MANOVA • Eénwegs en meerwegs repeated measures ANOVA MANOVA Random en mixed-model ANOVA Onvolledige (nested) designs Gebalanceerde vs. ongebalanceerde designs Model diagnose Tom Wenseleeers, 22 oktober 2009

12.1 Eénwegs repeated measures ANOVA • Eerder testten we of verschillende soorten irissen een verschillende kelkblad lengte hadden en of hommels van verschillende leeftijd en taakgroep een verschillende expressie van het FOR gen hadden. Hierbij werkten we steeds met verschillende individuen - we spreken in dat geval van een tussengroepsdesign. • Maar wat indien we herhaaldelijk dezelfde afhankelijke variabele meten bij dezelfde individuen? Bijvoorbeeld op een dier voor en na een behandeling, of op verschillende tijdstippen (longitudinale data)? • Indien je 1 factor hebt met 2 groepen dan zou je voor dit soort analyses een gepaarde (in tegenstelling tot een ongepaarde of tussengroeps) t-test gebruiken. • Analoog kan je wanneer je meerdere groepen van gepaarde metingen hebt repeated measures ANOVA doen.

• Voordelen van een repeated measures design je reduceert interindividuele variatie je hebt minder individuen nodig soms kan je nt. anders, bv. in longitudinaal onderzoek repeated measures laat ook toe je variabele nauwkeuriger te meten • Nadelen van een repeated measures design je kan previous experience of seizoenale effecten hebben daarom moet je als je kan in een gerandomiseerde volgorde werken • Soms kan je verschillende individuen ook analyseren als gepaarde metingen met een repeated measures ANOVA indien ze een belangrijke eigenschap gemeen hebben. • Bv. expressie bepaald gen bij bijen van dezelfde kolonie vergelijken voor en na een pesticide behandeling. Hoewel je voor en na verschillende werksters kan gebruiken kan je dit toch via een repeated measures ANOVA analyseren (althans indien je 1 replica hebt per kolonie). Bij meerdere replica's per kolonie: mixed model ANOVA en kolonie coderen als een random factor (zie verder).

• Voor medische trials zijn repeated measures designs dikwijls niet mogelijk. • Stel bv. je wil het effect van 3 verschillende medicijnen op de genezing van een tumor testen. • Indien je eerst een medicijn toedient dat de tumor geneest dan kan je later de andere niet meer testen. • Meestal zal er daarom gekozen worden voor een tussengroeps design, i.e. voor 'randomised controlled trials', waarbij verschillende personen gerandomiseerd worden toegekend aan bepaalde treatment groepen, en de behandeling dubbel blind gebeurt, zodat zowel de dokter als de patient niet weten of ze een placebo of een bepaald medicijn krijgen toegediend. • In het volgende voorbeeld zullen we echter een repeated measures ANOVA gebruiken om het effect van een treatment nauwkeuriger te meten.

• Voorbeeld: dataset 'fitness': effect op de conditie van drie soorten fitness (pilates/aerobics/zumba) wordt gemeten aan de hand van drie verschillende tests op dezelfde proefpersoon, en effect op de pols gemeten na drie inspannings-proeven (fietsen/joggen/sprinten) • We hebben nu 1 tussengroepsfactor (FITNESS) en 1 repeated measures factor (PROEF). Hier gebruiken we repeated measures gewoon om een nauwkeuriger beeld te krijgen van het effect op de conditie. • We zouden ook de pols van elke proefpersoon gemeten tijdens elke proef vóór de training begon kunnen aftrekken om te controleren voor verschillen in beginconditie.

• Analyse in Statistica

• Resultaat • Interpretatie - sommige soorten fitness (zumba) werken beter dan andere (pilates/aerobics) - sommige van de proeven vereisen een grotere fysieke inspanning - het effect van fitness op de gezondheid is vooral duidelijk bij grote inspanningen (significant interactie effect)

12.2 Meerwegs repeated measures ANOVA • Repeated measures ANOVA kan ook gemakkelijk uitgebreid worden naar meerwegs analyses. Bv. indien we pols hadden gemeten zowel tijdens als direct na de inspanningsproef dan zou je 2 repeated measures factoren hebben, PROEF (met 3 meetniveau's) en VOOR/NA (2 meetniveaus). • In Statistica zou je dit als volgt ingeven (dataset 'fitness2'):

• Analyse in Statistica Let op volgorde: hangt af van hoe dit is ingegeven in dataset. Traagst variërende factor eerst. ← hier kan je kiezen niet alle interactie effecten te fitten

• Resultaat • Interpretatie - als voordien - plus: pols significant verschillend voor en na de inspanningsproef - maar het verschil hiertussen hangt niet af van het gevolgde fitness schema (geen interactie effect) - hogere orde interactie effecten niet significant

12.3 MANOVA • Soms willen we ook het effect van een aantal factoren op meer dan 1 afhankelijke variabele testen. In dat geval kunnen we MANOVA gebruiken. • Voorbeeld: stel dat we conditie hadden gemeten o.b.v. een heel aantal variabelen zoals pols, aantal witte en rode bloedcellen, concentratie melkzuur in de spieren, etc... dan zouden we een globaal beeld van het effect van het trainingsprogramma kunnen bekomen. Soms worden repeated measures ANOVAs ook geanalyseerd via MANOVA. • Analyse in Statistica: zelfde als bij repeated measures ANOVA, i.e. selecteer meerdere afhankelijke variabelen in de GLM module, maar specifieer geen within subjects effecten. • Analyse 'fitness' data via MANOVA: • Geeft in dit geval nt zo veel info maar kan soms krachtiger zijn dan een groot aantal univariaat testen uit te voeren.

12.4 Random en mixed model ANOVA • In voorgaande analyses werkten we steeds met factoren die een vastgelegd aantal meetniveau's hebben, bv. sekse (mannelijk/vrouwelijk), soort behandeling, soort conditietraining, etc... Zulke factoren worden vaste of 'fixed' effecten genoemd. • In sommige gevallen zijn de meetniveau's van sommige van je factoren echter niet vooraf vastgesteld, maar zijn ze een staal uit een oneindig mogelijk aantal meetniveau's, bv. gebruikte proefveld, gebruikte proefdieren, onderzochte populatie, onderzochte bijenkolonie, etc... Zulke factoren worden willekeurige of 'random' effecten genoemd. • Modellen met enkel willekeurige factoren: random model ANOVA • Modellen met een combinatie van vaste en willekeurige factoren: mixed model ANOVA • In Statistica: Advanced Linear/Nonlinear Models...Variance Components of via GLM module (random factoren aanklikken onder Options)

• Repeated measures ANOVAs zijn in feite een specifiek geval van een mixed model ANOVA, waarbij proefpersoon een random factor is. • Onze eerdere 'fitness' dataset ↓ • Zouden we daarom ook zo kunnen ingeven → • PROEFPERSOON is hierbij een random factor en wordt ook wel een 'blocking factor' genoemd. Elke combinatie van factoren komt voor elke proefpersoon ook maar 1 keer voor, zodat we van PROEFPERSOON enkel het hoofdeffect zullen kunnen schatten. We noemen dit soort design ook wel een randomized block design.

• Analyse in Statistica: dataset 'fitness3', module General Linear Models Between effects: specifieer effecten als voordien, met bijkomend hoofd- effect voor PROEFPERSOON Options: klik PROEFPERSOON aan als Random factor

• Analyse in Statistica: dataset 'fitness3', module Variance Components

Repeated measures ANOVA op dataset 'fitness' • Resultaat: zelfde als voordien, maar met bijkomende schatting van proefpersoon effect (nt. nuttig, maar moet wel voor gecontroleerd worden) Repeated measures ANOVA op dataset 'fitness' (we gebruiken Type I SS omdat design gebalanceerd is, zie later) (opnieuw met Type I SS) GLM op dataset 'fitness3' Variance Components op dataset 'fitness3'

• In sommige gevallen zijn we expliciet geïnteresseerd in de variantie die verklaard wordt door random effecten. • Bv. in de populatiegenetica willen we graag weten hoeveel van de genetische variatie er tussen vs. binnen populaties ligt (FST). In de kwantitatieve genetica willen we graag weten hoeveel van de fenotypische variatie er verklaard wordt door vader en moeder effecten ('sire' en 'dam' effecten). • Voorbeeld: dataset 'schild', aantal rugschilden (DORS) i.f.v. de vaste factor sekse (SEX) en de random factor moeder (MOTHC) • Vraag: hebben hagedissen met dezelfde moeder een gelijkaardig aantal rugschilden? We zouden dit verwachten indien dit kenmerk erfelijk is [erfelijkheid werd eerder reeds al gesuggereerd op basis van het feit dat er een sterke correlatie is tussen het kenmerk van jongen (DORS) en dat van hun ouders (DORSF/M)]. We corrigeren ook voor sekse (SEX) omdat we weten dat mannetjes iets groter zijn dan vrouwtjes en meer rugschilden hebben.

• Analyse in Statistica: Module Variance Components (omdat dataset ongebalanceerd is kiezen we nu Type III SS, zie later)

- Moeder + sekse effect sign. • Resultaten - Moeder + sekse effect sign. - 46% van de variantie in het kenmerk is tussen jongen van dezelfde moeders - dit is gelijk aan de correlatie in het kenmerk tussen jongen van dezelfde moeder - dat deze correlatie zo hoog ligt bevestigd dat het kenmerk waarschijnlijk erfelijk is (we schatten variantiecomponenten met restricted maximum likelihood, REML)

12.5 Onvolledige (nested) designs • in sommige gevallen is het niet mogelijk om metingen te doen voor alle combinaties van meetniveau's van al je factoren - we spreken dan van onvolledige of 'nested' designs • Voorbeeld. 4 soorten bemesting, maar slechts 2 proefvelden beschikbaar. We nesten dan BEMESTING binnen VELD om het effect op de groei van je gewas te testen, en VELD wordt gecodeerd als random factor (dataset 'veld') • Analyse in Statistica. General Linear Model...Nested Design... • Resultaten. Geen sign. verschil tussen verschillende bemestingen binnen de 2 velden

• sommige types van onvolledige designs zal je trachten op te stellen zodat ze ideaal zijn voor het schatten van hoofdeffecten • Voorbeeld. Latin square design: layout veld als volgt (dataset 'bemesting') • In elke rij en kolom op het veld: elke soort bemesting komt exact 1 keer voor. Minst waarschijnlijk om dan een toevallige correlatie te hebben tussen je soort bemesting en 1 of andere omgevingsgradiënt. Beter dan pure randomisatie en uiteraard beter dan ze in stroken te plaatsen. • Dit soort designs kunnen in Statistica berekend worden met de module Industrial Statistics...Experimental Design; analyse kan via een GLM main effect ANOVA. • Resultaten. Geen sign. verschil tussen verschillende bemestingen binnen de 2 velden SOORT BEMESTING B A C D

• Analyse in Statistica. General Linear Model...Main effect ANOVA... • Resultaat • Significant effect van soort bemesting op groei (BEMESTING) en geen significante omgevingsgradiënt (RIJ of KOLOM effect). • Hoeft niet om één veld te gaan, je kan ook verschillende plots hebben. Indien we het effect van het soort bemesting op de opbrengst zouden willen testen dan zou factor 1 bv. 1 van de 4 VELDEN kunnen zijn, factor 2 1 van 4 beschikbare VARIETEITEN van je gewas en de behandeling 1 van 4 mogelijke BEMESTINGEN. Je hebt dan maar 16 plots nodig om de hoofdeffecten te kunnen schatten i.p.v. 64 voor een volledig factorieel design. • Uitbreiding voor nog meer factoren: Greco-Latin squares etc... • Resultaten. Geen sign. verschil tussen verschillende bemestingen binnen de 2 velden

12.6 Gebalanceerde vs. ongebalanceerde designs • wanneer we meerdere factoren hebben in een ANOVA dan moeten we proberen van van alle combinaties van factoren evenveel replica's te hebben - men spreekt van een gebalanceerde design • wanneer dataset niet gebalanceerd is dan ontstaat er ambiguiteit over hoe de gemiddelden en kwadratensommen dienen berekend te worden, bv. gemiddelden al dan niet gewogen met het aantal replica's per groep Type VI SS = effectieve hypothese decompositie: default voor gebalanceerde factoriële designs, op basis van unieke variantie verklaard door elke factor, maar kan niet altijd berekend worden, bv. voor gebalanceerde geneste designs Type I SS: goed voor gebalanceerde geneste designs, effecten worden sequentieel getest, nadeel is dat significanties afhangen van de volgorde waarin ze in het model gestopt worden, maar geen probleem indien effecten in logische volgorde kunnen geplaatst worden (wat het geval is bij geneste of factoriële designs) Type III SS: goed voor niet gebalanceerde designs, test op verschillen in gemiddelde, onafhankelijk van aantal replica's in een bepaalde groep zie The Analysis of Messy Data, Volume I: Designed Experiments (Milliken & Johnson 1993)

12.7 Model diagnose • outliers kunnen opgespoord worden en normaliteit en homogeniteit van de varianties kunnen getest worden zoals eerder getoond in de GLM module • met bepaalde complexe ANOVA designs (bv. wanneer ze ongebalanceerd zijn) kan het wel moeilijk zijn om alle assumpties adequaat te testen • ook de multivariaat normale verdeling verondersteld door MANOVA is moeilijk te testen • om deze reden zal ik hier minder op ingaan

Recap Afhankelijke variabele: 1, normaal verdeeld Onafhankelijke variabelen 1 > 1 Categorisch t-test (2 groepen) (ongepaard / gepaard) 1-wegs ANOVA (2 of meer groepen) (tussengroeps / repeated measures) meerwegs ANOVA (tussengroeps / repeated measures) (met fixed en/of random factoren) (volledige / onvolledige designs) Continu enkelvoudige regressie meervoudige regressie Categorisch + Continu ANCOVA

Recap Afhankelijke variabele: > 1, multivariaat normaal verdeeld Onafhankelijke variabelen 1 > 1 Categorisch 1-wegs MANOVA meerwegs MANOVA Categorisch + Continu MANCOVA

Datasets en trial versie van Statistica 8: op Toledo. Opdracht Tegen volgende week (28 oktober): probeer al de analyses die op de Powerpoints staan eens zelf uit te voeren. Datasets en trial versie van Statistica 8: op Toledo. Je mag me altijd mailen (tom.wenseleers@bio.kuleuven.be) in geval van problemen of onduidelijkheden.