Recap Tom Wenseleeers, 22 oktober 2009 Afhankelijke variabele: 1, normaal verdeeld Onafhankelijke variabelen 1 > 1 Categorisch t-test (2 groepen) (ongepaard / gepaard) 1-wegs ANOVA (2 of meer groepen) (tussengroeps / repeated measures) meerwegs ANOVA (tussengroeps / repeated measures) Continu enkelvoudige regressie meervoudige regressie Categorisch + Continu ANCOVA Tom Wenseleeers, 22 oktober 2009
Hoofdstuk 11 Meerwegs tussengroeps ANOVA Berekeningen in Statistica • Voorbeeld Berekeningen in Statistica Interpretatie van de resultaten Invloedrijke observaties Post-hoc vergelijkingen en contrastanalyse Model diagnose Tom Wenseleeers, 22 oktober 2009
11.1 Voorbeeld • Eerder testten we of verschillende soorten irissen een verschillende kelkblad lengte hebben. Dit was een éénwegs ANOVA. En omdat we met ongepaarde gegevens werkten was het meer specifiek een éénwegs tussengroeps ANOVA. • Maar wat indien we het effect van meerdere factoren willen testen? In dat geval gebruiken we een meerwegs ANOVA. • Voorbeeld: dataset 'hommelA': expressie FOR gen (relatief t.ov. controlegen actine) (EXPRFOR) gemeten bij hommels die werken in het nest ("nurses") en die foerageren ("foragers") (TAAK) en bij hommels van verschillende leeftijd (LEEFTIJD). Elke meting is gebaseerd op een gepoold staal van 3 bijen afkomstig uit 3 verschillende kolonies. Vermits elke meting gebeurde op verschillende bijen hebben we te doen met een tussengroepsdesign. • Is er een verschil in expressie van het FOR gen bij foerageerders en nurses en is de expressie leeftijdsafhankelijk?
Vermits we 2 taakgroepen hebben (nurses/foragers) en 3 leeftijdgroepen (2 / 3 / 4 dagen oud) spreken we hier van een 2 x 3 between-groups ANOVA
• Uit 2 éénwegs ANOVA analyses blijkt (GLM...1 way ANOVA...means) : - Expressie FOR gen hoger bij foragers (p = 0.046) - Expressie FOR gen leeftijdsafhankelijk (p = 0.05) maar NIET SIGNIFICANT
• Genexpressie waarden werden vooraf Log2 getransformeerd • Genexpressie waarden werden vooraf Log2 getransformeerd. Dit is standaard in dit soort onderzoek, en resulteert in meer normaal verdeelde waarden. • In Statistica kunnen we zulke transformaties gemakkelijk uitvoeren door in het Long name vakje een formule in te vullen. Bv. als originele genexpressiewaarden (EXPRFOR) in variabele 4 staan dan schrijven we =Log2(v4) of =Log2(EXPRFOR).
• De genexpressie voor elke combinatie van de twee factoren kan als volgt berekend worden:
• Een grafische weergave met gemiddelden en standaard deviaties bekomen we in Statistica als volgt:
• Output uit Statistica:
• De grafische analyse toont aan dat hoewel er verschillen zijn in de gemiddelde expressie van het FOR gen bij foragers en nurses het expressieniveau ook sterk leeftijdsafhankelijk is. (2 dagen oude foragers vertonen ook een zeer grote variantie - zie later Model Diagnose) • Meervoudige ANOVA zal ons toelaten om het verschil in expressie bij foragers en nurses te testen en simultaan te controleren voor leeftijdseffecten. Dit zal een veel krachtigere test opleveren. Bovendien kunnen we testen of er mogelijk een interactie effect is tussen de twee factoren, i.e. of het tijdseffect parallel verloopt in foragers en nurses. • Omdat we in dit geval twee factoren hebben en zowel de hoofdeffecten als de interactie effecten willen weten spreken we van een tweewegs (tussengroeps) factoriële ANOVA. • Kan gemakkelijk veralgemeend worden naar ANOVA modellen met > 2 factoren.
11.2 Berekeningen in Statistica • Een volledige factoriële ANOVA analyse kan in Statistica uitgevoerd worden via de module Advanced Linear/Nonlinear Models... General Linear Models (of ook via de ANOVA module):
• De output is op analoge manier gestructureerd als bij enkelvoudige ANOVA: • ANOVA tabel (All effects):
• Onder "whole model R" krijg je ook te zien hoeveel van de totale variabiliteit in de genexpressiewaarden verklaard worden door ons ANOVA model (foragers vs. nurses en leeftijd) • Hierbij dient er gekeken te worden naar de adjusted R2, dewelke corrigeert voor het feit dat hoe complexer het model is dat er gefit wordt hoe beter de finale fit automatisch zal zijn. • In dit geval is ons model net niet significant, wat aangeeft dat we ons model door inclusie van het interactie effect waarschijnlijk geoverfit hebben (zie later).
11.3 Interpretatie van de resultaten • De gedetailleerde ANOVA tabel voor onze dataset is: • We krijgen hier een F-test voor elk effect dat we gespecifieerd hebben in ons model. • Wat betreft interpretatie, zijn deze testen volledig analoog aan de testen bij meervoudige lineaire regressie, m.a.w. men test de significantie van een bepaald effect, waarbij de andere effecten constant gehouden worden.
• Drie belangrijke conclusies: - Expressie FOR gen significant verschillend tssn foragers en nurses - Expressie FOR gen is significant afhankelijk v/d leeftijd - Het leeftijdseffect verloopt parallel voor foragers en nurses (geen significant interactie effect) • Interactie termen testen of je onafhankelijke variabelen een additief effect hebben. Merk echter op dat vermits we de analyse gedaan hebben op Log getransformeerde gegevens, we hier eigenlijk testen of de twee factoren een multiplicatief effect hebben op de originele schaal. Dit komt omdat Log(x)+Log(y)=Log(x.y)
• Via All effect/Graphs kunnen we onze resultaten grafisch interpreteren: • Niet significant interactie effect toont aan dat leeftijdseffect parallel verloopt bij foragers en nurses. We kunnen afwezigheid van een interactie ook als assumptie aannemen. We spreken dan van een hoofdeffects (main effects) ANOVA.
• Dit is het resultaat van zo'n hoofdeffects ANOVA (GLM • Dit is het resultaat van zo'n hoofdeffects ANOVA (GLM...Main effects ANOVA): • We zien dat de significantie niveaus van de hoofdeffecten beter zijn dan in het volledig factoriele model en dat het model als geheel nu wel significant is. Dit is te wijten aan het feit dat de kracht van de test nu iets hoger is vermits we een minder gedetailleerd model fitten aan de data. Indien er effectief een interactie effect bestaat dan kan een main effects ANOVA echter ook minder krachtig zijn dan een volledig factorieel model. • Meestal kiezen we voor een main effects ANOVA wanneer de dataset te klein is om alle interactie effecten te kunnen fitten.
11.4 Invloedrijke observaties • Net als bij 1-wegs ANOVA en bij regressie is het belangrijk na te gaan of bepaalde subjecten in onze data set uitzonderlijk grote invloed hebben op deze voorspelde waarden. • Statistica laat toe een Cook’s distance te berekenen die meet hoe sterk de voorspelde waarden veranderen als een individu uit de analyse wordt weggelaten. • In de GLM module kan de Cook's distance berekend worden onder More results...Residuals 2...
• Statistica output: • We zien dat case 5 duidelijk een outlier is, met een Cook’s afstand van 0.63. • Toen ik terug ging kijken in mijn schrift zag ik dat ik een typfout gemaakt had, en dat de correcte expressie waarde voor case 5 2.4 i.p.v. 4.0 was. • We doen de analyse opnieuw met de juiste waarde.
• De ANOVA tabel en grafieken na correctie van de outlier zijn: - Significantieniveau's veel beter. - Varianties veel gelijker tussen groepen (behalve in groep nurses van 4 dagen oud maar kan toevallig zijn).
11.5 Post-hoc vergelijkingen • Wanneer we meer dan 2 groepen hebben voor een bepaalde factor, dan zijn we ook dikwijls geïnteresseerd om te weten waar de significante verschillen juist liggen aan de hand van paarsgewijze testen. Dit kan via posthoc analyse. • Naïeve benadering: groot aantal t-tests uit voeren (in Statistica kan dit via More results...Posthoc...Fisher LSD). • Echter, door zo veel testen uit te voeren ga je door toeval soms p waarden uitkomen ≤ 0.05. • Bv. stel je schrijft een willekeurig getal op tussen 1 en 10 en stopt dit in een hoed. Vervolgens trek je hier 20 stalen uit van 5 briefjes elk. De kans dat je dan significante verschillen gaat vinden indien je paarsgewijze t-testen zou uitvoeren gaat dan heel groot zijn omdat je groepen met een toevallig klein gemiddelde gaat vergelijken met die met een groot gemiddelde.
(1) De familywise error rate controleren Twee grote benaderingen om te corrigeren voor herhaaldelijk testen: (1) De familywise error rate controleren • Als je je cutoff stelt op a = 0.05 dan zal je slechts in 1 van de 20 testen een verkeerdelijk significant resultaat uitkomen (Type I fout). • Bv. 200 tests → 200/20=10 Type I fouten. • In Statistica: More results...Posthoc... • Bonferroni post-hoc test: corrigeert de p waarde door te vermenigvuldigen met het aantal keer dat je de test uitvoert (=Fisher LSD p-waarde x aantal testen). • Tukey HSD post-hoc test: analoog principe, maar minder conservatief.
(2) De false discovery rate controleren Twee grote benaderingen om te corrigeren voor herhaaldelijk testen: (2) De false discovery rate controleren • Voor een a = 0.05 zullen 1 op de 20 significante testen dan vals positief zijn (Type I fout). • Bv. 200 tests waarvan er 20 significant bevonden worden → 20/20=1 Type I fout. • Minder conservatief indien er een relatief klein aantal significante verschillen verwacht worden. (bv. microarray analyses) • Geïmplementeerd in o.a. Benjamini-Hochberg methode. • Kan manueel berekend worden in Excel op basis van de ongecorrigeerde (Fisher LSD) p waarden. Voorbeeld Excel sheet zal in de oefensessie gegeven worden.
• Voorbeeld: More results...Post-hoc... * * Fisher LSD (geen correctie) Tukey HSD Bonferonni = Fisher LSD p-waarden x aantal tests (15)
11.6 Contrast analyse • In sommige gevallen wil je de gemiddelden van groepen in een ANOVA analyse vergelijken op een meer gedetailleerde manier dan enkel via hoofd- en interactie effecten. Dit kan via contrast analyse. • In ons geval zou je bv. specifiek kunnen testen voor een trend i.f.v. leeftijd. Alternatieve methode zou ook kunnen zijn om leeftijd te coderen als een continue covariaat (zie volgende les over ANCOVA). • We zullen hier niet op ingaan hoe zulke contrasten kunnen gespecifieerd worden, maar details kunnen gevonden worden in Rosenthal, R., & Rosnow, R.L. (2003). Contrasts and effect sizes in behavioral research: A correlational approach. Boston: Cambridge University Press. NIET VOOR EXAMEN
11.7 Model diagnose • Bij 1-wegs ANOVA werd er verondersteld dat de gegevens binnen elke groep normaal verdeeld waren, en een constante variantie hadden. • Bij meervoudige ANOVA veronderstelt men analoog dat, voor elke combinatie van de factoren in het model, de gegevens normaal verdeeld zijn en dat de variantie constant is. • Voor ons voorbeeld heeft de factor TAAK 2 mogelijke waarden (forager / nurse) en LEEFTIJD 3 mogelijke waarden (2/3/4 dagen oud). We hebben dus 6 mogelijke combinaties, en binnen elk van deze 6 groepen dienen de gegevens normaal verdeeld zijn en de varianties gelijk te zijn. • In de praktijk is het voor complexe designs dikwijls moeilijk deze assumptie te testen vermits we meestal niet zo veel replicates hebben per combinatie van onze factoren. We kunnen dan echter nog wel testen of de residuen normaal verdeeld zijn en of de groepsgemiddelden evt. gecorreleerd zijn met de standaard deviatie.
11.7.1 Assumptie van constante variantie • Geschatte standaard deviatie voor elke combinatie van de factoren in het model (Descriptive statistics...Breakdown): Of grafisch via een boxplot:
• Zoals bij 1-wegs ANOVA kan de Levene test gebruikt worden om te testen of de 6 varianties gelijk zijn: • Statistica output: • De varianties in de 6 groepen zijn dus niet significant verschillend (p = 0.32).
• Wat indien er niet aan de homogeniteit van de varianties assumptie kan voldaan worden? • Probeer de afhankelijke variabele te transformeren, zodat er wel aan voldaan is. • Kleine afwijkingen meestal geen groot probleem. Enige uitzondering is wanneer het gemiddelde gecorreleerd is met de variantie (bv. bij Poisson verdeling). In dat geval kan een verkeerdelijk significant resultaat bekomen worden (Type I fout). In Statistica kan je de standaard deviatie plotten in functie van de gemiddelden.
11.7.2 Assumptie van normaliteit • Andere assumptie: normale verdeling binnen groepen. Hoe kunnen we deze assumptie testen? • Meestal te weinig replica's om direct op normaliteit te kunnen testen binnen elke groep. • Zou ook een groot aantal testen vereisen (probleem van meervoudig testen). • We kunnen echter wel testen of de residuen (wat er overblijft na het fitten van het ANOVA model, i.e. de geobserveerde waarden - de voorspelde waarden) normaal verdeeld zijn.
• In Statistica: More results...Residuals 1...Residuals... • Statistica output: • Ondanks de lichte asymmetrie die blijkt uit het histogram wordt de normaliteit niet verworpen.
• Wat indien niet aan normaliteit voldaan is? • Probeer variabele te transformeren. Goede transformatie: Box-Cox: tracht iteratief de verdeling normaal te maken. Beschikbaar in Statistica onder Data...Box-Cox transformation. • Eventuele transformaties kunnen de constante variantie echter wel verstoren, zodat dit na een transformatie terug bekeken moet worden. Homogeniteit van de variantie meestal belangrijker dan normaliteit. • Asymmetrische verdelingen zullen er bv. voor zorgen dat de variantie binnen groepen overschat wordt, zodat de kracht van de test verminderd (meer Type II fouten), zonder evenwel voor meer Type I fouten te zorgen. • Veel verdelingen (bv. binomiaal, Poisson) zullen de normale distributie ook benaderen indien je veel replica's hebt (centraal limiet theorema). • Indien de verdeling van de afhankelijke variabele bekend is (bv. binomiaal, Poisson) dan kan je ook een veralgemeend lineair model gebruiken (GLZ) en een verdeling specifiëren voor de afhankelijke variabele (volgende les).