Help! Statistiek! Doorlopende serie laagdrempelige lezingen,

Slides:



Advertisements
Verwante presentaties
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
2 Wat was toen het grootste het grootste probleem van de van de FOD?
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
De relatie tussen logistiek en veiligheid
Risico’s en gevaren van techniek
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Probleem Professionals gebruiken innovaties niet (helemaal) zoals bedoeld Waardoor mogelijk de effecten uitblijven bij de einddoelgroep (cliënten, patiënten.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Betrouwbaarheid en Validiteit
Hok Kwan Kan Primary supervisor: dr. Katrien Antonio
P-waarde versus betrouwbaarheidsinterval
Jan Talmon Medische Informatica Universiteit Maastricht
De rol van aandachtsfocus in blootstelling aan bedreigende informatie
Thesisseminarie 4 Resultaten Correlatie en multiple regressie
Chapter 9. Understanding Multivariate Techniques
Gegevensverwerving en verwerking
Non-parametrische technieken
Insertie van etheen in BH 3 en NH 3 Doorrekenen van een reactiepad.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen,
Help! Statistiek! Doel:Informeren over statistiek in klinisch onderzoek. Tijd:Derde woensdag in de maand, uur 16 april : Hoe interpreteren we toetsresultaten?
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
College Project Management 1 maart 2002
Schatten Robert de Hoog College 25 januari College Projectmanagement 25 januari Onderwerpen De methode van DeMarco Functiepunt analyse Complexiteits.
Sociologie als wetenschap
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Eenvoudige data-analyse: beschrijvende statistische
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Temperatuur reconstructie door Mann et al.
Exercise for people with peripheral neuropathy Karin Faber CAT, 8 september 2005.
Clinical audit Ervaringen in Engeland
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
Inhoud presentatie Statistische betrouwbaarheid: belangrijk?
Interpretatie van statistiek bij toetsen en toetsvragen
Petra Dewilde Annelies Duerinckx
Betrouwbaarheid.
DE GOMA; VAN 0 NAAR BETER EEN ANALYSE BIJ DE 0-METING BETREFFENDE DE BEKENDHEID, TOEPASSING EN NALEVING VAN DE GOMA, MEDE IN RELATIE TOT BEVINDINGEN UIT.
Improving health by sharing science 11/09/2014 ICT en datakwaliteit: een goede relatie? Ariaan Siezen - Nijmegen ICT coördinator Radboud Biobank/Parelsnoer.
Voorraadbeheer en bestellen
Goederenverwerking H1 Voorraadadministratie bijhouden Manager Handel.
1 Aart Smits (eauQstat), Eit C.J. van der Meulen (AMO) Gerrit van de Haar (RIWA), Paul K. Baggelaar (Icastat) Imputeren en beoordelen meetreeksen RIWA-base.
Baarde en de goede Hoofdstuk 11: Data-analyse
Voorraadbeheer en bestellen
Union Membership, the Psychological Contract (PC), and Organisational Commitment (OC) in Three Contrasting IR Contexts Claes, R., & Schalk, R. (manuscript.
1 Cursus Regressie-analyse Rijkswaterstaat, 13 februari Interacties Transparanten beschikbaar gesteld door Dr. B. Pelzer.
Evidence-Based Medicine
Voorraadbeheer en bestellen
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Latent class growth analysis als succesvolle methode om subgroepen te identificeren binnen een gewichtsreductie interventie. Bastiaan C. de Vos¹, MD,
Plancyclus, les 4  Actualiteit  Vragen naar aanleiding van vorige les  Vragen over hoofdstuk 4 en 5  Observeren met een plan; het verschil tussen observeren.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Het doel en de grondbeginselen van statistiek in klinische onderzoeken
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
Betrouwbaarheidsinterval
Hoe eenvoudig is een gemiddelde?
Process Mining.
Eenvoudige data-analyse: beschrijvende statistische
Disclosure belangen NHG spreker
De omvang van een steekproef bepalen
Voorspellende analyse
Voorspelling van criminele carrières door 2-dimensionale extrapolatie
Hoe eenvoudig is een gemiddelde?
Transcript van de presentatie:

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 21 november : Hoe gaan we om met ontbrekende waarnemingen? 19 december : Hoe bepaal ik of een verband lineair is?" 16 januari : Overeenstemming Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie

Hoe gaan we om met ontbrekende waarden? Wat zijn ontbrekende waarden? waarom vormen zij een probleem? mogelijke oorzaken van missing missing data processen Identificatie van missing data proces methoden van analyse bespreking van methode voor- en nadelen statistische software algemene richtlijnen voor omgaan met missing data

Wat zijn ontbrekende waarden? Missende waarden (missing data) in geval van niet van toepassing in geval van een 0 overlijden gecensureerde waarnemingen latente variabelen

Wat zijn ontbrekende waarden? Soorten unit non-response Item non-response wave non-response (longitudinale data) dropout na een zeker moment (monotone drop-out)

Waarom leveren missing data problemen op? 1. Reductie aantallen grotere onbetrouwbaarheid lagere power 2. Bias/vertekening Proportie missende waarden Verschil tussen completers en non-completers hangt af van het missing data proces: waarom ontbreken de waarnemingen ?

Redenen van missing data methodologische factoren definitie schalen hoeveelheid timing logistieke/administratieve factoren instructies aan en motivatie van hulpverleners monitoring datamanagement benadering patient patient gerelateerde factoren

Redenen van missing data en missing data process De redenen van missing bepalen het missing data proces!!!! Identificatie van redenen is essentieel Niet elke statistische methode levert unbiased resultaten op onder alle missing data processen.

Typologie van missing data processen MCAR: Missing Completely At Random MAR: Missing At Random MNAR: Missing Not At Random (NMAR: Not Missing At Random) Y: de verzameling van variabelen met missings X: de verzameling variabelen zonder missings Z: verzameling variabelen die een relatie hebben met missing R: het optreden van missing

Missing Completely At Random Y: de verzameling van variabelen met missings X: de verzameling variabelen zonder missings Z: verzameling variabelen, die relatie hebben met missing R: optreden van missing (missing data proces) X Z Y R In statistische termen: MCAR P(R|Y,X) = P(R)

In statistische termen: Missing At Random Y: de verzameling van variabelen met missings X: de verzameling variabelen zonder missings Z: verzameling variabelen, die relatie hebben met missing R: het optreden van missing (missing data proces) X Z Y R In statistische termen: MAR P(R|Y,X) = P(R|X)

In statistische termen: Missing Not At Random Y: de verzameling van variabelen met missings X: de verzameling variabelen zonder missings Z: verzameling variabelen, die relatie hebben met missing R: het optreden van missing (missing data proces) X Z Y R In statistische termen: MNAR P(R|Y,X) = P(R|Y,X)

Missing data processen longitudinale data Y1 , Y2, ,…, Yt, …, Yp : p herhaalde metingen MCAR: missing hangt niet af van scores in het verleden, heden en toekomst MAR: Missing hangt af van verleden, niet van heden en toekomst MNAR: Missing hangt af van heden en/of toekomst

Voorbeeld verloop bloeddruk over de tijd In februari: metingen van 32 patienten In maart: deel van patienten komt niet op dagen in verband met slecht weer Vraag: wat is het missing data proces?

Voorbeeld verloop bloeddruk over de tijd In februari: metingen van 32 patienten In maart: patienten die de eerste keer geen hoge bloeddruk hebben komen niet opdagen Vraag: wat is het missing data proces?

Voorbeeld verloop bloeddruk over de tijd In februari: metingen van 32 patienten In maart: alleen van patienten die in maart een hoge bloeddruk hebben zijn de waarden genoteerd. Vraag: wat is het missing data proces?

Identificatie van missing data proces Twee methoden: Het achterhalen/bijhouden van redenen missing Het modelleren van het ‘missing data proces’

Methoden van analyse Complete case analyse Summary measures Available case analyse Single imputatie Multiple imputatie Likelihood based methoden Selectie en pattern-mixture modellen

Complete case analyse Alle respondenten met missing worden uit de analyse gelaten Voordelen Simpele manier alle standaard statistische technieken zijn toepasbaar Nadelen de aantallen zijn kleiner, dus lagere power en hogere onbetrouwbaarheid alleen bij MCAR unbiased resultaten

Longitudinale setting Summary measures Longitudinale setting Reduceren van data door 1 belangrijk aspect te nemen, bijv: maximum, minimum, mediaan of Gemiddelde Voordeel Simpel Nadeel geeft alleen onder MCAR unbiased resultaten

Available case analyse Longitudinale setting Analyse per tijdstip voor alle beschikbare personen Voordelen Simpele manier alle standaard statistische technieken zijn toepasbaar Nadelen geen rekening met longitudinaal karakter; per meetmoment andere personen unbiased resultaten alleen bij MCAR

Single imputatie Het invullen van de missende waarden met een ‘goede’ schatting Doel: een dataset zonder ontbrekende waarden Verschillende methodes Last Value carried forward mean en regression imputation hot deck en cold deck imputation

Single imputatie Voordelen: simpel Analyse data met standaard technieken/software Nadelen onderzoeker vergeet imputatie: standaardfouten te klein imputatie kan bias veroorzaken onder alle missing data processen

Multiple imputatie Niet 1 keer de missende waarde schatten, maar meerdere keren. Variabiliteit van de schattingen maakt correctie van de standaardfouten mogelijk

Multiple imputatie Specificatie van het imputatiemodel (Y(mis)| X, R) vorm van het model selectie van predictoren die relevant zijn in onderzoek relatie hebben met het optreden van missing 2. Trekken van m sets imputaties Verdeling van missende waarden Verdeling van de parameters van het imputatiemodel Resultaat: m complete datasets

Multiple imputatie (2) 3. Doe de analyse op de m complete data: resultaat: m schattingen 4. Poolen van de m analyses

Multiple imputatie Voordelen standaardfouten worden goed geschat Het missing data proces kan in het imputatiemodel worden meegenomen: dus, Als de imputaties afhangen van een NMAR principe dan schattingen unbiased onder NMAR Veel programmatuur beschikbaar, maar…..

Software: www.multiple-imputation.com Multiple imputatie Software: www.multiple-imputation.com R MICE (S-plus) ICE (STATA implementation of MICE) IVEWARE (SAS) SOLAS SAS proc MI en SAS proc MIANALYZE NORM, CAT , MIX, PAN (Schafer) AMELIA

Multiple imputatie Nadelen: Alles hangt af van juist imputatiemodel (meest moeilijke stap van deze procedure) Gebruikers van software: moeten zich realiseren dat ze zelf moeten nadenken over imputatiemodel: het is geen vast recept!!! MI: lost het probleem van de identificatie van missing data proces niet op!!

Likelihood based methoden Modelbenadering gebaseerd op theoretische verdeling van de data: Schatten van effecten gebeurt op de meest waarschijnlijke waarden gegeven de data. (regressiemodel benaderingen: random effects modellen) Alle geobserveerde data doen mee in de likelihood Voordelen: unbiased resultaten bij MCAR en MAR Veel programmatuur beschikbaar

Likelihood based methoden programmatuur R SAS proc-mixed Vanaf SPSS12 mixed models STATA Mlwin S-plus Egret

Likelihood based methoden Nadelen (zelfde als bij MI, maar dan expliciet) Geavanceerdere methoden vereist meer statistische kennis Verdeling van de data moet bekend zijn Wat te doen bij MNAR?

MNAR: likelihood based Modelleren van gezamenlijke verdeling Selectie modellen (Diggle & Kenward, 1994) f(Y,X,R) = f(Y,X) P(R| Y,X) 2. pattern-mixture modellen (Little, 1993; Hedeker & Gibbons,1997) f(Y,X,R) = f(Y,X|R) P(R)

algemene richtlijnen Voorkomen is beter dan genezen Identificatie van missing data proces: verzamel gegevens redenen missings Modelleren van het proces Bij niet MCAR gebruik altijd (ook) likelihood based benaderingen of multiple imputaties Bij MNAR: modelleer missing data process (likelihood based of MI) sensitiviteitsanalyses

literatuur Statistics in Medicin Volume 17, Issue 5-7 , 1998 (Bernhard&Gelber) Curran et. al ‘Incomplete quality of life data in randomized trials: Missing forms’ Curran et. al ‘Identifying the types of missings in QOL data from clinical trials’ Bernhard et.al ‘Missing QOL data in cancer clinical trials: serious problems and challenges’ Diggle&Kenward (1994) ‘Informative dropout in longitudinal data analysis’ applied statistics 43, no 1. Schafer&Graham (2002) ‘Missing data: our view of the state of the art’ Psychological Methods Vol 7, no 2