Introductie Tim Vanhoomissen

Slides:



Advertisements
Verwante presentaties
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Advertisements

Statistische uitspraken over onbekende populatiegemiddelden
‘SMS’ Studeren met Succes deel 1
HC2MFE Meten van verschillen
Toetsen van verschillen tussen twee of meer groepen
Paulus' eerste brief aan Korinthe (20) 23 januari 2013 Bodegraven.
Het belang van een goede steekproef
1 Resultaten marktonderzoek RPM Zeist, 16 januari 2002 Door: Olga van Veenendaal, medew. Rothkrans Projectmanagement.
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Baarde en de goede Hoofdstuk 4: Onderzoeksontwerp
Global e-Society Complex België - Regio Vlaanderen e-Regio Provincie Limburg Stad Hasselt Percelen.
 Deel 1: Introductie / presentatie  DVD  Presentatie enquête  Ervaringen gemeente  Pauze  Deel 2 Discussie in kleinere groepen  Discussies in lokalen.
Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling
Ronde (Sport & Spel) Quiz Night !
Natuurlijke Werkloosheid en de Phillipscurve
Statistiek HC1MBR Statistiek.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Hoofdstuk 3 – Gegevens verzamelen
Beschrijvende en inferentiële statistiek
Inhoud bijeenkomst 1 Doel- en vraagstelling Conceptueel model
Blogs Annette Ficker Tim Oosterwijk Opdrachtgever: Matthieu Jonckheere
Nooit meer onnodig groen? Luuk Misdom, IT&T
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Statistiek II Hoofdstuk 4: Toetsen voor één populatie
Statistiek 2 Hoofdstuk 2: Kansverdelingen en kansberekening
toetsen voor het verband tussen variabelen met gelijk meetniveau
Hoofdstuk 6: Controle structuren
FOD VOLKSGEZONDHEID, VEILIGHEID VAN DE VOEDSELKETEN EN LEEFMILIEU 1 Kwaliteit en Patiëntveiligheid in de Belgische ziekenhuizen anno 2008 Rapportage over.
Statistiek Verzamelen Voorstellen Beschrijven Interpreteren
Centrummaten gemiddelde
Gegevensverwerving en verwerking
Non-parametrische technieken
Meervoudige lineaire regressie
Inferentie voor regressie
Oefeningen F-toetsen ANOVA.
Een fundamentele inleiding in de inductieve statistiek
Wat levert de tweede pensioenpijler op voor het personeelslid? 1 Enkele simulaties op basis van de weddeschaal B1-B3.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 9 Verbanden, correlatie en regressie
Eenvoudige data-analyse: beschrijvende statistische
variabelen vaststellen
Eenvoudige data-analyse: beschrijvende statistische
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
13 maart 2014 Bodegraven 1. 1Korinthe Want gelijk het lichaam één is en vele leden heeft, en al de leden van het lichaam, hoe vele ook, een lichaam.
Statistiek voor Historici
Methodologie & Statistiek I Principes van statistisch toetsen 5.1.
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van PASW Guido Valkeneers.
ribwis1 Toegepaste wiskunde – Differentieren Lesweek 7
Statistiekbegrippen en hoe je ze berekent!!
Onderzoeksmethoden Blok 2, les 6/7 Mieke de Waal1 Collegeweek 7  Hoofdstuk 12: boek en vragen  Dr Stat  Observatieopdracht.
Hoofdstuk 5 Vijfkaart hoog, eerste verkenning 1e9 NdF-h1 NdF-h5 1 1.
Partiële r² Predictie van y gebaseerd op z alleen
Basisvaardigheden: Metingen en diagrammen
De financiële functie: Integrale bedrijfsanalyse©
Inleiding in de statistiek voor de gedragswetenschappen
Inleiding in de statistiek voor de gedragswetenschappen
Centrummaten en Boxplot
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
12 sept 2013 Bodegraven 1. 2  vooraf lezen: 1Kor.7:12 t/m 24  indeling 1Korinthe 7  1 t/m 9: over het huwelijk  10 t/m 16: over echtscheiding  16.
Baarde en de goede Hoofdstuk 11: Data-analyse
Methoden & Technieken van Onderzoek
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Methoden & Technieken van Onderzoek
Gegevens verzamelen Statistiek gaat over het verzamelen en verwerken van data (gegevens ) Data zijn vaak gespreid: -mensen hebben verschillende lengtes.
Eenvoudige data-analyse: beschrijvende statistische
Toetsen van verschillen tussen twee of meer groepen
Transcript van de presentatie:

Introductie Tim Vanhoomissen Statistiek 2 Introductie Tim Vanhoomissen

Waarom statistiek? Stel: Het nuttigen van een sportdrank zorgt voor 4% meer tevredenheid in bed dan het nuttigen van een pepdrank. Welk drankje kies je bij de volgende gelegenheid? Er is een interactie-effect: bij dames leidt de sportdrank tot 30% meer tevredenheid, terwijl bij heren net de pepdrank zorgt voor meer tevredenheid. Omdat het effect bij dames groter is, is er een overall effect van sportdrank.* Statistische kennis vermijdt té snelle en té simpele conclusies! *De voorbeelden in deze cursus berusten niet altijd op vaststaande feiten Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht (zie Inleiding in de statistiek voor de gedragswetenschappen, Valkeneers & Vanhoomissen)

Statistiek 1 in vogelvlucht Zie Valkeneers & Vanhoomissen (2012) Variabelen operationaliseren en meten operationaliseren = variabelen meetbaar maken variabelen: continu of discreet meetniveau: nominaal, ordinaal, interval, ratio onafhankelijk / afhankelijk 2 voorwaarden voor meten: validiteit (meet de test wat we willen meten?) betrouwbaarheid (hoe goed meet de test wat we willen meten?) Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Steekproeven = het deel van de populatie dat wordt onderzocht, wanneer de populatie te groot is om helemaal te onderzoeken -> doel van de inductieve statistiek: verantwoorde uitspraken doen over de populatie aan de hand van een steekproef We willen wél uitspraken doen over de gehele populatie, dus de steekproef moet een goede afspiegeling zijn van de populatie. Onderzoek doen bij depressieve patiënten uit het UZA om uitspraken te doen over depressieven in het algemeen. Goede steekproef? Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Soorten steekproeven Aselecte steekproeven Aselecte steekproef Gestratificeerde steekproef Clustersteekproef Niet-aselecte steekproeven Sneeuwbalsteekproef Gelegenheidssteekproef Quotasteekproef Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht 1. Aselecte steekproef = elk element van de populatie een gelijke kans geven om in de steekproef te worden opgenomen Uit de lijst van alle Vlaamse leerlingen SO randomgewijs 2000 leerlingen selecteren om het gemiddelde IQ van Vlaamse leerlingen SO na te gaan. Nadeel: niet altijd representatief! Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht 2. Gestratificeerde steekproef = alle deelpopulaties evenredig aan bod laten komen in de steekproeftrekking. Eerst percentages nagaan van ASO, TSO en BSO leerlingen, en daarna uit elke deelpopulatie een aselecte steekproef trekken zodat de percentages in de steekproef dezelfde zijn als in de populatie. populatie steekproef ASO 60% 1200 (60%) TSO 30% 600 (30%) BSO 10% 200 (10%) N = 100% n = 2000 (100%) Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht 2. Gestratificeerde steekproef Voordeel: wel mogelijk om representativiteit te bereiken (als de steekproef goed wordt samengesteld) Kijkcijfers: panel van 1500 gezinnen, samengesteld zodat ze de totale Belgische bevolking representeren. Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht 3. Clustersteekproef = populatie verdelen in gelijkaardige clusters en daarna aselecte steekproef trekken uit deze clusters. Vervolgens binnen elke geselecteerde cluster een aselecte steekproef trekken. De populatie leerlingen verdelen in clusters volgens provincie. Aselect 3 provincies trekken. Elke provincie verdelen in clusters volgens school en 4 scholen aselect trekken. Ten slotte binnen elke geselecteerde school een aselecte steekproef van 40 leerlingen trekken. Voordeel: spaart kosten en tijd Nadeel: minder nauwkeurig, minder representatief Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Andere soorten steekproeven (niet-aselecte steekproeven) 1. Sneeuwbalsteekproef Onderzoeker vertrekt van één respondent aan wie vervolgens gevraagd wordt andere respondenten te contacteren Voordeel: mensen die moeilijk bereikbaar zijn worden makkelijker bereikt Nadeel: kans is groot dat mensen sterk op elkaar lijken 2. Gelegenheidssteekproef Keuze van respondenten wordt overgelaten aan ondervrager (nl. mensen die men makkelijk kan vinden) Vb. 1e jaars psychologie, op straat Voordeel: goedkoop, snel Nadeel: niet geschikt voor populatieschattingen Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Andere soorten steekproeven (niet-aselecte steekproeven) 3. Quotasteekproef Onderzoeker bepaalt kenmerken van de populatie die men ook wil zien in steekproef (bv. verdeling jongens/meisjes). Onderzoeker zorgt ervoor dat hij aan dat aantal komt (= quotum). Hoe hij aan dat aantal komt is niet belangrijk (bv. via gelegenheidssteekproef). Niet-aselecte steekproeven: niet altijd geschikt voor inductieve statistiek! Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Frequentieverdelingen = eerste verkenning van de data verschillende frequenties: absolute frequenties relatieve frequenties absolute cumulatieve frequenties cumulatieve percentages verschillende visuele vormen: taartdiagram (nominaal) staafdiagram (nominaal, ordinaal) histogram (interval) percentielscores: plaats van een score in het geheel Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Centrummaten modus – waarde die het meest voorkomt mediaan – middelste waarde bij gerangschikte waarnemingen gemiddelde – som van waarden gedeeld door aantal waarnemingen bij symmetrische verdeling: modus = mediaan = gemiddelde mediaan minder gevoelig voor extreme waarden gemiddelde consistenter over verschillende steekproeven Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Spreidingsmaten hoe ver liggen de scores uit elkaar? variatiebreedte (verschil tss grootste en kleinste) interkwartielafstand (P75 – P25) variantie standaarddeviatie standaardscores (Z-scores): Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht De normale verdeling geobserveerde gegevens die passen in theoretische verdeling (model) bieden meer mogelijkheden voor verwerking. veelgebruikt model: normale verdeling geeft de kans op het voorkomen van een bepaalde waarde Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht De normale verdeling normale verdelingen verschillen enkel in gemiddelde en standaarddeviatie. De curve is altijd klokvormig en symmetrisch. dankzij dit specifieke model kunnen gemakkelijk observaties afgeleid worden: Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Transformaties van verdelingen waarom? niet alle data zijn normaal verdeeld, en om makkelijk berekeningen te maken is het nuttig om een verdeling te transformeren zodat ze de normale verdeling benadert. Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Transformaties van verdelingen Vormkenmerken van een verdeling: centrummaat (gemiddelde, mediaan, modus) spreidingsmaat (standaarddeviatie) kurtosis: gepiektheid skewness: scheefheid Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Transformaties van verdelingen Lineaire transformaties (bv. standaardiseren): enkel gemiddelde en standaarddeviatie veranderen Normaliserende transformaties: ook kurtosis en skewness veranderen zodat de normale verdeling benaderd wordt Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Kruistabellen Wat als we de samenhang tussen variabelen willen bestuderen? Afhankelijk van meetniveau: nominaal en nominaal: kruistabel nominaal en ordinaal: kruistabel interval en interval: correlatie 3 maten van samenhang bij kruistabellen: Chi-kwadraat (niet geschikt voor kleine steekproeven) Contingentiecoëfficiënt (variabelen met 2 niveaus) Cramér’s V (variabelen met meer dan 2 niveaus) Bv: is er een verband tussen geslacht en de keuze voor een politieke partij? Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Correlatie zelfde doel als kruistabellen: samenhang van variabelen nagaan verschil: variabelen op interval- of rationiveau hoge correlatie is bv .75 maar ook -.85 covariantie: zelfde als correlatie, maar niet gestandaardiseerd (niet delen door stdev in formule) hoe de correlatie gebruiken om voorspelling te maken? -> regressie: Introductie & hoofdstuk 1

Statistiek 1 in vogelvlucht Lineaire regressie hoe de correlatie gebruiken om voorspelling te maken? -> regressie: X = gekende variabele Y = voorspelling Introductie & hoofdstuk 1

the saga continues… Vanhoomissen & Valkeneers – Hoofdstuk 1 Statistiek 2 the saga continues… Vanhoomissen & Valkeneers – Hoofdstuk 1

Situering Statistiek 1 en 2 Empirische cyclus hypothese data-verzameling beschrijvende analyse inductieve analyse theorie blondines zijn even intelligent als brunettes brunettes zijn intelligenter dan blondines Statistiek 2 is 102 significant groter dan 99? neem IQ-test af van groep brunettes en groep blondines Statistiek 1 brunettes=102 blondines=99 Introductie & hoofdstuk 1

Toetsende statistiek Nut van toetsende statistiek? Kunnen mannen beter kaartlezen dan vrouwen? Score op test kaartlezen (40 deelnemers): Conclusie? >> statistiek biedt regels om te beslissen Mannen 45/60 Vrouwen 44/60 51/60 39/60 42/60 47/60 Introductie & hoofdstuk 1

Toetsende statistiek Dus zekerheid en houvast!? niet helemaal: statistiek berust op kansberekening onderzoek meestal in steekproeven steekproef geen perfecte afspiegeling van populatie foutieve variatie mogelijk inschatten hoe zeker we zijn van onze conclusies kansberekening nodig nooit 100% zeker van conclusie bv: “We concluderen met 95% zekerheid dat vrouwen meer levenstevredenheid ervaren dan mannen” wanneer zijn zulke uitspraken geoorloofd? >> significantie Introductie & hoofdstuk 1

Statistische significantie Wat is significantie? op basis van steekproeven geen zekerheden wanneer dan verschillen/verbanden? >> als we besluiten dat iets “statistisch significant” is bv. verschil tussen scores kaartlezen 51/60 en 39/60 is significant, tussen 42/60 en 47/60 is niet significant. bv. verband tussen lengte en gewicht is significant, verband tussen lengte en hoeveelheid hersenen is niet significant. Introductie & hoofdstuk 1

Hypothesetoetsing Nodig om tot die significantie te komen: hypothesetoetsing stel: onderzoek naar effect van muziek op depressie deelnemers luisteren 1u naar emo-rock of hip-hop emo-rock luisteraars zijn meer depressief dan hip-hop luisteraars maar kan dat toevallig zijn? Is het niet waarschijnlijk om zo’n verschil te observeren ook al is er geen invloed van muziek? Introductie & hoofdstuk 1

Hypothesetoetsing dus: we veronderstellen even dat muziek geen invloed heeft we berekenen hoe waarschijnlijk het is om onze scores te observeren als dit heel waarschijnlijk is, besluiten we dat er geen verschil is als dit heel onwaarschijnlijk is, besluiten we dat er wel een verschil is Introductie & hoofdstuk 1

Hypothesetoetsing Statistische significantie nagaan dmv kansberekening: Is het geobserveerde verschil groot genoeg om significant te zijn ervan uitgaan dat er in werkelijkheid geen verschil is kans berekenen dat we in dat geval die observaties doen grote kans: wellicht geen “echt” verschil kleine kans: mogelijk een “echt” verschil Introductie & hoofdstuk 1

Hypothesetoetsing of toegepast: muziek heeft geen invloed op depressie wat is de kans op gem. groep 1 = 24 en gem. groep 2 = 26 ? grote kans: wellicht geen “echt” verschil, dus geen invloed van muziek op depressie kleine kans: wellicht een “echt” verschil: wél inloed van muziek op depressie Introductie & hoofdstuk 1

Hypothesetoetsing >> Nieuwe vragen: Hoe moeten we die kans berekenen? op basis van kansverdelingen (bv. standaardnormale verdeling) met behulp van verschillende toetsen Wat is dan een “grote” en een “kleine” kans? 5% of 0.05 meest courant (zie later) Introductie & hoofdstuk 1

Toetsen Dus 1 formule, 1 berekening en Statistiek 2 over and out? jammer: toetsingssituaties zijn heel uiteenlopend: verschil in depressie bij verschillende muziek? verschil in depressie vóór en na beluisteren van muziek? verschil in depressie bij verschillende muziek en 2 methoden gedragstherapie? 500 deelnemers of slechts 20? … bijgevolg ook uiteenlopende toetsen Introductie & hoofdstuk 1

Misbruik van statistiek Complexe formules, software en exacte getallen doen niet alles! statistiek is slechts een hulpmiddel bij onderzoek randvoorwaarden zijn net zo belangrijk: juiste methodologie correct onderzoeksopzet correcte formulering in rapport correcte vermelding variabelen … >> statistiek wordt vaak misbruikt! Introductie & hoofdstuk 1

Misbruik van statistiek Onduidelijke steekproef “95% van de Belgen is tevreden over Activia” Gebrek aan context “Duracell-batterijen gaan tot 5 maal langer mee” Interne validiteit Laat het onderzoeksopzet toe om causale conclusies te trekken? Danone: Gaat het over alle belgen? of enkel gebruikers? of proevers? en wat is “tevreden”? Duracell: langer dan wat? de beste concurrent? een Li-ion-batterij? Introductie & hoofdstuk 1

Interne validiteit Ongeoorloofde causale conclusie >> interne validiteit : Mate waarin we met een onderzoeksontwerp causale conclusies kunnen trekken over effect van OV op AV 3 voorwaarden: Effect van OV op AV in voorspelde richting Oorzaak moet in tijd voorafgaan aan gevolg Geen andere verklaringen voor gevonden verband Introductie & hoofdstuk 1

Interne validiteit bv: Kunnen kinderen beter lezen als ze door hun ouders vaak worden voorgelezen? test bij 20 kinderen die vaak worden voorgelezen en 20 kinderen die nooit worden voorgelezen eerste groep scoort 7, tweede groep scoort 6 significant verschil, maar ook intern valide? voorwaarde 1: scoren de kinderen die worden voorgelezen hoger dan de andere kinderen? >> ok (na statistische test) Introductie & hoofdstuk 1

Interne validiteit voorwaarde 2: gaat de oorzaak vooraf aan het gevolg? Komt het voorlezen vóór de betere lees-score of kan het ook omgekeerd? meer voorlezen beter lezen beter lezen meer voorlezen Introductie & hoofdstuk 1

Interne validiteit voorwaarde 3: is er geen andere verklaring voor het verband? Introductie & hoofdstuk 1

Interne validiteit Om alternatieve verklaringen uit te sluiten: experimenteel onderzoek randomiseren voormeting nameting controleren voor storende variabelen … = methodologie: noodzakelijk om juiste conclusies te trekken, statistiek alleen is onvoldoende! Introductie & hoofdstuk 1

Interne validiteit Introductie & hoofdstuk 1 Ongeoorloofde causale conclusie. Had ook kunnen zijn “Eén jaar na economische crisis minder hartaanvallen.” Introductie & hoofdstuk 1

Externe validiteit Ongeoorloofde generalisatie >> externe validiteit : mate waarin resultaten van het onderzoek kunnen gegeneraliseerd worden over: situaties (lijkt de onderzoekssituatie genoeg op de “dagelijkse” situatie?) methoden (wordt hetzelfde resultaat gevonden met een andere methode?) tijd (zelfde resultaten in een andere periode?) populaties (zelfde resultaten in andere populatie?) Introductie & hoofdstuk 1

Externe validiteit Statistische generalisatie is nog iets anders! >> kunnen we generaliseren vanuit de steekproef naar de populatie waaruit de steekproef werd getrokken? Introductie & hoofdstuk 1

Samenvatting Toetsende statistiek volgt op beschrijvende statistiek in de empirische cyclus. Bedoeling is om op basis van verzamelde data een onderbouwde beslissing te nemen over verband/verschil. Dat we over deze beslissing nooit 100% zeker zijn is niet erg, zo lang we maar de mate van onzekerheid kennen. Om die mate van onzekerheid te bepalen, hebben we kansberekeningen nodig. Op basis daarvan kunnen we significantie berekenen. Statistiek is geen wetenschap op zich. Statistische conclusies zijn pas waardevol als ook aan de randvoorwaarden voldaan is en statistiek niet misbruikt wordt. Introductie & hoofdstuk 1