Beginselen van de Statistiek in de Kinesiologie

Slides:

Advertisements

Verwante presentaties

Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.

Advertisements

Statistische uitspraken over onbekende populatiegemiddelden

Overzicht Sessie 1 Inleiding

Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.

Het belang van een goede steekproef

havo A Samenvatting Hoofdstuk 10

Tabellen & diagrammen Centrummaten & Spreiding

vwo A/C Samenvatting Hoofdstuk 3

Een manier om problemen aan te pakken

Statistiek HC1MBR Statistiek.

Het vergelijken van twee populatiegemiddelden: Student’s t-toets

Kb.1 Ik leer op een goede manier optellen en aftrekken

havo A Samenvatting Hoofdstuk 8

De normale verdeling.

1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen College 5.

Hoofdstuk 3 Maatstaven voor ligging en spreiding

vwo B Samenvatting Hoofdstuk 1

vwo A/C Samenvatting Hoofdstuk 5

vwo C Samenvatting Hoofdstuk 14

De grafiek van een lineair verband is ALTIJD een rechte lijn.

Centrummaten gemiddelde

1 het type x² = getal 2 ontbinden in factoren 3 de abc-formule

Assenstelsels en het plotten van Functies in LOGO

Gegevensverwerving en verwerking

Meervoudige lineaire regressie

Inferentie voor regressie

Een fundamentele inleiding in de inductieve statistiek

Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.

Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.

Hoofdstuk 9 Verbanden, correlatie en regressie

Hoofdstuk 8 Centrale tendentie en spreiding

Voorspellende analyse

Eenvoudige data-analyse: beschrijvende statistische

Hoofdstuk 6 – Tabellen en grafieken

Eenvoudige data-analyse: beschrijvende statistische

Eekhoutcentrum – oktober 2005 Johan Deprez – Hilde Eggermont

Eekhoutcentrum – oktober 2005 Johan Deprez – Hilde Eggermont

Statistiek voor Historici Hulpvak GB2HVST / G2HV09A Dr. L.J. Touwen College 4.

Methodologie & Statistiek I

Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van PASW Guido Valkeneers.

Hogere wiskunde Limieten college week 4

havo/vwo D Samenvatting Hoofdstuk 4

Tweedegraadsfuncties

Statistiekbegrippen en hoe je ze berekent!!

H2 Lineaire Verbanden.

Hoofdstuk 4 – Gegevens analyseren

HISPARCWOUDSCHOTEN 2006NAHSA Tellen van Random gebeurtenissen Hoe nauwkeurig is een meting?

havo B Samenvatting Hoofdstuk 1

Inleiding in de statistiek voor de gedragswetenschappen

Inleiding in de statistiek voor de gedragswetenschappen

Hoofdstuk 4: Statistiek

Vergelijkingen oplossen

Centrummaten en Boxplot

Verbanden JTC’07.

Inleiding in de statistiek voor de gedragswetenschappen

Baarde en de goede Hoofdstuk 11: Data-analyse

Hoofdstuk 6 Allerlei verbanden.

Vergelijkingen.

1 CCC & CCM Module Statistiek voor CM Drs. J.H. Gieskens AC CCM QT.

1 CCP Module 1: Theorie Statistiek voor Credit Managers Introductie Basisbegrippen Drs. J.H. Gieskens AC CCM QT.

H4 Statistiek Beelddiagram

Absolute aantallen en relatieve aantallen

Kan je zelf een geschikte schaalverdeling maken

Eenvoudige data-analyse: beschrijvende statistische

3 vmbo-KGT Samenvatting Hoofdstuk 6

2 vmbo-t/havo Samenvatting Hoofdstuk 1 (vmbo-T)

3 vmbo-KGT Samenvatting Hoofdstuk 10

Voorspellende analyse

Kwantitatieve kenmerken

Transcript van de presentatie:

Beginselen van de Statistiek in de Kinesiologie Prof. Dr. I. De Bourdeaudhuij Theorie : auditorium Oefeningen : SPSS pc klas UZ

Handboek : Statistiek in de Praktijk Davis Moore & George McCabe 2001 3e herziene uitgave / Theorieboek Academic Service, Schoonhoven

Alles is te vinden op : http://allserv.rug.ac.be/~ibourd/index.htm

Inleiding Redeneren, nadenken, inzicht <=> Berekenen, computer Link met praktijk : SPSS voor thesis

Wat is statistiek ? Wetenschap van van data of gegevens verzamelen organiseren interpreteren van data of gegevens

Doel van statistiek ? NIET het berekenen op zich WEL het verwerven van inzicht uit getallen Doel van deze cursus = BEGRIJPEN

Kijken naar gegevens & verdelingen Hoofdstuk 1 Kijken naar gegevens & verdelingen

Waarde = getal voor die persoon of dat ding Variabele = kenmerk van persoon of ding dat in een getal kan worden uitgedrukt Waarde = getal voor die persoon of dat ding Hoeveel variabelen ? H1 = 1 variabele Typen variabelen Kwantitatieve variabelen (numeriek, bewerking) Kwalitatieve variabelen (categorie)

1.1. Weergeven van verdelingen met grafieken Data beschrijven : exploratieve data-analyse Twee basistrategieën Eerst 1 variable dan verbanden Eerst grafisch dan numeriek H 1 : 1 variable , H2 : 2 variabelen Steeds eerst grafisch dan numeriek

A. Grafieken voor kwalitatieve variabelen Kwalitatieve variabelen = categorie Burg. staat Aantal (milj) Percentage Nooit getrouwd Getrouwd Weduwe/weduwnaar Gescheiden 43.9 116.7 13.4 17.6 22.9 60.9 7.0 9.2

Staafdiagram

Taartdiagram

Grafieken voor kwalitatieve variabelen geven een goed overzicht, niet echt noodzakelijk Grafieken voor kwantitatieve variabelen leren ons duidelijk iets meer, data op zich zeggen niet veel

B. Meting Verzameling getallen 168 158 149 169 175 185 168 158 149 169 175 185 192 167 185 184 168 184 Welke variabele wordt gemeten ? - goede methode / instrument ? - verschillend per wetenschap

NADENKEN over getallen bv. dodelijke ongevallen 5000 60+ers 3000 18-20 jarigen bv. werkloosheidscijfers bv. mortaliteitscijfers Verhoudingsgetallen !!!

C. Variatie Verschillende metingen van hetzelfde fenomeen bij - 1 persoon - verschillende personen In elke verzameling gegevens zekere variatie Variatiepatroon van een kwantitatieve variabele = VERDELING

In het midden van de verdeling : het gemiddelde VERDELING = hoe vaak komt elke waarde voor ? Grafische voorstelling DUS : gemiddelde & verdeling van variabelen zijn belangrijk

D. Stamdiagrammen Of « stam-en-blad » = « stem-and-leaf » Doel : vorm van de verdeling in beeld Voorbeeld : doelpunten per seizoen 21 13 8 19 14 26 12 24 9 14 STAM BLAD 0 | 89 1 | 23449 2 | 146

Rug-aan-rug stamdiagram : 2 vergelijken stammen splitsen of afkappen niet geschikt voor grote groepen diagram op zijn kant zetten (scheefheid ?)

E. Onderzoeken van verdelingen EIGENSCHAPPEN : 1. Centrum van de verdeling = MEDIAAN 2. Een top of verschillende ? = UNI MODAAL 3. Vorm van de verdeling = SYMMETRISCH of SCHEEF 4. Afwijkingen van de algemene vorm = HIATEN of UITBIJTERS

F. Histogrammen Aantal of percentage waarnemingen in elk interval HOE ? 1. Verdeel in klassen van gelijke breedte 2. Aantal per klasse = frequenties Frequentietabel 3. Histogram tekenen

In histogram frequenties of percentages = relatieve frequenties Keuze maken over aantal te gebruiken klassen te weinig of te veel

G. Kijken naar gegevens Globaal patroon en afwijkingen Uitbijters of uitschieters : oorzaak ? Fouten = weglaten Sterke beïnvloeding van gemiddelde Soms hebben uitbijters een betekenis

H. Tijdreeksgrafieken Gegevens uitzetten tegen tijd of volgorde Belangrijk bij systematische verandering Bv. Tijdreeksen : springen tijden in lopen/zwemmen Observatie : trend seizoenvariatie fluctuaties cycli

1.2. Verdelingen beschrijven Eerst kijken naar de vorm van de verdeling op grafische manier Dan beschrijven : Centrum Spreiding

Meten van het centrum : het gemiddelde Rekenkundig gemiddelde of gemiddelde = tel alle waarnemingen op en deel door het aantal x1 + x2 + x3 + … +xn x = 1/n (x1 + x2 + x3 + … +xn) x = 1/n  xi

Voorbeeld : Aantal doelpunten per match 2 3 1 0 0 1 2 1 2 1 2 0 0 3 = 18 / 14 = 1.2857…. Verspringen 623 684 598 385 654 589 = 3533 / 6 = 588.83333…. = 3148 / 5 = 629.6

Zwakheid van gemiddelde : > gevoelig voor extremen bv. uitbijters of uitschieters bv. scheve verdeling met 1 staart = gemiddelde is GEEN resistente maat

B. Meten van het centrum: de mediaan = middelste waarneming in geordende lijst oneven = middelste even = gemiddelde van twee middelste

Voorbeeld : aantal doelpunten per match : 2 3 1 0 0 1 2 ordenen : 0 0 1 1 2 2 3 Mediaan = 1 Mediaan gemakkelijk uit stamdiagram Mediaan is resistente centrummaat

C. Gemiddelde versus mediaan Bij symmetrische verdeling gemiddelde = mediaan Naarmate verdelingen schever worden gemiddeld en mediaan verder uit elkaar Dus : bij uitschieters Goed bekijken, ev. Corrigeren of weglaten Gemiddelde gebruiken Uitschieters erin laten Mediaan gebruiken

D. Meten van de verdeling: kwartielen Bij het beschrijven van een verdeling : > centrummaat + spreidingsmaat Spreiding of variabiliteit van een verdeling Gelijk gemiddelde en verschillende spreiding => andere betekenis (bv. inkomen)

Percentiel 30ste percentiel = de waarde zodat 30% van de verdeling hieronder valt of gelijk is bv. kind van 7 jaar weegt 22 kg. 50ste percentiel = mediaan

Kwartielen 1ste kwartiel = 25ste percentiel 2de kwartiel = 50ste percentiel of mediaan 3de kwartiel = 75ste percentiel -> waarnemingen ordenen Mediaan bepalen Mediaan van waarnemingen hieronder Mediaan van waarnemingen hierboven

Kwartielen en mediaan leren iets over de verdeling Q1 = 14€ M = 20€ Q3 = 33€ -> scheefheid naar rechts Met computer soms iets andere waarden voor kwartielen : andere regels Kleine verschillen = afrondingsfouten

E. Meten van de verdeling : de interkwartielafstand IKA = afstand Q3 - Q1 = 50% van de data resistente maat : uitschieters spelen geen rol 33€ - 14€ = 19€

1.5 keer IKA boven 3e kwartiel of onder 1e kwartiel = verdachte uitschieters Q1= 14€ - 28.5€ = -14.5€ Q3= 33€ + 28.5€ = 61.5€

F. De vijf getallen samenvatting en de doosdiagrammen Minimum, Q1, M, Q3, Maximum => Geeft ons nuttige informatie over het centrum en de spreiding van een verdeling

Boxdiagram of doosdiagram = visuele voorstelling van vijf getallen samenvatting 1. Randen van de doos = kwartielen 2. Mediaan = lijn 3. Snorharen = Minimum en maximum die geen uitschieters zijn 4. Uitschieters worden apart aangegeven Met computer soms snorharen tot uitersten binnen 1.5 keer IKA en resterende waarnemingen afzonderlijk of zonder uitschieters

G. Verdelingen vergelijken Boxdiagrammen om verschillende verdelingen met elkaar te vergelijken

H. Meten van de spreiding: de standaardafwijking Meest gebruikte spreidingsmaat Spreiding rond het gemiddelde Gebruiken als gemiddelde centrummaat is Gebaseerd op afwijking van elke waarneming van het gemiddelde xi - gemiddelde

afwijkingen zullen positief en negatief zijn Want waarnemingen boven en onder het gemiddelde som van alle afwijkingen zal altijd 0 zijn Juist omdat we gemiddelde aftrekken Oplossing : afwijkingen kwadrateren VARIANTIE = gemiddelde van de gekwadrateerde afwijkingen (s2) ver van gemiddelde : grote gekwadr. afwijk. dicht bij gemiddelde : kleine gekw. afw.

S2= (x1 - x)2 + (x2 - x)2 + … en delen door n-1 S2= 1/(n-1)  (xi - x)2 waarom delen door n-1 en niet door n ? => aangezien som van afwijkingen steeds 0 is kan laatste afwijking gevonden worden uit eerste n-1, dus n-1 kunnen vrij bewegen = aantal vrijheidsgraden

Door te kwadrateren krijgen we een andere eenheid bv. cm wordt cm2 STANDAARDAFWIJKING = de wortel uit de variantie wat de spreiding rond het gemiddelde in de oorspronkelijke schaal meet

I. Eigenschappen van de standaardafwijking Eigenschappen van s s meet de spreiding rond het gemiddelde (gemiddelde is centrummaat) s = o als er geen spreiding is (alle waarnemingen zijn gelijk), anders is s > 0 s is geen resistente maat, door kwadraten zelfs nog gevoeliger s is vooral belangrijk bij symmetrische verdelingen (normaalverdelingen)

J. Het kiezen van centrum- en spreidingsmaten Voor een scheve verdeling of sterke uitschieters : Vijf getallen samenvatting Voor een redelijk symmetrische verdeling zonder uitschieters Gemiddelde en standaarddeviatie => DUS altijd eerst grafische voorstelling maken

K. Meeteenheid veranderen Beschrijvingen van een verdeling kunnen geconverteerd worden van de ene naar de andere meeteenheid > lineaire transformatie xnieuw = a + bx = optellen van een constante a = vermenigvuldigen met constante b (b>0) bv. mijl in kilometer bv. graden celcius en Fahrenheit

Lineaire transformaties hebben geen effect op de vorm van de verdeling symmetrisch blijft symmetrisch scheef naar rechts blijft scheef naar rechts Maar centrum en spreiding kunnen wel veranderen gemiddelde, mediaan en kwartielen : vermenigvuldigen met b en a optellen IKA en standaardafwijking vermenigvuldigen met b

1.3. De normale verdeling Tot nu toe : Teken de gegevens : grafiek Kijk naar patroon en afwijkingen Bereken centrum en spreiding Volgende stap : 4. Soms is patroon zo regelmatig dat we kunnen beschrijven door gladde kromme

Maken van een wiskundig model van een verdeling Doel : volledige verdeling beschrijven met enkele uitdrukkingen + regels die gelden voor vele verdelingen Punten zullen niet exact op het model liggen, maar bij benadering

A. Dichtheidskrommen Gladde kromme overheen histogram compacte beschrijving details verdwijnen De hoekigheid van histogram verdwijnt

Totaal van de percentages over alle waarnemingen = 100% of relatieve frequentie 1 => oppervlakte onder de kromme = 1 oppervlakte = relatieve frequentie => dichtheidskromme

B. Het meten van centrum en spreiding voor dichtheidskrommen Maten van centrum en spreiding zijn toepasbaar op dichtheidskrommen p de percentiel : p% oppervlakte links 100 - p% oppervlakte rechts mediaan : punt van gelijke oppervlaktes kwartielen : 4 gelijke oppervlaktes IKA : afstand tussen Q1 en Q3

Gemiddelde of beter verwachting van een dichtheidskromme: punt waar de kromme in evenwicht zou zijn

Bij symmetrische krommen : Bij scheve krommen : Mediaan = gemiddelde Bij scheve krommen : Gemiddelde wordt dichter naar de staart getrokken (meer beïnvloed) Feitelijke waarnemingen : x en s Dichtheidskromme (geïdealiseerd) µ (Griekse letter mu) en  (sigma)

C. Normale verdelingen Normale verdelingen zijn : symmetrische ééntoppige klokvormige dichtheidskrommen Verwachting µ in centrum = mediaan Standaardafwijking  = spreiding

Normale krommen met gelijke verwachting maar andere waarden voor  Van steile naar zwakke dalingstendens  verandering in de kromme  dit punt aan weerszijden   

Waarom zijn normale verdelingen zo belangrijk in de statistiek ? Ze zijn goede modellen voor verdelingen met echte data : groot aantal pp. Goede benaderingen van toevallige uitkomsten : bv. Gooien dobbelsteen Vele statistische inferentie procedures gebaseerd op normale verdeling gelden voor andere, min of meer normale verdelingen

MAAR : ook veel verdelingen zijn niet normaal Normaalverdelingen toets bij de bevolking herhaald meten van zelfde grootheid karakteristieken van biologische populaties MAAR : ook veel verdelingen zijn niet normaal inkomen levensverwachting

D. De 68 - 95 - 99.7 regel Er bestaan vele normale krommen maar ze voldoen allemaal aan de 68 - 95 - 99.7 regel Voor elke normaalverdeling geldt : 68% van de waarnemingen ligt binnen de afstand  van het gemiddelde µ 95% van de waarnemingen ligt binnen de afstand 2  van het gemiddelde µ 99.7% van de waarnemingen ligt binnen de afstand 3  van het gemiddelde µ

Voorbeeld : lengte vrouwen 18-24jaar µ = 166.4 cm  = 6.4 cm 95% tussen 153.6 cm en 179.2 cm 99.7% tussen 147.2 cm en 185.6 cm Korte notatie : N(µ, ) dus N(166.4, 6.4) Steeds eerst nagaan of je een normaalverdeling hebt vooraleer conclusies met 68 - 95 - 99.7 regel

E. Gestandaardiseerde waarnemingen Als een variabele X (bv. lengte) een normale verdeling heeft, met verwachting µ en standaarddeviatie  X is N (µ, ) Eigenlijk zijn alle normale verdelingen identiek als de metingen gebeuren met  als eenheid en µ als het centrum

Een gestandaardiseerde waarde = z-score x - µ z = ---------  Dus : als de verdeling van een variabele normaal is kan ze worden gestandaardiseerd STANDAARDISEREN = door verwachting af te trekken en dit te delen door de standaardafwijking Een gestandaardiseerde waarde = z-score x - µ z = --------- 

Gevolg : hoeveel standaardafwijking ligt de waarde van de verwachting (van 0) positief : groter dan verwachting negatief : kleiner dan verwachting Voorbeeld : x wordt na standaardisering = 0.5 dit wil zeggen een halve standaardafwijking boven gemiddelde

Voorbeeld : lengte jonge vrouwen µ = 166.4 cm en  = 6.4 cm gestandaardiseerde lengte z = lengte - 166.4 6.4 bv. 176 cm : z = 1.5 of 1.5 stand. afw. boven µ bv. 152 cm : z = -2.25 of 2.25 stand. afw. onder µ

F. De standaardnormale verdeling Door standaardiseren zetten we alle normale verdelingen om in één enkele verdeling : deze nieuwe variabelen hebben de standaardnormale verdeling N (0,1) is de standaardnormale verdeling Z = X - µ 

Tabel A geeft de oppervlaktes onder de standaardnormale kromme Voor elke waarde z kan men opzoeken welke oppervlakte hier links van ligt Voorbeeld: welk percentage vrouwen heeft een dergelijke lengte ? Oppervlakte onder de kromme => dit opzoeken in tabel A 1.5 komt overeen met 0.9332 dus 93% en 7%

G. Berekeningen bij de normale verdeling Het gebruik van tabel A is zeer handig om vraagstukken op te lossen m.b.t. Hoeveel % heeft een score Lager dan .. Hoger dan Tussen … en …. B. Welke waarde komt overeen met xx % Ook via Tabel A maar OMGEKEERD

H. Normaal-kwantiel-diagrammen Telkens eerst normaliteit vaststellen vooraleer er berekeningen worden gedaan die hiervan uitgaan 1. Op basis van figuur : histogram of stamdiagram 2. Vergelijkingen met de 68 - 95 - 99.7 regel 3. Normaal-kwantiel-diagram : meer precieze methode

Principe aan de hand van een voorbeeld : 12 12 14 13 13 12 11 10 9 11 12 12 14 13 13 12 11 10 9 11 eerst de data ordenen dan voor elk punt percentiel vastleggen (P10, P20,… Tabel A kijken naar welke z met deze oppervlakte overeenkomt. elk punt met zijn z-waarde uittekenen => data zijn normaal als ze dicht bij een rechte lijn liggen (met computer)

Op basis van normaal-kwantiel-diagram is een normaal model passend ? Soms veel keer dezelfde meting = op een stapel dit noemt korreligheid (is meestal geen probleem) Op basis van normaal-kwantiel-diagram is een normaal model passend ? Uitschieters ver van de lijn Kleine afwijkingen, kronkels geen probleem Bij benadering normaal Zeer veel gebruikt in statistiek