N = geschatte aantal M = eerste gemerkte vangst C = totaal tweede vangst R = aantal gemerkte exemplaren in tweede vangst
In een bos zijn 100 konijnen Er worden bij de eerste vangst 20 konijnen gemerkt De konijnen worden weer losgelaten Vervolgens worden 10 keer 10 konijnen gevangen Na elke vangst worden de 10 konijnen weer losgelaten Telkens wordt bij de 10 vangsten het aantal gemerkte konijnen genoteerd
= Simuleer het voorgaande verhaal m.b.v. 100 legers van het RISK-spel. Onderzoek in hoeverre het geschatte aantal N de werkelijkheid benadert. Bepaal m.b.v. onderstaande voor steekproeven aangepaste formule voor de standaarddeviatie het 95% betrouwbaarheidsinterval.
Fictie of waarheid: de correlatiecoëfficiënt De correlatiecoëfficiënt is een hulpmiddel waarmee je kunt onderzoeken of er een statistisch verband is tussen twee variabelen. Dat kunnen twee onafhankelijke variabelen zijn of een te kiezen variabele en een daarvan afhankelijke variabele. Realiseer je dat je met de correlatiecoëfficiënt een statistisch (zeg maar “rekenkundig”) verband kunt ontdekken. Daarmee is nog niet gezegd dat er ook een causaal (oorzakelijk) verband is. Immers, niets is zeker en ook dat niet. Lees bijvoorbeeld maar eens het volgende artikel uit NRC:
DOOR STEVEN DE JONGSTEVEN DE JONG WETENSCHAP
Er is een sterke correlatie gevonden tussen het aantal telefoonmasten en het geboortecijfer per gemeente. Iedere extra mast staat volgens de Britse wiskundige Matt Parker in verhouding tot 17,6 baby’s meer dan het landelijke gemiddelde. Parker vatte de bevindingen samen en maakte er een persberichtje van. Hij wilde daarmee aantonen dat journalisten oorzakelijke en statistische verbanden nogal eens door elkaar halen. Een kop als ‘Straling GSM-mast zorgt voor geboortegolf’ zou hem in zijn vooroordeel bevestigen.
Stel dat je het verband wilt onderzoeken tussen twee variabelen x en y. J e beschikt over waarden x 1, x 2, x 3, …., x n bij waarden y 1, y 2, y 3, …., y n. Je vraagt je af of er een statistisch lineair verband tussen y en x bestaat: y = a.x + b Als je de waarden van y uitzet als functie van x in een zogenaamde scatterplot (puntengrafiek) krijg je een figuur van de volgende gedaante:
Als er een lineair verband tussen y en x bestaat, is het waarschijnlijk dat de daarbij behorende rechte door het punt gaat. Dit punt is als het ware het zwaartepunt van je puntenverzameling:
Voor de correlatiecoëfficiënt R geldt nu: De correlatiecoëfficiënt (symbool R) geeft aan hoe betrouwbaar het veronderstelde wiskundige verband y = a.x + b tussen y en x is. De waarde van de correlatiecoëfficiënt ligt tussen -1 en +1 ( -1 R 1 ). Bij negatieve waarden hoort een dalende lijn bij toenemende x (a < 0), bij positieve waarden van R hoort een stijgende lijn (a > 0). Dit tekenverschil wordt vaak ondervangen door niet R te geven, maar R 2. Dat geeft dus informatie over de betrouwbaarheid van de gevonden functie zonder de aard van het verband (dalende of stijgende lijn) aan te geven.
Voor de betrouwbaarheid van de gevonden functie gelden de volgende standaardregels: Als -0,1 < R 0 of 0 R < 0,1 is er geen correlatie, m.a.w. het gevonden verband is niet correct. Als -0,3 < R -0,1 of 0,1 R < 0,3 is er nauwelijks correlatie, m.a.w. het gevonden verband is onbetrouwbaar. Als -0,5 < R -0,3 of 0,3 R < 0,5 is er een matige correlatie, m.a.w. het gevonden verband is niet erg zeker. Als -1,0 R -0,5 of 0,5 R 1,0 is er een sterke correlatie, m.a.w. het gevonden verband is sterk en natuurlijk betrouwbaarder naarmate R dichter bij -1 of 1 ligt. Als je naar de formule voor R kijkt, begrijp je dat er aardig wat rekenwerk vast zit aan het bepalen van de correlatiecoëfficiënt. Zie hiervoor ook het onderdeel “Kleinste kwadraten methode voor een lineair verband”. Gelukkig biedt een spreadsheet programma uitkomst: uit een tabel met waarden voor variabelen x en y kun je via formules/functie invoegen/correlatie snel de waarde van R uitrekenen.
Opdracht Een groepje leerlingen denken dat er een lineair verband is tussen de concentratie van sulfaat in grond en de groei van waterkersplantjes op die grond. Onderzoek of hun resultaten deze hypothese ondersteunen. Maak weer gebruik van Excel. De meetresultaten vind je hierna: sulfaatgehalte van de grond (mmol/L)groei waterkers /dag in mm 2,30,9 7,82,5 0,52,1 4,12,7 6,71,2 3,43,3 1,80,3 9,31,5 5,12,8 8,21,4
Opdracht Een groepje leerlingen denken dat er een lineair verband is tussen de pH van grond en de groei van waterkersplantjes op die grond. Onderzoek of hun resultaten deze hypothese ondersteunen. Maak gebruik van Excel. De meetresultaten vind je hierna: pH van de grondgroei waterkers /dag in mm 4,90,9 6,83,6 5,41,3 6,22,7 5,11,2 6,53,3 4,00,3 5,71,5 6,22,8 5,41,4
Opdracht Op de autosnelweg A1 van Eindhoven naar Maastricht staat voor Maastricht om vijf uur ’s middags elke dag een file. De lengte van deze file voor een aantal verschillende dagen vind je in het overzicht hierna. In dat overzicht vind je ook het aantal eieren dat door de twintig kippen van boer B. op een boerderij in Friesland werd gelegd. Bereken de correlatiecoëfficiënt. Wat zou jouw conclusie zijn? kilometers fileaantal eieren 4,94 7,812 5,78 3,82 12,120 6,58 8,415 9,318 5,16 8,211
- Uit de twee verkregen vergelijkingen Bereken je v 0 en a.