Meten en experimenteren Statistische verwerking van gegevens Een korte inleiding 13 oktober 2008 Catherine De Clercq
Statistische verwerking van gegevens Kursus statistiek voor fysici door Jorgen D’Hondt in 2de semester In deze les wordt een samenvatting gegeven van de formules nodig in het practicum fysica Deel I: Deel II: Deel III: Deel IV: Toevallige veranderlijken, Steekproef Beschrijving van gegevens, Histogram Gemiddelde en standaarddeviatie Normale of gaussische verdeling Fouten en onzekerheden Herhaalde metingen: gemiddelde en variantie Bewerkingen met stochastische veranderlijken Voortplanten van statistische onzekerheden Bepalen van de beste rechte door de metingen Methode van de kleinste kwadraten Niet lineaire problemen Presentatie van resultaten Aantal beduidende cijfers, Afronden van getalwaarden Grafieken, tabellen, eenheden etc Meten en Experimenteren 2008-2009 Verwerking van gegevens
Verwerking van gegevens Deel I Toevallige of stochastische veranderlijken Steekproef Beschrijving van gegevens Histogram Gemiddelde en standaarddeviatie Normale verdeling Fouten en onzekerheden Meten en Experimenteren 2008-2009 Verwerking van gegevens
Toevallige veranderlijken experiment = meting van een bepaalde grootheid x uitgevoerd met een bepaald instrument volgens een bepaalde procedure Een experiment wordt meestal beïnvloed door verschillende factoren: vb bepaling verbruik van een auto, meten valversnelling Het resultaat van een experiment is nooit exact reproduceerbaar De verschillende waarnemingen of resultaten van een experiment vertonen een spreiding Men noemt de grootheid x (het resultaat van het experiment) een toevallige of stochastische veranderlijke Meten en Experimenteren 2008-2009 Verwerking van gegevens
Keuze van de steekproef Men wil meestal uit het experiment een fysische grootheid bepalen, bvb de valversnelling Elk experiment wordt beïnvloed door verschillende willekeurige factoren Het is dus best om een groot aantal experimenten uit te voeren, at random (willekeurig) gekozen Dit is een steekproef waaruit men conclusies wenst te trekken over de fysische grootheid Men bekomt een verzameling gegevens {x1,x2,x3,…xn} Meten en Experimenteren 2008-2009 Verwerking van gegevens
Beschrijving van gegevens Na het uitvoeren van n experimenten beschikt men over een verzameling gegevens {x1,x2,x3,…xn} Men kan deze verzameling beschrijven met behulp van de volgende empirische grootheden : Het aantal gegevens Het steekproefgemiddelde: maat voor de locatie van de gegevens De steekproefvariantie en de -standaarddeviatie: maat voor de spreiding van de gegevens De gegevens worden vaak voorgesteld in een histogram Meten en Experimenteren 2008-2009 Verwerking van gegevens
Verwerking van gegevens Histogram De gegevens worden ingedeeld in klassen Het histogram geeft een eerste informatie over structuren (pieken, uniform ..) in de verdeling van gemeten grootheid De keuze van de breedte van de klassen hangt af van de nauwkeurigheid waarmee men de grootheid gemeten heeft, van het aantal gegevens … Voorbeelden : Men meet de lengte van een balk van 200mm met een lat met onderverdelingen van 1mm Men meet de lengte van 1100 willekeurig gekozen mannen in Brussel Meten en Experimenteren 2008-2009 Verwerking van gegevens
100 metingen lengte balk – 1mm lat in 10 klassen van elk 1mm breed in 4 klassen van elk 2,5mm breed Het histogram met 10 klassen geeft meer informatie over de structuur van de steekproef dan het histogram met 4 klassen. Meten en Experimenteren 2008-2009 Verwerking van gegevens
Verwerking van gegevens Lengte 1100 mannen In 10 klassen van 6cm In 60 klassen van 1cm In 300 klassen van 0,2cm Het histogram met 60 klassen geeft voldoende informatie over de structuur van de steekproef en er zijn voldoende elementen in elke klasse. Het histogram met 10 klassen geeft te weinig informatie over de structuur. In het histogram met 300 klassen zijn er in sommige klassen te weinig elementen. Meten en Experimenteren 2008-2009 Verwerking van gegevens
Aantal generaties materiedeeltjes Meten en Experimenteren 2008-2009 Verwerking van gegevens
Gemiddelde en standaarddeviatie Een steekproef met n gegevens wordt gekarakteriseerd door de volgende grootheden: Rekenkundig gemiddelde Variantie Standaardafwijking of standaarddeviatie = s Meten en Experimenteren 2008-2009 Verwerking van gegevens
Gemiddelde en standaarddeviatie 100 metingen van de lengte van een balk van 200mm met een lat met 1mm onderverdelingen Gemiddelde waarde = 200mm Standaarddeviatie = 1mm Meten en Experimenteren 2008-2009 Verwerking van gegevens
Normale of gaussische verdeling Indien de steekproef oneindig groot wordt dan volgt de verdeling van de gemeten grootheid een normale of gaussische verdeling (centrale limietstelling) met gemiddelde waarde μ standaardafwijking σ Variantie σ2 Waarschijnlijkheids verdeling f(x) Grootheid x frequentie [0;0,45] [2;0,7] [0;1] [0;2,24] Meten en Experimenteren 2008-2009 Verwerking van gegevens
Normale of gaussische verdeling 68% van de metingen ligt in het interval [µ-σ, µ+σ] 95% van de metingen ligt in het interval [µ-2σ, µ+2σ] 99,7% van de metingen ligt in het interval [µ-3σ, µ+3σ] Meten en Experimenteren 2008-2009 Verwerking van gegevens
Normale verdeling en steekproef Steekproef is nooit oneindig groot Men benadert Gemiddelde μ door rekenkundig gemiddelde x variantie σ2 door steekproefvariantie s2 Centrale limietstelling: theorie van de onzekerheden (foutentheorie) mag gebaseerd worden op een normale verdeling Standaardafwijking σ = statistische onzekerheid op één meting van de grootheid Voorbeeld : meting lengte balk 100 of 10000 metingen Meten en Experimenteren 2008-2009 Verwerking van gegevens
100 en 10000 metingen lengte balk 100 metingen met statistische onzekerheid van 1mm 10000 metingen + normale verdeling Het histogram met 10000 metingen benadert goed een normale verdeling Meten en Experimenteren 2008-2009 Verwerking van gegevens
Fouten en onzekerheden Statistische onzekerheden Te wijten aan toevallige fluctuaties in de metingen De onzekerheid op de conclusie uit de metingen verkleint wanneer men beschikt over een grotere steekproef Men spreekt vaak van statistische ‘fout’ Blunders = fouten die niet ingeschat kunnen worden Systematische fouten Reproduceerbare fouten te wijten aan slecht afgesteld apparaat Bvb amperemeter meet systematisch te hoge stroom De metingen herhalen geeft geen betere nauwkeurigheid en geeft niet meer zekerheid over de conclusies uit de proef Meten en Experimenteren 2008-2009 Verwerking van gegevens
Verwerking van gegevens Deel II Herhaalde metingen: gemiddelde en variantie Bewerkingen met stochastische veranderlijken Voorplanten van statistische onzekerheden Meten en Experimenteren 2008-2009 Verwerking van gegevens
Verwerking van gegevens Een enkele meting Elk meetinstrument laat toe metingen uit te voeren met een bepaalde onzekerheid Bvb weegschaal meet op 0,01g nauwkeurig Bvb lat meet op 1mm nauwkeurig … Voor de meetapparaten die in het practicum gebruikt zullen worden wordt de nauwkeurigheid gegeven in de syllabus of op het apparaat zelf Notatie: Meten en Experimenteren 2008-2009 Verwerking van gegevens
Herhaalde metingen – gewogen gemiddelde De metingen herhalen levert een resultaat met een kleinere onzekerheid Wanneer men N metingen uitvoert van een grootheid x, elk men een bepaalde onzekerheid si Dan zijn het gewogen gemiddelde en zijn variantie Meten en Experimenteren 2008-2009 Verwerking van gegevens
Herhaalde metingen met zelfde onzekerheid Indien alle metingen dezelfde onzekerheid s bezitten (of hetzelfde gewicht) dan worden het gemiddelde en zijn onzekerheid Bvb 100 metingen van 200mm lange balk met lat met 1mm nauwkeurigheid geven: Elke meting : onzekerheid s = 1mm Gemiddelde : onzekerheid sx = 1mm/√100 = 1mm/10 Meten en Experimenteren 2008-2009 Verwerking van gegevens
Bewerkingen met toevallige variabelen De metingen uitgevoerd in een of meerdere experimenten zijn zelden zelf het eindresultaat waarin men geïnteresseerd is Eenvoudig geval: ik bepaal mijn gewicht door elke ochtend op de weegschaal te staan De proeven uitgevoerd in de fysica bestaan meestal uit metingen van verschillende grootheden, elk met een statistische onzekerheid Bewerkingen met die metingen leiden tot het eindresultaat Meten en Experimenteren 2008-2009 Verwerking van gegevens
Voorbeeld: bepaling valversnelling bepaling valversnelling g: laat een kogel vanop een hoogte vallen en meet de tijd tot die de grond raakt Metingen van hoogte y en tijd t, elk met een statistische onzekerheid Valbeweging De valversnelling g wordt Vraag: welke is de onzekerheid op g? Meten en Experimenteren 2008-2009 Verwerking van gegevens
Voorplanten van onzekerheden 1 Voor een groot aantal metingen van een stochastische variabele heeft deze variabele een normale verdeling de onzekerheid op één enkele meting gelijk is aan de standaarddeviatie van de normale verdeling Voor een variabele z=f(u,v), een functie van 2 variabelen (bvb hoogte en tijd bij valversnelling), geldt Vraag is ? Meten en Experimenteren 2008-2009 Verwerking van gegevens
Voorplanten van onzekerheden 2 De vraag is nu Voor een lineair verband geldt deze relatie altijd Voor een niet-linear verband geldt deze relatie bij benadering. De functie f(u,v) wordt rond het gemiddelde gelineariseerd Dit geschiedt door een ontwikkeling in Taylorreeks rond het punt (u,v) Termen van 2de en hogere orde worden verwaarloosd Meten en Experimenteren 2008-2009 Verwerking van gegevens
Voortplanten van onzekerheden 3 De variantie op z wordt Meten en Experimenteren 2008-2009 Verwerking van gegevens
Voortplanten van onzekerheden 4 De covariantie σuv is nul voor niet gecorreleerde veranderlijken, wat in alle practica het geval is Voorbeeld: men bepaalt de snelheid van een auto uit de metingen van afstand x en tijd t Voor de steekproefvariantie geldt resultaat Meten en Experimenteren 2008-2009 Verwerking van gegevens
Verwerking van gegevens Deel III Bepalen van de beste rechte door de metingen Methode van de kleinste kwadraten Niet lineaire problemen Meten en Experimenteren 2008-2009 Verwerking van gegevens
Een lineaire fysische wet Voorbeeld : bepaling veerconstante Een veer wordt opgehangen aan een punt – men hangt achtereenvolgens verschillende massa’s onderaan de veer – dit veroorzaakt een elongatie van de veer – men meet de positie x van het onderste punt van de veer als functie van de massa m Blauw = Meetpunten Alle posities zijn gemeten met dezelfde onzekerheid Meten en Experimenteren 2008-2009 Verwerking van gegevens
Bepalen van de beste rechte - voorbeeld Fysische wet vraag: wat is de veerconstante k voor deze veer? Of: welke is de beste schatting van k uit deze metingen? de beste schatting van k geeft de beste rechte door de meetpunten (m,x) Hoe bepaalt men de beste rechte door de meetpunten? Met de methode van de kleinste kwadraten. x Meten en Experimenteren 2008-2009 Verwerking van gegevens
Methode van de kleinste kwadraten 1 Uit N metingen {xi,yiσi} schat men de beste rechte y=ax+b de beste schatting wordt bekomen door minimisatie van de χ2 Vb verloop van χ2 als functie van parameter a(rico) voor proef ‘veer’ a minimum χ2 Meten en Experimenteren 2008-2009 Verwerking van gegevens
Methode van de kleinste kwadraten 2 Het minimum van de χ2 functie wordt bekomen door partieel af te leiden naar de parameters a en b Algemene oplossing: zie cursus statistiek Indien alle metingen yi dezelfde onzekerheid σy bezitten bekomt men een eenvoudig stelsel van 2 vergelijkingen en 2 onbekenden Oplossing van het stelsel: Eerst 2de vergelijking oplossen naar b Deze oplossing substitueren in 1ste vergelijking – geeft a Dit invullen in oplossing voor b bekomen in stap 1. Parameters a,b van beste rechte Meten en Experimenteren 2008-2009 Verwerking van gegevens
Oplossen van stelsel naar a en b Alle metingen hebben dezelfde onzekerheid y Meten en Experimenteren 2008-2009 Verwerking van gegevens
Schatting van onzekerheden op a,b Voortplanten van onzekerheden op yi naar a,b In de praktijk is de onzekerheid σy vaak niet gekend en kan berekend worden uit Meten en Experimenteren 2008-2009 Verwerking van gegevens
Indien de fysische wet geen rechte volgt De methode van de kleinste kwadraten is steeds geldig. Men berekent de χ2 en leidt af naar de parameters om het minimum te vinden – zie cursus statistiek en Mathematica Bvb voor valbeweging Men kan het probleem lineariseren Bvb valbeweging: indien men t2 ipv t als ‘x’ variabele gebruikt bekomt men een rechte waarvan de richtingscoëfficient = g Meten en Experimenteren 2008-2009 Verwerking van gegevens
Verwerking van gegevens Deel IV Presentatie van resultaten Aantal beduidende cijfers Afronden van getalwaarden Grafieken, tabellen, eenheden etc Meten en Experimenteren 2008-2009 Verwerking van gegevens
Aantal beduidende cijfers Meest LINKSE cijfer ( 0) is meest beduidende cijfer Geen decimaal punt : minst beduidende cijfer is meest RECHTSE cijfer ( 0) Wel decimaal punt : : minst beduidende cijfer is meest RECHTSE cijfer, ook al is dit 0 Aantal beduidende cijfers = aantal tussen meest en minst beduidende cijfers 5280 : 3 beduidende cijfers 5280, : 4 beduidende cijfers 0,0094 : 2 beduidende cijfers 3,010 x 104 : 4 beduidende cijfers Meten en Experimenteren 2008-2009 Verwerking van gegevens
Afronden van getalwaarden Resultaat van de proef: hoeveel beduidende cijfers moet men geven? Men rond eerst de onzekerheid op het resultaat (de ‘fout’) af tot 2 of 3 beduidende cijfers Men kiest de meest aangepaste eenheden, bvb keuze tussen 1,0mm (3 bed cijfers) 0,1cm (1 bed cijfer) Dan rond men het resultaat zelf af tot hetzelfde aantal decimalen als de ‘fout’ Meten en Experimenteren 2008-2009 Verwerking van gegevens
Grafieken, tabellen, eenheden Tabellen en grafieken geven een duidelijk overzicht van de metingen – gebruik ze! Grafiek: geef assen een naam en eenheden Kies de schaal zodanig dat de gegevens over het gehele gebied verspreid zijn Geef duidelijk de schalen aan van de assen Tabel: zet bovenaan de naam van de grootheid en de eenheden Vergeet eenheden niet bij het geven van resultaten van metingen en berekeningen Zet titels boven grafieken en tabellen Meten en Experimenteren 2008-2009 Verwerking van gegevens