TCPII Beslissen normatief.

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Inleiding tot inferentie
havo A Samenvatting Hoofdstuk 6
havo/vwo D Samenvatting Hoofdstuk 2
Mijn naam is Willem Wind. Mijn naam is Willem Wind En ik ben hoogbegaafd.
Psychologie en energiebesparing
vwo B Samenvatting Hoofdstuk 3
Stijgen en dalen constante stijging toenemende stijging
Risico’s en gevaren van techniek
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
BiO-M Wiskundig Modelleren
Is cosmology a solved problem?. Bepaling van Ω DM met behulp van rotatie krommen.
Kwaliteit van meetinstrumenten
P-waarde versus betrouwbaarheidsinterval
toetsen voor het verband tussen variabelen met gelijk meetniveau
Forensische statistiek: over boeven en dominees
Inleiding en simpel model
Voortgezette signaaldetectietheorie
Differentiëren en integreren
Autisme en intelligentie
vwo A/C Samenvatting Hoofdstuk 7
vwo A Samenvatting Hoofdstuk 13
vwo C Samenvatting Hoofdstuk 14
Differentieer regels De afgeleide van een functie f is volgens de limietdefinitie: Meestal bepaal je de afgeleide niet met deze limietdefinitie, maar.
Gegevensverwerving en verwerking
Inferentie voor regressie
Het proefverslag Van de calorimetrie-proef (proef 4) moet een proefverslag worden gemaakt. De studenten die proef 4 hebben gedaan in de week van 29 sept 
Continue kansverdelingen
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Een fundamentele inleiding in de inductieve statistiek
Beslisbomen Robert de Hoog College Beslissingsondersteuning 5 oktober 2001.
Beslisbomen Robert de Hoog College Beslissingsondersteuning 26 september 2002.
Hoofdstuk 9 Verbanden, correlatie en regressie
Voorspellende analyse
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Populatiegemiddelden: recap
Vormen van studie (ontwerp)
Hogere wiskunde Limieten college week 4
HEO –CO1 ABP3 Ondernemen & strategisch handelen HEO –CO1 ABP3 ABP3 week 3.
Vereisten voor een screeningsprogramma
1 van 8 Bernoulli-stochasten & Binomiale stochasten © CI 2003.
H4 Differentiëren.
H2 Lineaire Verbanden.
Afleidingen Signaaldetectietheorie
Bayes Voor psychologen. Pierre Simon Laplace Recap Bayes’ Rule.
Signaaldetectietheorie
Wat bezielt die psychologen?
Interpretatie van statistiek bij toetsen en toetsvragen
Opbrengsten van onderwijs
Betrouwbaarheid.
Partiële r² Predictie van y gebaseerd op z alleen
Mindfulness.
Docentendag Intelligente Systemen dr.ir. Michael Franssen Faculteit Wiskunde & Informatica Software Engineering & Technology.
Operationaliseren Definiëren Operationaliseren
Deel 2: Onzekerheid in redeneren
Het optimale design versus de weerbarstige praktijk Prof. Dr. Jan Busschbach
Hoge Energie Fysica Introductie in de experimentele hoge energie fysica Stan Bentvelsen NIKHEF Kruislaan SJ Amsterdam Kamer H250 – tel
Geloof en wetenschap in het scheppingevolutie debat.
Samenvatting.
Psychologieles 7 lesweek 7
Toelichting advies Rfv Verdeling budget Participatiewet Toelichting aan de Tweede Kamercommissie Sociale Zaken en Werkgelegenheid Michiel van Haersma Buma,
Leiderschapstypen in de klas Diederik Slob. Wat is de vraag? Film op de tweede bijeenkomst Artikel over Weber’s leiderschapstypen = 2! Kan ik de.
Testen met een klein aantal testmonsters Rob Ross.
Kan je zien of iemand holebi is?
18 Evalueren van Beweringen en Redenen. Scenariotest
Hoofdstuk 7 Assessment Perspectives and the Human Matrix: Brigdes to Effective Treatment Planning in the Initial Interview.
Wiskunde A of wiskunde B?.
3 vmbo-KGT Samenvatting Hoofdstuk 10
Voorspellende analyse
Transcript van de presentatie:

TCPII Beslissen normatief

Waarom beslissen? Het nemen van beslissingen is een belangrijk onderdeel van de wetenschap (moet ik dit “als waar” aannemen?) Het levert modellen voor die bruikbaar zijn in onderzoek in het algemeen, waarnemen, diagnostiek en (uiteraard) beslissen Psychologen worden voornamelijk ingezet om beslissingen te nemen, voor te bereiden, te verbeteren, te ondersteunen en te legitimeren

Modellen voor beslissen Normatief Prescriptief Descriptief Filosofen, Wiskundigen TCP-ers! Bestuurders, Instructeurs, Commandanten, TCP-ers! Psychologen, Economen(?) N. B.: normatieve modellen kunnen ook descriptief worden gebruikt of uitgangspunt vormen voor descriptieve modellen!

Veronderstel dat het gedrag aan een normatief model voldoet (voor adaptieve of geadapteerde systemen een redelijke aanname) Beschrijf het gedrag in termen van de parameters van dat model Signaaldetectie Bayesiaanse modellen voor perceptie standaard in economie! (vgl “begrijpen” in psychologie!) Werkt soms goed, maar vaak is afwijking te groot

Opfrisser: Wat is een verstandige manier om te beslissen? Klassiek beslissingscriterium voor onzekere situatie (b.v. gokken): kies alternatief met hoogste verwachte waarde (E V) Cf. Pascal’s Weddenschap (kansrekening ontstond in context van gokken en theologie)

EV(A) = (p(u)V(u)) u∊A Christiaan Huygens formuleerde het principe expliciet in 1657: By exempel. So yemandt sonder mijn weeten in déene handt 3 schellingen verbergt en in d'ander 7 schellingen ende my te kiesen geeft welck van beyde ick begeere te hebben, ick segge dit my even veel weerdt te zijn als of ick 5 schellingen seecker hadde. EV(A) = (p(u)V(u)) u∊A

EV(A) = (p(u)V(u)) u∊A Pascal’s Weddenschap in moderne termen: kans dat God bestaat = p Geloven Niet geloven p 1-p Hemel Gedoe Hel Plezier p•() + (1-p)•GG   p•(- ) + (1-p)•PlNg  -  EV(A) = (p(u)V(u)) u∊A Dus: zelfs bij kleine p is geloven redelijk!

EU(A) = (p(u)U(u)) u∊A D. Bernouilli (1738): Waarde van geld niet voor iedereen hetzelfde: rijken vs armen Utiliteit (“emolumentum”) ipv geldswaarde EU(A) = (p(u)U(u)) u∊A Maar hoe kom je aan een maat van utiliteit? Bernoulli: Utiliteit van toename (of afname) omgekeerd evenredig met wat je al hebt !

AB beginkapitaal CG utiliteit van toename BC DH utiliteit van toename BD… PO utiliteit van winst BP po negatieve utiliteit van verlies pB (PO=po ; AN=aN) Hoe krijg je curve BGHLMS ? Als toename in geld CD heel klein is (dx), is toename in utiliteit rH (dy) daarmee evenredig: dy ~ dx Utiliteit van toename (of afname) omgekeerd evenredig met wat je al hebt (AC=x): dy ~ 1/x dy = bdx/x ; dy/dx = b/x (b constant)

∫ y = k ln(x) + C dy = bdx/x ; dy/dx = b/x (als x>0 geldt 1/x dx = ln(x) + C) ∫ NB. Fechner gebruikte dezelfde redenering om zijn logaritmische wet uit de Weberwet af te leiden!

Maar wat als je geen “objectieve” maat hebt zoals geld of fysische grootheid? Af te leiden uit voorkeuren (met p(A) = 1) Schaaleigenschappen, Consistentie Bv: Als A > B dan A&C > B&C Utiliteit functie multipele atributen (MAUT)

EV(A) = (p(u)V(u)) u∊A pz opereren En wat is kans? niet pz 1-pz En wat is kans? Weet ik die kans dan? Soms weet ik B (testuitslag) en ken ik p(B|u) (uit de statistieken) Benaderingen: Bayes Neyman-Pearson, SDT

Recap Bayes’ Rule portret Pierre Simon Laplace

Als een test .99 van de patienten detecteert die aan ziekte Z lijden (dit is erg hoog voor een medische test!)…, en mijn testresultaat blijkt positief… problemen …hoe waarschijnlijk is het dan dat ik Z heb?

Vraag1 1: hoe prevalent is Z? Stel: 1 patient op de 1000 Vraag 2: Hoe veel false alarms? . Stel: 2 op de 100 gezonde mensen die worden getest. problemen (Heel goede test! Veel beter dan PSA- niveau voor prostaatkanker en mammogram voor borstkanker!!!)

Kans op Z gegeven een positief testresultaat: .047 Valt reuze mee!!!!!!!!! We hebben een principe nodig om te komen van kans op positief gegeven Z op kans op Z gegeven positief problemen Of algemeen: van p(A|B) naar p(B|A)

p(A^B) p(A|B) = ---------- p(B) p(A^B) en p(B|A) = ------------ p(A) p(B|A)•p(A) p(A|B)= -------------- p(B) [basisvorm] p(B|A)•p(A) = p(A^B) p(B) = p(B^A) + p(B^¬A) = p(B|A)•p(A) + p(B|¬A)•p(¬A) p(B|A)•p(A) p(A|B)= ---------------------------------------- p(B|A)•p(A) + p(B|¬A)•p(¬A) [standaardvorm]

p(B|A)p(A) p(A|B)= -------------------- p(B) [basisvorm] p(B|A)•p(A) p(A|B)= ------------------------------------------- p(B|A)•p(A) + p(B|¬A)•p(¬A) [standaardvorm] Odds i.p.v. waarschijnlijkheid: Ω(A) = p(A)/p(¬A) p(A|B) p(B|A) p(A) ------------- = ------------- • -------- p(¬A|B) p(B|¬A) p(¬A) posterior = likelihood ratio • prior odds odds (Bayes Factor)

De odds vorm is heel aardig om te laten zien wat er gebeurt als je nieuwe informatie krijgt: p(A|B) p(B|A) p(A) ------------- = ------------- • -------- p(¬A|B) p(B|¬A) p(¬A) Nieuw geloof in A, nu je B weet (posterior odds) Diagnostische “kwaliteit” van nieuwe informatie B (likelihood ratio) Oorspronkelijke geloof in A (prior odds)

Niet vergeten: p(B|A)•p(A) p(A|B)= -------------------- [basis] p(B) p(B|A)•p(A) p(A|B) = ------------------------------------- [standaard] p(B|A)•p(A) + p(B|¬A)•p(¬A) p(B|Ai)•p(Ai) p(Ai|B) = ------------------ [gegeneraliseerde jp(B|Aj)•p(Aj) standaardvorm] p(A|B) p(B|A) p(A) ------------- = --------- • -------- [‘odds’] p(¬A|B) p(B|¬A) p(¬A)

Opnieuw het ziektevoorbeeld: 99% van zieken positief [p(Pos|Z)] 2% van gezonden positief [p(Pos|¬Z)] 0.1% zieken [p(Z)] p(Pos|Z)•p(Z) p(Z|Pos) = ----------------------------------------- p(Pos|Z)•p(Z) + (Pos|¬Z)•p(¬Z) .99 • .001 .00099 = ----------------------------- = ------------ = .047 99 •.001 + .02 •.999 .020079

In de odds vorm: p(A|B) p(B|A) p(A) ------------- = ------------- • -------- p(¬A|B) p(B|¬A) p(¬A) .0495 (nog steeds lage) posterior odds .99 ----- .02 (hoge) diagnostische waarde (49.5) .001 ------ .999 (lage) prior odds

Graf van Bayes

Problemen: Wat is kans? (verschillende antwoorden: - (limiet van) relatieve frequentie - maat voor sterkte van geloof/overtuiging Kun je zeggen dat een unieke gebeurtenis of de toestand op dit moment (dat ik nu Z heb) een kans p heeft? A-priori kansen vaak niet goed gefundeerd- gevaar van willekeur

Vanaf ca. 1925 werd de Bayesiaanse aanpak in de inductive statistiek gemarginaliseerd (nu een come back) In de “klassieke ” statistiek prefereert men een frequentistische interpretatie van waarschijnlijkheid Hypothesen zijn waar of niet waar (al weten we doorgaans niet wat), en worden geaccepteerd of verworpen op grond van D and p(D|H)

Inductieve statistiek Bayesiaans vs klassiek kans: sterkte van overtuiging, gebaseerd op alle beschikbare a-priori en actuele evidentie θ (b.v. populatiegemiddelde) stochastisch Inferentie gebaseerd op likelihood: p(data|θ) en prior: p(θ) kans: limiet van lange termijn relative frequentie Vaste, onbekende parameters θ (b.v. populatiegemiddelde Inferentie gebaseerd op likelihood: p(data|θ)

Sx bereken p(S|H0) (voor steekproegrootte n) p Steekproefgrootheid S Fisher Nulhypothese over een of andere population parameter doe experiment ( Sx, p) Verwerp H0 als p klein is, je zou een of ander alternatief kunnen accepteren

Neyman & Pearson p(S|H0) p(S|H1) Steekproefgrootheid S Specificeer H0 ,H1 en kansverdelingen. Formuleer op grond van β p(type II error) en α p(type I error) een criterium, doe experiment, bepaal Sx en kies tussen H0 en H1

Signaal-Detectie Theorie Toepassing Neyman-Pearson op verwerken sonar- of radarsignalen tegen ruizige (noisy) achtergrond Ontwikkeld voor militaire technologie (WW2):

Hypothese 0: er is geen signaal, alleen maar ruis er is een signaal en ruis NB.1 Op basis van “evidentie” moet ik handelen, al weet ik niet welke H echt waar is! NB.2 Dit is typisch “klassiek”, maar straks komt Bayes via de achterdeur toch weer binnen!

kernaannamen signaaldetectietheorie kansdichtheid “Evidentie”, b.v…..???? 1. Effect van signaal is variabel (volgens kansverdeling). 2. Ruis (Noise) heeft ook variabel effect. Probleem: is de “evidentie” (= een punt op de x-as) van signaal (+ ruis) of van ruis alleen afkomstig?

“No” “Yes” 3. Als signaal zwak is, overlappen verdelingen en zijn fouten onvermijdelijk, welk kriterium ook wordt gehanteerd

Terminologie: “No” “Yes” “No” “Yes” Signaal (+ruis) (alleen) ruis miss hit correct rejection false alarm

Hoe sterker het signaal (of hoe beter de detector) … hoe verder de verdelingen uit elkaar liggen

“No” “Yes” Gegeven een bepaalde gevoeligheid kunnen verschillende responscriteria gehanteerd worden Afhankelijke van persoonlijke voorkeur of “pay off” in deze situatie: -Hoe erg is een misser, hoe belangrijk is een hit? -Hoe erg is een false alarm, hoe belangrijk is een correct rejection? -Hoe vaak komen signalen voor? (denk aan Bayes!)

Twee typen toepassingen: 1. Normatief: Men kent de kansverdelingen en probeert een zo goed mogelijk criterium te bepalen voor optimaal gedrag -Heb ik deze mevrouw eerder gezien? Is dat een vijandelijk vliegtuig? Wijst dit mammogram op borstkanker? Zit er een wapen in die koffer? Kan deze leerling naar de HAVO? Wat is de beste cut-off score voor deze test?

Twee typen toepassingen: 2. Descriptief: Men kent het gedrag en probeert de kansverdelingen en het criterium als “rationeel” model te reconstrueren Hoe goed/slecht zien ppn een lichflits? Hoezeer zijn ze geneigd die te rapporteren? Hoe goed is deze pp in herkennen van gezichten? Hoe goed kunnen rechters schuldigen van onschuldigen onderscheiden? Zijn rechters beter en/of strenger dan leken? Hoe goed kunnen röntgenologen borstkanker diagnostiseren? Hoe goed is deze test? .

“No” “Yes” In een experiment met ruis- en signaal trials: Een strict (“hoog”) criterium resulteert in weinig hits maar ook weinig false alarms Propor-tie hits (van signaal trials) Proportie false alarms (van noise trials)

“No” “Yes” hits Een laks “laag” criterium levert bij gelijke gevoeligheid meer hits op, maar ook meer false alarms false alarms

De ROC-(response operating characteristic) curve ….verbindt punten in een Hit/FA- plot, afkomstig van verschillende criteria bij dezelfde gevoeligheid ROC-curve karakteriseert signaal/detector onafhankelijke van criterium belangrijk: gevoeligheid en criterium theoretisch onafhankelijk

ROC-curve hits Zelfde gevoeligheid (voor dit signaal), verschillende criteria false alarms

Grotere gevoeligheid: ROC-curve verder van diagonaal (Perfectie zou zijn: allemaal hits en geen false alarms) hits false alarms

Suggereert twee soorten maten voor gevoeligheid (onafhankelijk van criterium:) –gegeven een empirisch bepaalde ROC curve): Afstand tussen signaal- en ruisverdeling (vgl d' ) 2. Oppervlakte onder ROC-Curve: A

Geen onderscheid tussen signaal en ruis:

Perfect onderscheid tussen signaal en ruis:

h f Typen maten voor criterium: 1. Plaats op x-as 2. Likelihood ratio p(xc|S)/p(xc|N) = h/f (vgl β) 3. Plaats in ROC-plot (l.o. vs r.b.) 4. Helling raaklijn aan ROC

Borstkanker? d' = 1.13

PSA-indices voor het screenen op prostaatkanker

Psychodiagnostiek: 1. Hoe goed is deze test in het onderscheiden van relevante categorieën? 2. Wat is een goede cut-off score (bij welke score moet ik de kandidaat aannemen/ de student toelaten/ de cliënt naar de psychiater of het gekkenhuis sturen?

Comer & Kendall 2005: Children’s Depression Inventory ontdekt depressie in een steekproef van angstige and angstige + depressieve kinderen Verschillende cut-off scores

hoeveel kost het missen van een wapen/explosief op een vliegveld? Hoeveel kost een false alarm? Hoeveel kost de vertraging die elke screening oplevert?