Controleren voor 3de variabelen
Dichotome variabelen: een voorbeeld Gender Leeftijd Item Frekwentie Man Jong Ja 1 Nee 3 Oud 4 Vrouw 2 7 ALLE Leeftijden Item Ja Nee Sex Man 5 4 9 Vrouw 1 10 6 13 JONG Item Ja Nee Sex Man 1 3 4 Vrouw 2 5 OUD Item Ja Nee Sex Man 4 1 5 Vrouw 7 8
Berekenen van (lambda) Item voorspellen Sex onbekend: Voorspelling = “Nee” 13 correct, 6 fout Foutratio = 6/19 Sex bekend: Voorspelling indien vrouw: “Nee” Indien man: “Ja” 14 (=9+5) correct, 5 fout Foutratio = 5/19 Proportionele daling van foutenratio = ALLE Leeftijden Item Ja Nee Sex Man 5 4 9 Vrouw 1 10 6 13 De proportionele reductie van het aantal fouten bij het voorpellen van “Item” indien “Sex” gekend is vergeleken bij de voorspelling indien “Sex” niet gekend is bedraagt 17%
Controleren voor leeftijd JONG Item Ja Nee Sex Man 1 3 4 Vrouw 2 5 Item voorspellen Sex bekend en JONG Fouten=2 Sex bekend en OUD Fouten=1 Foutratio = 3/19 Proportionele daling van foutenratio: OUD Item Ja Nee Sex Man 4 1 5 Vrouw 7 8 De proportionele reductie van het aantal fouten bij het voorpellen van “Item” indien “Leeftijd” gekend is bovenop “Sex” vergeleken bij de voorspelling indien alleen “Sex” gekend is bedraagt 40%
Huwelijken / Echtscheidingen / Geboorten (per 1000 inw.) in de VS Las Vegas!
Huwelijken / Echtscheidingen / Geboorten (per 1000 inw Huwelijken / Echtscheidingen / Geboorten (per 1000 inw.) in de VS: gedichotomiseerde data
Lambda () (Goodman & Kruskal, 1954) In welke mate verbetert de predictie van de rijen als we de kolommen kennen in een 22 kruistabel (en omgekeerd)? Echtsch. Laag Hoog Huwelijks % 18 5 23 6 19 25 24 Huwelijksratio voorspeld ZONDER kennis over Echtscheidingsratio : Hoog (25>23) Huwelijksratio voorspeld MET kennis over Echtscheidingsratio : Hoog als Echtsch% hoog Laag als Echtsch% laag
Lambda is niet (altijd) symmetrisch Echtsch. Laag Hoog Huwelijks % 18 5 23 6 19 25 24 predicting huwelijks % = = .522 predicting echtsch.% = = .542 Geb. Laag Hoog Huwelijks % 15 8 23 17 25 predicting huwelijks % = .304 predicting geb.% = .304 predicting geb % = predicting echtsch.% = Geb. Laag Hoog Echtsch. 16 8 24 7 17 23 25
Controleren voor 3de variabele: partiële lambda Echtsch.% Laag Hoog Huwelijks % 18 5 23 6 19 25 24 predicting Echtsch.% = .542 Fout% bij het voorspellen van Echtscheidings% op basis van Huwelijks% = 11/48 Met welke proportie daalt dit Fout% als bovendien rekening wordt gehouden met Geb.%? Huwelijks% LAAG Echtsch.% Laag Hoog Geb.% 13 2 15 5 3 8 18 Huwelijks% HOOG Echtsch.% Laag Hoog Geb.% 3 5 8 14 17 6 19 predicting Echtsch.% controlling for Huwelijks% De voorspelling van de Echtscheidingsratio op basis van Geboorteratio en Huwelijksratio is NIET beter dan de voorspelling op basis van Huwelijksratio alleen
Lambda en partiële lambda Echtsch.% Laag Hoog Geb.% 16 7 23 8 17 25 24 (echtscheidingen voorspellen) Huwelijks% LAAG Echtsch.% Laag Hoog Geb.% 13 2 15 5 3 8 18 Huwelijks% HOOG Echtsch.% Laag Hoog Geb.% 3 5 8 14 17 6 19 predicting Echtsch.% controlling for Geb.% De voorspelling van de Echtscheidingsratio op basis van Geboorteratio en Huwelijksratio is 26.7% beter dan de voorspelling op basis van Geboorteratio alleen
Veralgemening: verband tussen continue variabelen : In welke mate verbetert de predictie van de rijen als we de kolommen kennen in een 22 kruistabel (en omgekeerd)? Veralgemening r² : In welke mate verbetert de predictie van y als men zich baseert op de regressielijn y=ax+b tegenover een predicite die daar geen gebruik van maakt? Kwadratensom van fouten bij predictie ZONDER kennis van X Kwadratensom van fouten bij predictie MET kennis van X Verbetering: