Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005.

Slides:



Advertisements
Verwante presentaties
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Advertisements

Screening van toetsen: Psychometrische analyse
-Glucuronidase (GUS)
Betrouwbaarheid van Competentie Assessments
Educational model for assessment
Beeld  -> woord 4 lessen beam van waardenberg beeld  -> woord 4 lessen beam van waardenberg.
Welkom. Wat gaan we doen? • Data leren gebruiken als startpunt van verhalen • Naar de IATI set kijken van buitenlandse zaken.
Module 7 – Hoofdstuk 5 (1) SQL – een begin.
Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
Het vergelijken van twee populatiegemiddelden: Student’s t-toets
Presteren ijverige studenten beter? De complexe relatie tussen
Het collaboratief spelen van een educatieve game
Betrouwbaarheid en Validiteit
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Jan Talmon Medische Informatica Universiteit Maastricht
Van leerdoel naar leeropbrengst
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
vwo C Samenvatting Hoofdstuk 14
vwo C Samenvatting Hoofdstuk 12
Gegevensverwerving en verwerking
Chapter 9. Understanding Multivariate Techniques
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Eric Halsberghe Algemeen directeur KATHO
1 Minor Digital World. Social networking en lectoraat Digital World Social Networking: de digitale communicatiemiddelen via internet, met elkaar, met.
5 VWO Hst 8 – zuren en basen.
H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.
Hoofdstuk 9 Verbanden, correlatie en regressie
Eenvoudige data-analyse: beschrijvende statistische
Hoofdstuk 2 Het onderzoeksonderwerp formuleren en verduidelijken Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian.
Spatial subgroup mining
VELON Opleiden in de school 9 november 2007
Ervaringen en ontwikkelingen Utrecht 15 februari 2011.
MAO-model voor publieksvergroting: Theoretische uiteenzetting en practische implicaties Mia Stokmans Universiteit van Tilburg, Faculteit Communicatie.
Temperatuur reconstructie door Mann et al.
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
Prisoner’s Dilemma een experiment.
Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.
Positioning: ervaring met testcorpus 1 Ellen Rusman Jan van Bruggen April 2005.
Zuyd Hogeschool Lectoraat nieuwe energie Duurzame Monumenten Sustainable Monuments Status en voorlopige resultaten literatuuronderzoek.
Afleidingen Signaaldetectietheorie
Interpretatie van statistiek bij toetsen en toetsvragen
Item analyse Item-Moeilijkheidsindex Item-Betrouwbaarheidsindex
Validiteit.
Partiële r² Predictie van y gebaseerd op z alleen
Kwalitatief onderzoek
Boxplot … en andere diagrammen
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Kwantitatieve & kwalitatieve data analyse
Cursus Niveau 3 Inwendige besmetting
Kwantitatieve & kwalitatieve data analyse
Leydi Johana Breuls “In hoeverre speelt de sociale samenstelling van een sportclub een rol in de beslissing van leden om te stoppen?“ 01 Waarom?
Allard Kamphuisen Hado van Hasselt Wilco Broeders
Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.
Gerald Riedstra STOEIEN TUSSEN VADER EN KIND Onderzoek naar de psychometrische kwaliteiten van de Nederlandse versie van Rough and Tumble Play-Quality.
Grafentheorie Graaf Verzameling knopen al dan niet verbonden door takken, bijv:
In vijf stappen naar het accepteren van en werken met de uitkomsten van de Nationale Studentenenquête 5 November 2015.
Latent class growth analysis als succesvolle methode om subgroepen te identificeren binnen een gewichtsreductie interventie. Bastiaan C. de Vos¹, MD,
Nut en noodzaak van het ruismodel  NHV Tijdreeksanalyse discussiemiddag  Koen van der Hauw  1 oktober 2015 Enkele praktische ervaringen.
Evaluatieonderzoek VVTO Engels Kees de Bot Sieneke Goorhuis BCN/RUG.
AOS docentonderzoek bijeenkomst 9 Analyseren. Analyseren van data verzamelde data analyse resultaten conclusies Doel: ordenen van data om antwoord op.
Data Mining without Discrimination Valorisatiepanel 4 december – Faculty Club – Universiteit Leiden.
Minimum Opspannende Bomen Algoritmiek. 2 Inhoud Het minimum opspannende bomen probleem Een principe om een minimum opspannende boom te laten groeien Twee.
Apen.
Datastructuren voor grafen Algoritmiek. 2 Grafen Model van o.a.: –Wegennetwerk –Elektrische schakeling –Structuur van een programma –Computernetwerk –…
De waarde van Zorgkaart Nederland
Eenvoudige data-analyse: beschrijvende statistische
Minor Digital World 1.
Transcript van de presentatie:

Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005

Learning networks (1) ­Hoe weten lerenden met welke leereenheid ze beginnen óf verder gaan binnen het leernetwerk?

Activiteiten binnen ‘positioning’ 1.Ontwikkelt richtlijnen rondom het gebruik van Latente semantische Analyse (LSA) voor positionering 2.Specificeert, ontwikkelt en test een prototype ‘positioner’ 3.Vergelijkt huidige praktijken van het erkennen van EVC’s met betrouwbaarheid en validiteit van computergebaseerde positionering

Gebruik van LSA: Nu vooral: ­Information retrieval ­grote, algemene corpora Ook gebruik binnen onderwijssettings: ­Beoordeling van essays en terugkoppeling ­Matchen van studenten met instructie-tekst ­Hulp bij maken van samenvattingen Binnen positioning: ­Relatief kleine, specifieke corpora ­Inhoudelijk ‘voorgeselecteerd’

Techniek: documentvectoren als basis C h i m p a n s ee A B GorillaGorilla C D

Latente Semantische Analyse ­Gebaseerd op singuliere waarde ontbinding ­Sterke gelijkenis met principale componenten analyse ­Symmetrische matrix M ­Eigenwaarden en eigenvectoren ­M = U Λ U’ ­Λ is diagonaalmatrix met geordende eigenwaarden ­Reproductie: verwijder kleinste eigenwaarden in Λ en kolomen en rijen in U en U’

Singuliere waardenontbinding (SVD) ­Asymmetrische matrix (data-matrix) ­D = L S R’ ­S is diagonaal met geordende singuliere waarden ­Aantal S > 0 is gelijk aantal dimensies van de matrix ­LSA: reproductie van matrix op basis van een model met minder dimensies ­Σ S 2 = Σ d 2

Een voorbeeld: 8 * 8 matrix

SVD in Excel

Onze context ­Datamatrix is Term*Document matrix met woordfrequenties in de cellen. ­Heel veel cellen bevatten nullen ­Voor een ijle matrijs (sparse matrix) geldt: ­Gemiddelde dicht bij nul ­Geringe variantie ­Cumulatieve waarden van S 2 zijn een goede benadering van de variantie ( Σ S 2 = Σ d 2)

Probleem ­Positioning vergt discrimineren tussen documenten ­Hoge correlaties in homogene verzameling ­Lage correlaties tussen homogene verzamelingen ­Stoppen en zo ja wat of hoeveel? ­Vind objectief criterium om aantal SW te bepalen: ­Meer is niet beter ! ­Literatuur: 300 of meer; hoogste correlatie ­Maximale discriminatie ­Proportie verklaarde variantie ­Betrouwbaarheid ­SW > 1

Experiment met aapcorpus ­Constructie corpus: ­Stoppen: 0, 30, 50 ­Stemmen ­Bepalen query-set: ­Gorilla ­Orang oetan ­Analyse

Analyses ­Correlatie: ­Binnen Q-set (gorilla, orang oetan): hoog  Homogene set ­Q met N-set: laag  Heterogene set  Correlaties kennen een optimum verschil: ­Correlaties Q-set hoog EN ­Correlaties N-set laag ­Als aantal sv toeneemt, dalen correlaties door toename ruis

Resultaten (1)

Resultaten (2)

Resultaten (3)

Conclusies ­De correlaties voor de Q-set zijn hoog ­Zonder stoppen zijn ze dat ook voor de N-set ­Dus: discrimineren lukt alleen onder stopping condities ­Correlaties dalen met het toenemen van het aantal SW

Discussie ­Waar zitten de gaten? ­Vind objectief criterium om aantal SW te bepalen: ­Literatuur: 300 of meer ­Maximale discriminatie ­Proportie verklaarde variantie ­Betrouwbaarheid ­SW > 1