Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005.

Slides:

Advertisements

Verwante presentaties

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Advertisements

Screening van toetsen: Psychometrische analyse

-Glucuronidase (GUS)

Betrouwbaarheid van Competentie Assessments

Educational model for assessment

Beeld  -> woord 4 lessen beam van waardenberg beeld  -> woord 4 lessen beam van waardenberg.

Welkom. Wat gaan we doen? • Data leren gebruiken als startpunt van verhalen • Naar de IATI set kijken van buitenlandse zaken.

Module 7 – Hoofdstuk 5 (1) SQL – een begin.

Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?

1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.

Het vergelijken van twee populatiegemiddelden: Student’s t-toets

Presteren ijverige studenten beter? De complexe relatie tussen

Het collaboratief spelen van een educatieve game

Betrouwbaarheid en Validiteit

Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.

Jan Talmon Medische Informatica Universiteit Maastricht

Van leerdoel naar leeropbrengst

Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.

vwo C Samenvatting Hoofdstuk 14

vwo C Samenvatting Hoofdstuk 12

Gegevensverwerving en verwerking

Chapter 9. Understanding Multivariate Techniques

Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.

Eric Halsberghe Algemeen directeur KATHO

1 Minor Digital World. Social networking en lectoraat Digital World Social Networking: de digitale communicatiemiddelen via internet, met elkaar, met.

5 VWO Hst 8 – zuren en basen.

H4 Marktonderzoek Verschillende informatiebehoeften in verschillende fasen: Analyse fase Strategische fase Implementatie fase Evaluatie fase.

Hoofdstuk 9 Verbanden, correlatie en regressie

Eenvoudige data-analyse: beschrijvende statistische

Hoofdstuk 2 Het onderzoeksonderwerp formuleren en verduidelijken Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian.

Spatial subgroup mining

VELON Opleiden in de school 9 november 2007

Ervaringen en ontwikkelingen Utrecht 15 februari 2011.

MAO-model voor publieksvergroting: Theoretische uiteenzetting en practische implicaties Mia Stokmans Universiteit van Tilburg, Faculteit Communicatie.

Temperatuur reconstructie door Mann et al.

30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:

Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.

Prisoner’s Dilemma een experiment.

Samantha Bouwmeester Testtheorie College Samantha Bouwmeester.

Positioning: ervaring met testcorpus 1 Ellen Rusman Jan van Bruggen April 2005.

Zuyd Hogeschool Lectoraat nieuwe energie Duurzame Monumenten Sustainable Monuments Status en voorlopige resultaten literatuuronderzoek.

Afleidingen Signaaldetectietheorie

Interpretatie van statistiek bij toetsen en toetsvragen

Item analyse Item-Moeilijkheidsindex Item-Betrouwbaarheidsindex

Partiële r² Predictie van y gebaseerd op z alleen

Kwalitatief onderzoek

Boxplot … en andere diagrammen

Hoofdstuk X Het correlatievraagstuk & SPSS toepassing

Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)

Kwantitatieve & kwalitatieve data analyse

Cursus Niveau 3 Inwendige besmetting

Kwantitatieve & kwalitatieve data analyse

Leydi Johana Breuls “In hoeverre speelt de sociale samenstelling van een sportclub een rol in de beslissing van leden om te stoppen?“ 01 Waarom?

Allard Kamphuisen Hado van Hasselt Wilco Broeders

Paramaribo, september 2015 Ten behoeve van leerkrachten van de EBGS Mr.dr.E. Marshall & M. Day.

Gerald Riedstra STOEIEN TUSSEN VADER EN KIND Onderzoek naar de psychometrische kwaliteiten van de Nederlandse versie van Rough and Tumble Play-Quality.

Grafentheorie Graaf Verzameling knopen al dan niet verbonden door takken, bijv:

In vijf stappen naar het accepteren van en werken met de uitkomsten van de Nationale Studentenenquête 5 November 2015.

Latent class growth analysis als succesvolle methode om subgroepen te identificeren binnen een gewichtsreductie interventie. Bastiaan C. de Vos¹, MD,

Nut en noodzaak van het ruismodel  NHV Tijdreeksanalyse discussiemiddag  Koen van der Hauw  1 oktober 2015 Enkele praktische ervaringen.

Evaluatieonderzoek VVTO Engels Kees de Bot Sieneke Goorhuis BCN/RUG.

AOS docentonderzoek bijeenkomst 9 Analyseren. Analyseren van data verzamelde data analyse resultaten conclusies Doel: ordenen van data om antwoord op.

Data Mining without Discrimination Valorisatiepanel 4 december – Faculty Club – Universiteit Leiden.

Minimum Opspannende Bomen Algoritmiek. 2 Inhoud Het minimum opspannende bomen probleem Een principe om een minimum opspannende boom te laten groeien Twee.

Datastructuren voor grafen Algoritmiek. 2 Grafen Model van o.a.: –Wegennetwerk –Elektrische schakeling –Structuur van een programma –Computernetwerk –…

De waarde van Zorgkaart Nederland

Eenvoudige data-analyse: beschrijvende statistische

Minor Digital World 1.

Transcript van de presentatie:

Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005

Learning networks (1) Hoe weten lerenden met welke leereenheid ze beginnen óf verder gaan binnen het leernetwerk?

Activiteiten binnen ‘positioning’ 1.Ontwikkelt richtlijnen rondom het gebruik van Latente semantische Analyse (LSA) voor positionering 2.Specificeert, ontwikkelt en test een prototype ‘positioner’ 3.Vergelijkt huidige praktijken van het erkennen van EVC’s met betrouwbaarheid en validiteit van computergebaseerde positionering

Gebruik van LSA: Nu vooral: Information retrieval grote, algemene corpora Ook gebruik binnen onderwijssettings: Beoordeling van essays en terugkoppeling Matchen van studenten met instructie-tekst Hulp bij maken van samenvattingen Binnen positioning: Relatief kleine, specifieke corpora Inhoudelijk ‘voorgeselecteerd’

Techniek: documentvectoren als basis C h i m p a n s ee A B GorillaGorilla C D

Latente Semantische Analyse Gebaseerd op singuliere waarde ontbinding Sterke gelijkenis met principale componenten analyse Symmetrische matrix M Eigenwaarden en eigenvectoren M = U Λ U’ Λ is diagonaalmatrix met geordende eigenwaarden Reproductie: verwijder kleinste eigenwaarden in Λ en kolomen en rijen in U en U’

Singuliere waardenontbinding (SVD) Asymmetrische matrix (data-matrix) D = L S R’ S is diagonaal met geordende singuliere waarden Aantal S > 0 is gelijk aantal dimensies van de matrix LSA: reproductie van matrix op basis van een model met minder dimensies Σ S 2 = Σ d 2

Een voorbeeld: 8 * 8 matrix

SVD in Excel

Onze context Datamatrix is Term*Document matrix met woordfrequenties in de cellen. Heel veel cellen bevatten nullen Voor een ijle matrijs (sparse matrix) geldt: Gemiddelde dicht bij nul Geringe variantie Cumulatieve waarden van S 2 zijn een goede benadering van de variantie ( Σ S 2 = Σ d 2)

Probleem Positioning vergt discrimineren tussen documenten Hoge correlaties in homogene verzameling Lage correlaties tussen homogene verzamelingen Stoppen en zo ja wat of hoeveel? Vind objectief criterium om aantal SW te bepalen: Meer is niet beter ! Literatuur: 300 of meer; hoogste correlatie Maximale discriminatie Proportie verklaarde variantie Betrouwbaarheid SW > 1

Experiment met aapcorpus Constructie corpus: Stoppen: 0, 30, 50 Stemmen Bepalen query-set: Gorilla Orang oetan Analyse

Analyses Correlatie: Binnen Q-set (gorilla, orang oetan): hoog  Homogene set Q met N-set: laag  Heterogene set  Correlaties kennen een optimum verschil: Correlaties Q-set hoog EN Correlaties N-set laag Als aantal sv toeneemt, dalen correlaties door toename ruis

Resultaten (1)

Resultaten (2)

Resultaten (3)

Conclusies De correlaties voor de Q-set zijn hoog Zonder stoppen zijn ze dat ook voor de N-set Dus: discrimineren lukt alleen onder stopping condities Correlaties dalen met het toenemen van het aantal SW

Discussie Waar zitten de gaten? Vind objectief criterium om aantal SW te bepalen: Literatuur: 300 of meer Maximale discriminatie Proportie verklaarde variantie Betrouwbaarheid SW > 1