28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx.

Slides:



Advertisements
Verwante presentaties
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Advertisements

Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.
30 mei 2012 Symposium Statistical Auditing Slide 1 Weerstandsvermogen: een model in de praktijk Norbert van Haaften (Deloitte - Data Analytics)
Statistiek HC1MBR Statistiek.
Efficiënt training, hoe doe ik dat?
Aanpassing Selectie beleid. Waarom aanpassingen in het huidige selectie beleid?
Thermische invloeden Prof. ir Nico Hendriks.
Methoden van Onderzoek
Jan Talmon Medische Informatica Universiteit Maastricht
Centrummaten gemiddelde
Geest, brein en cognitie Filosofie van de geest en Grondslagen van de cognitiewetenschap Fred Keijzer.
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Jaar 1 les 5 Het creatieve proces
Media en creativiteit Herfst les 7. Mindmapping Mindmapping is ontwikkeld door de psycholoog Tony Buzan. Hij paste mindmapping in een groter geheel van.
Voorspellende analyse
Eenvoudige data-analyse: beschrijvende statistische
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Kim J. H. Dirkx, Liesbeth Kester, Paul A. Kirschner
1 Complexiteit Bij motion planning is er sprake van drie typen van complexiteit –Complexiteit van de obstakels (aantal, aantal hoekpunten, algebraische.
Motion planning with complete knowledge using a colored SOM Jules Vleugels, Joost N. Kok, & Mark Overmars Presentatie: Richard Jacobs.
Gecombineerd onderwijs Gecombineerd onderwijs Studiedag Talen 19 maart 2010.
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
Aanpassing Selectie beleid
E XAMEN SAMENVATTEN 2010 II 1. Hoe luidt de beoordeling van de samenvatting? 2. Hoe ziet de samenvatting eruit?
Coachen Maandag 14 juni 2006.
Regel verschil Hoofdklasse en andere klassen Opfrissing bestaande regels spelregelbriefing seizoen
presentatie Acis onderhandelaarsakkoord cao-po
SCHAALVERGROTING EN LEIDERSCHAP: COMPLEX OF GECOMPLICEERD?
1 Week /01/ We naderen einde 2014!! En zijn onze economische analysen juist geweest voor 2014?? Helaas ja We hebben steeds gezegd.
Wat nostalgische plaatjes uit de begin jaren van de camping Bij elkaar gesprokkeld door Kees.
YASM- Advies in opleidingsinnovatie met ICT 11 januari E-learning vanuit onderwijskundig perspectief 27 mei 2002 Dr. Stanley J. Portier.
Mgr. Frencken College MaStage op het Frencken Maatschappelijke stage / MaS: is een manier van leren buiten de school, waarin je kennis maakt.
CAT Critical Appraisal of a Topic
 Opbouw van het MBO  Opbouw van het VMBO  OSB lessen
Pakketkeuzeavond 2GT 09 februari 2015
Inleiding in de statistiek voor de gedragswetenschappen
Opzetten van een Collectief Horeca Ontzeggingenbeleid
Rob Poels Heerhugowaard 30 januari 2015 Heeft de informatiemanager nog toekomst? Een verkenning.
29 november 2007 Protocol Toetsen en Beoordelen Onderdeel CHEMIE.
Handhavingsprogramma RO
Brussel, 13 maart 2014 Jaarresultaten Fier op onze resultaten Vertrouwen in de toekomst Brussel, 13 maart 2014.
Loopbaancoaching Voorstelling van raamplan
Waarom een zorgsysteem voor veteranen Veel gestelde vragen
Vier jaar Strategische Personeelsplanning Workshop A&O-fonds Waterschappen, 9 februari 2015.
SSC studentenverzekeringspakket Wie zijn wij? Wat doen wij Ons verzekeringspakket Persoonlijk Verzekeringspakket Vragen? Contact gegevens.
(Digitale Sociale Kaart- Veteranen)
DEEL 1 LES 4 De basis Les 4 Snijden versie
Vervolg C Hogeschool van Utrecht / Institute for Computer, Communication and Media Technology 1 Onderwerpen voor vandaag top-down decompositie Opdrachten:
Ladies at Science – wiskunde 29 april 2015
Allard Kamphuisen Hado van Hasselt Wilco Broeders
Hoofdstuk 5 Vijfkaart hoog, eerste verkenning 1e9 NdF-h1 NdF-h5 1 1.
Loopbaan oriëntatie en begeleiding
Kritisch denken ‘vertaald’
gespreksvaardigheden
CKO werkdag Halverwege de cyclus Kijken naar eigen werk en werk van anderen Aanpak uitwisselen Werkbladen maken in mixgroepen.
Wegwijs Groep 8 Thema 2Weer en verkeer Introductieles: 30 minuten Zelfstandig werken: 90 minuten Afsluiting: 30 minuten. presenteren.
Een vergadering organiseren
Psychologie Informatieverwerkingsproces
Het online opzetten, afnemen, beoordelen en verwerken van toetsen
Vergadering Personeelsdienst
Psychologie Informatieverwerkingsproces
Eenvoudige data-analyse: beschrijvende statistische
DEEL 1 LES 4 De basis Les 4 Snijden versie
Titel van wetenschappelijk project
Voorspellende analyse
Analyse jaarverslagen RvC
Maak Maar Duidelijk!.
Examen samenvatten 2010 II Hoe luidt de beoordeling van de samenvatting? Hoe ziet de samenvatting eruit?
Transcript van de presentatie:

Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx

Automatische onderwerpsontsluiting (inhoudelijke beschrijving van document) Waarom ontsluiten? Zoeken op descriptoren blijft belangrijk bij zoeken naar wetenschappelijke informatie. Waarom automatisch? Grote aantal beschikbare documenten maakt indexering door experts in de praktijk onmogelijk. Hoe? Met technieken uit het machineleren paradigma

Het machineleren paradigma “relaties leren a.d.h. van voorbeelden”

Verschillen aanpak menselijke expert en machineleren Menselijke expert Beschouwt een document om te bepalen wat de inhoud is. Gaat op zoek naar descriptoren die de inhoud het best typeren. Met combinaties van descriptoren probeert hij de inhoud vast te leggen. Nadruk op onderlinge verbanden descriptoren. Machineleren We werken met losse woorden uit documenten. Geen aandacht voor de betekenis van woorden (semantiek). Met een algoritme wordt een verband gelegd tussen woorden en een toegekende descriptor. Bij machineleren spelen relaties tussen descriptoren geen rol

Beperkingen van beide benaderingen Menselijke expert Inconsistentie. “Human error”. Machineleren Niet ontvankelijk voor nieuwe woorden in een document. Veronderstelt geen verbanden tussen descriptoren. Niet in staat nieuwe descriptoren te bedenken

Beoordeling van resultaten: Precisie De precisie is een maat voor de juistheid van het aantal door de classifier toegekende descriptoren. Stel: de classifier voor een descriptor kent aan 100 documenten de descriptor toe. In 85 gevallen is dit in overeenstemming met het oordeel van de expert. De precisie is dan 0,

Beoordeling van de resultaten: Recall De recall is een maat waarmee wordt aangegeven in hoeveel van de door de experts toegekende gevallen de classifier deze ook toekent. Stel: in een verzameling documenten heeft de expert aan 100 documenten een bepaalde descriptor toegekend. Van deze 100 gevallen kent de classifier aan 30 de descriptor ook toe. De recall is dan 0,

Is automatische ontsluiting nu ook mogelijk? Uit dit onderzoek blijkt dat: Precisie is goed. Recall is redelijk tot slecht. Prestaties zijn: Afhankelijk van de methode (LC of SVM). Afhankelijk van het aantal keren dat de descriptor voorkomt in de trainingsverzameling. Afhankelijk van de documentrepresentatie (bin, tf, tf×idf)

9 Stappen in het onderzoek Documenten verdelen in trainingsset en testset. Vectoriseren van documenten. Trainingsfase (ontwikkelen van een classifier) Testfase (testen van de classifier)

Documenten verdelen in trainingsverzameling en testverzameling. Selectie descriptoren de trainingsverzameling: jaargang 1990, documenten. de testverzameling: jaargang 1991, documenten. 264 descriptoren geselecteerd uit een totaal van ongeveer (Medical Subject Headings)

Vectoriseren van documenten Binaire codering Termfrequenties Termfrequenties * Inverse document frequentie

Voorbeeld voor termfrequentie D1 : Kunst in de gemeente Schoonhoven : een nieuwe lente, een nieuw geluid. D2 : Architectuur in een nieuw jasje : Schoonhoven, een gemeente in ontwikkeling. D3 : Architectuur en Kunst in de gemeente Amsterdam, een nieuwe ontwikkeling

termfrequenties worden genormaliseerd tot waarden tussen 0 en

Trainingsfase

Documentvectoren met toegekende descriptor c

Documentvectoren met toegekende descriptor c

Testfase Classifier C

Testfase Classifier C

Het ontwikkelen van een classifier Documenten worden weergegeven als punten in een n- dimensionale ruimte. We willen in deze ruimte een scheiding aanbrengen tussen documenten gelabeld met een descriptor en de overige documenten (hypervlak met dimensie n-1). We bepalen criteria waarom het ene hypervlak beter voldoet dan het andere

Documenten weergegeven in een driedimensionale ruimte (3 termen)

Documenten d 2 en d 5 gescheiden van de andere door een scheidingsvlak

Maar ook dit vlak scheidt de documenten d 2 en d 5 van de rest

Resultaten onderzoek

Enkele merkwaardige resultaten

Uit veel onderzoek is gebleken dat dit kan

Maar kan dit ook?

In dit onderzoek is getracht dat op deze manier te doen

Conclusie. Mogelijke aanzet tot een vervolgonderzoek Stapsgewijze, hiërarchische, benadering gedurende de trainingsfase. Classificatie aan de hand van een beslissingsboom gedurende de testfase of de gebruiksfase

Hiërarchische benadering

Einde van de presentatie Maarten Luykx Studentnummer: