28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx.

28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx

Automatische onderwerpsontsluiting (inhoudelijke beschrijving van document) Waarom ontsluiten? Zoeken op descriptoren blijft belangrijk bij zoeken naar wetenschappelijke informatie. Waarom automatisch? Grote aantal beschikbare documenten maakt indexering door experts in de praktijk onmogelijk. Hoe? Met technieken uit het machineleren paradigma. 28-3-20152

Het machineleren paradigma “relaties leren a.d.h. van voorbeelden” 28-3-20153

Verschillen aanpak menselijke expert en machineleren Menselijke expert Beschouwt een document om te bepalen wat de inhoud is. Gaat op zoek naar descriptoren die de inhoud het best typeren. Met combinaties van descriptoren probeert hij de inhoud vast te leggen. Nadruk op onderlinge verbanden descriptoren. Machineleren We werken met losse woorden uit documenten. Geen aandacht voor de betekenis van woorden (semantiek). Met een algoritme wordt een verband gelegd tussen woorden en een toegekende descriptor. Bij machineleren spelen relaties tussen descriptoren geen rol. 28-3-20154

Beperkingen van beide benaderingen Menselijke expert Inconsistentie. “Human error”. Machineleren Niet ontvankelijk voor nieuwe woorden in een document. Veronderstelt geen verbanden tussen descriptoren. Niet in staat nieuwe descriptoren te bedenken. 28-3-20155

Beoordeling van resultaten: Precisie De precisie is een maat voor de juistheid van het aantal door de classifier toegekende descriptoren. Stel: de classifier voor een descriptor kent aan 100 documenten de descriptor toe. In 85 gevallen is dit in overeenstemming met het oordeel van de expert. De precisie is dan 0,85 28-3-20156

Beoordeling van de resultaten: Recall De recall is een maat waarmee wordt aangegeven in hoeveel van de door de experts toegekende gevallen de classifier deze ook toekent. Stel: in een verzameling documenten heeft de expert aan 100 documenten een bepaalde descriptor toegekend. Van deze 100 gevallen kent de classifier aan 30 de descriptor ook toe. De recall is dan 0,30 28-3-20157

Is automatische ontsluiting nu ook mogelijk? Uit dit onderzoek blijkt dat: Precisie is goed. Recall is redelijk tot slecht. Prestaties zijn: Afhankelijk van de methode (LC of SVM). Afhankelijk van het aantal keren dat de descriptor voorkomt in de trainingsverzameling. Afhankelijk van de documentrepresentatie (bin, tf, tf×idf). 28-3-20158

9 Stappen in het onderzoek Documenten verdelen in trainingsset en testset. Vectoriseren van documenten. Trainingsfase (ontwikkelen van een classifier) Testfase (testen van de classifier)

Documenten verdelen in trainingsverzameling en testverzameling. Selectie descriptoren de trainingsverzameling: jaargang 1990, 49.478 documenten. de testverzameling: jaargang 1991, 50.208 documenten. 264 descriptoren geselecteerd uit een totaal van ongeveer 12.000. (Medical Subject Headings) 28-3-201510

Vectoriseren van documenten Binaire codering Termfrequenties Termfrequenties * Inverse document frequentie 28-3-201511

Voorbeeld voor termfrequentie D1 : Kunst in de gemeente Schoonhoven : een nieuwe lente, een nieuw geluid. D2 : Architectuur in een nieuw jasje : Schoonhoven, een gemeente in ontwikkeling. D3 : Architectuur en Kunst in de gemeente Amsterdam, een nieuwe ontwikkeling. 28-3-201512

termfrequenties worden genormaliseerd tot waarden tussen 0 en 1 28-3-201513

Trainingsfase 28-3-201514

Documentvectoren met toegekende descriptor c 1 28-3-201515

Documentvectoren met toegekende descriptor c 2 28-3-201516

Testfase Classifier C 1 28-3-201517

Testfase Classifier C 2 28-3-201518

Het ontwikkelen van een classifier Documenten worden weergegeven als punten in een n- dimensionale ruimte. We willen in deze ruimte een scheiding aanbrengen tussen documenten gelabeld met een descriptor en de overige documenten (hypervlak met dimensie n-1). We bepalen criteria waarom het ene hypervlak beter voldoet dan het andere. 28-3-201519

Documenten weergegeven in een driedimensionale ruimte (3 termen) 28-3-201520

28-3-201521 Documenten d 2 en d 5 gescheiden van de andere door een scheidingsvlak

Maar ook dit vlak scheidt de documenten d 2 en d 5 van de rest. 28-3-201522

Resultaten onderzoek 28-3-201523

Enkele merkwaardige resultaten 28-3-201524

Uit veel onderzoek is gebleken dat dit kan. 28-3-201525

Maar kan dit ook? 28-3-201526

In dit onderzoek is getracht dat op deze manier te doen. 28-3-201527

Conclusie. Mogelijke aanzet tot een vervolgonderzoek Stapsgewijze, hiërarchische, benadering gedurende de trainingsfase. Classificatie aan de hand van een beslissingsboom gedurende de testfase of de gebruiksfase. 28-3-201528

Hiërarchische benadering 28-3-201529

Einde van de presentatie Maarten Luykx Studentnummer: 833223342 28-3-201530

28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx.

Verwante presentaties

Presentatie over: "28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx.

Verwante presentaties

Presentatie over: "28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback