Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdEmma Janssen Laatst gewijzigd meer dan 9 jaar geleden
1
28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx
2
Automatische onderwerpsontsluiting (inhoudelijke beschrijving van document) Waarom ontsluiten? Zoeken op descriptoren blijft belangrijk bij zoeken naar wetenschappelijke informatie. Waarom automatisch? Grote aantal beschikbare documenten maakt indexering door experts in de praktijk onmogelijk. Hoe? Met technieken uit het machineleren paradigma. 28-3-20152
3
Het machineleren paradigma “relaties leren a.d.h. van voorbeelden” 28-3-20153
4
Verschillen aanpak menselijke expert en machineleren Menselijke expert Beschouwt een document om te bepalen wat de inhoud is. Gaat op zoek naar descriptoren die de inhoud het best typeren. Met combinaties van descriptoren probeert hij de inhoud vast te leggen. Nadruk op onderlinge verbanden descriptoren. Machineleren We werken met losse woorden uit documenten. Geen aandacht voor de betekenis van woorden (semantiek). Met een algoritme wordt een verband gelegd tussen woorden en een toegekende descriptor. Bij machineleren spelen relaties tussen descriptoren geen rol. 28-3-20154
5
Beperkingen van beide benaderingen Menselijke expert Inconsistentie. “Human error”. Machineleren Niet ontvankelijk voor nieuwe woorden in een document. Veronderstelt geen verbanden tussen descriptoren. Niet in staat nieuwe descriptoren te bedenken. 28-3-20155
6
Beoordeling van resultaten: Precisie De precisie is een maat voor de juistheid van het aantal door de classifier toegekende descriptoren. Stel: de classifier voor een descriptor kent aan 100 documenten de descriptor toe. In 85 gevallen is dit in overeenstemming met het oordeel van de expert. De precisie is dan 0,85 28-3-20156
7
Beoordeling van de resultaten: Recall De recall is een maat waarmee wordt aangegeven in hoeveel van de door de experts toegekende gevallen de classifier deze ook toekent. Stel: in een verzameling documenten heeft de expert aan 100 documenten een bepaalde descriptor toegekend. Van deze 100 gevallen kent de classifier aan 30 de descriptor ook toe. De recall is dan 0,30 28-3-20157
8
Is automatische ontsluiting nu ook mogelijk? Uit dit onderzoek blijkt dat: Precisie is goed. Recall is redelijk tot slecht. Prestaties zijn: Afhankelijk van de methode (LC of SVM). Afhankelijk van het aantal keren dat de descriptor voorkomt in de trainingsverzameling. Afhankelijk van de documentrepresentatie (bin, tf, tf×idf). 28-3-20158
9
9 Stappen in het onderzoek Documenten verdelen in trainingsset en testset. Vectoriseren van documenten. Trainingsfase (ontwikkelen van een classifier) Testfase (testen van de classifier)
10
Documenten verdelen in trainingsverzameling en testverzameling. Selectie descriptoren de trainingsverzameling: jaargang 1990, 49.478 documenten. de testverzameling: jaargang 1991, 50.208 documenten. 264 descriptoren geselecteerd uit een totaal van ongeveer 12.000. (Medical Subject Headings) 28-3-201510
11
Vectoriseren van documenten Binaire codering Termfrequenties Termfrequenties * Inverse document frequentie 28-3-201511
12
Voorbeeld voor termfrequentie D1 : Kunst in de gemeente Schoonhoven : een nieuwe lente, een nieuw geluid. D2 : Architectuur in een nieuw jasje : Schoonhoven, een gemeente in ontwikkeling. D3 : Architectuur en Kunst in de gemeente Amsterdam, een nieuwe ontwikkeling. 28-3-201512
13
termfrequenties worden genormaliseerd tot waarden tussen 0 en 1 28-3-201513
14
Trainingsfase 28-3-201514
15
Documentvectoren met toegekende descriptor c 1 28-3-201515
16
Documentvectoren met toegekende descriptor c 2 28-3-201516
17
Testfase Classifier C 1 28-3-201517
18
Testfase Classifier C 2 28-3-201518
19
Het ontwikkelen van een classifier Documenten worden weergegeven als punten in een n- dimensionale ruimte. We willen in deze ruimte een scheiding aanbrengen tussen documenten gelabeld met een descriptor en de overige documenten (hypervlak met dimensie n-1). We bepalen criteria waarom het ene hypervlak beter voldoet dan het andere. 28-3-201519
20
Documenten weergegeven in een driedimensionale ruimte (3 termen) 28-3-201520
21
28-3-201521 Documenten d 2 en d 5 gescheiden van de andere door een scheidingsvlak
22
Maar ook dit vlak scheidt de documenten d 2 en d 5 van de rest. 28-3-201522
23
Resultaten onderzoek 28-3-201523
24
Enkele merkwaardige resultaten 28-3-201524
25
Uit veel onderzoek is gebleken dat dit kan. 28-3-201525
26
Maar kan dit ook? 28-3-201526
27
In dit onderzoek is getracht dat op deze manier te doen. 28-3-201527
28
Conclusie. Mogelijke aanzet tot een vervolgonderzoek Stapsgewijze, hiërarchische, benadering gedurende de trainingsfase. Classificatie aan de hand van een beslissingsboom gedurende de testfase of de gebruiksfase. 28-3-201528
29
Hiërarchische benadering 28-3-201529
30
Einde van de presentatie Maarten Luykx Studentnummer: 833223342 28-3-201530
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.