De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx.

Verwante presentaties


Presentatie over: "28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx."— Transcript van de presentatie:

1 28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx

2 Automatische onderwerpsontsluiting (inhoudelijke beschrijving van document) Waarom ontsluiten? Zoeken op descriptoren blijft belangrijk bij zoeken naar wetenschappelijke informatie. Waarom automatisch? Grote aantal beschikbare documenten maakt indexering door experts in de praktijk onmogelijk. Hoe? Met technieken uit het machineleren paradigma. 28-3-20152

3 Het machineleren paradigma “relaties leren a.d.h. van voorbeelden” 28-3-20153

4 Verschillen aanpak menselijke expert en machineleren Menselijke expert Beschouwt een document om te bepalen wat de inhoud is. Gaat op zoek naar descriptoren die de inhoud het best typeren. Met combinaties van descriptoren probeert hij de inhoud vast te leggen. Nadruk op onderlinge verbanden descriptoren. Machineleren We werken met losse woorden uit documenten. Geen aandacht voor de betekenis van woorden (semantiek). Met een algoritme wordt een verband gelegd tussen woorden en een toegekende descriptor. Bij machineleren spelen relaties tussen descriptoren geen rol. 28-3-20154

5 Beperkingen van beide benaderingen Menselijke expert Inconsistentie. “Human error”. Machineleren Niet ontvankelijk voor nieuwe woorden in een document. Veronderstelt geen verbanden tussen descriptoren. Niet in staat nieuwe descriptoren te bedenken. 28-3-20155

6 Beoordeling van resultaten: Precisie De precisie is een maat voor de juistheid van het aantal door de classifier toegekende descriptoren. Stel: de classifier voor een descriptor kent aan 100 documenten de descriptor toe. In 85 gevallen is dit in overeenstemming met het oordeel van de expert. De precisie is dan 0,85 28-3-20156

7 Beoordeling van de resultaten: Recall De recall is een maat waarmee wordt aangegeven in hoeveel van de door de experts toegekende gevallen de classifier deze ook toekent. Stel: in een verzameling documenten heeft de expert aan 100 documenten een bepaalde descriptor toegekend. Van deze 100 gevallen kent de classifier aan 30 de descriptor ook toe. De recall is dan 0,30 28-3-20157

8 Is automatische ontsluiting nu ook mogelijk? Uit dit onderzoek blijkt dat: Precisie is goed. Recall is redelijk tot slecht. Prestaties zijn: Afhankelijk van de methode (LC of SVM). Afhankelijk van het aantal keren dat de descriptor voorkomt in de trainingsverzameling. Afhankelijk van de documentrepresentatie (bin, tf, tf×idf). 28-3-20158

9 9 Stappen in het onderzoek Documenten verdelen in trainingsset en testset. Vectoriseren van documenten. Trainingsfase (ontwikkelen van een classifier) Testfase (testen van de classifier)

10 Documenten verdelen in trainingsverzameling en testverzameling. Selectie descriptoren de trainingsverzameling: jaargang 1990, 49.478 documenten. de testverzameling: jaargang 1991, 50.208 documenten. 264 descriptoren geselecteerd uit een totaal van ongeveer 12.000. (Medical Subject Headings) 28-3-201510

11 Vectoriseren van documenten Binaire codering Termfrequenties Termfrequenties * Inverse document frequentie 28-3-201511

12 Voorbeeld voor termfrequentie D1 : Kunst in de gemeente Schoonhoven : een nieuwe lente, een nieuw geluid. D2 : Architectuur in een nieuw jasje : Schoonhoven, een gemeente in ontwikkeling. D3 : Architectuur en Kunst in de gemeente Amsterdam, een nieuwe ontwikkeling. 28-3-201512

13 termfrequenties worden genormaliseerd tot waarden tussen 0 en 1 28-3-201513

14 Trainingsfase 28-3-201514

15 Documentvectoren met toegekende descriptor c 1 28-3-201515

16 Documentvectoren met toegekende descriptor c 2 28-3-201516

17 Testfase Classifier C 1 28-3-201517

18 Testfase Classifier C 2 28-3-201518

19 Het ontwikkelen van een classifier Documenten worden weergegeven als punten in een n- dimensionale ruimte. We willen in deze ruimte een scheiding aanbrengen tussen documenten gelabeld met een descriptor en de overige documenten (hypervlak met dimensie n-1). We bepalen criteria waarom het ene hypervlak beter voldoet dan het andere. 28-3-201519

20 Documenten weergegeven in een driedimensionale ruimte (3 termen) 28-3-201520

21 28-3-201521 Documenten d 2 en d 5 gescheiden van de andere door een scheidingsvlak

22 Maar ook dit vlak scheidt de documenten d 2 en d 5 van de rest. 28-3-201522

23 Resultaten onderzoek 28-3-201523

24 Enkele merkwaardige resultaten 28-3-201524

25 Uit veel onderzoek is gebleken dat dit kan. 28-3-201525

26 Maar kan dit ook? 28-3-201526

27 In dit onderzoek is getracht dat op deze manier te doen. 28-3-201527

28 Conclusie. Mogelijke aanzet tot een vervolgonderzoek Stapsgewijze, hiërarchische, benadering gedurende de trainingsfase. Classificatie aan de hand van een beslissingsboom gedurende de testfase of de gebruiksfase. 28-3-201528

29 Hiërarchische benadering 28-3-201529

30 Einde van de presentatie Maarten Luykx Studentnummer: 833223342 28-3-201530


Download ppt "28-3-20151 Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx."

Verwante presentaties


Ads door Google