Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx
Automatische onderwerpsontsluiting (inhoudelijke beschrijving van document) Waarom ontsluiten? Zoeken op descriptoren blijft belangrijk bij zoeken naar wetenschappelijke informatie. Waarom automatisch? Grote aantal beschikbare documenten maakt indexering door experts in de praktijk onmogelijk. Hoe? Met technieken uit het machineleren paradigma
Het machineleren paradigma “relaties leren a.d.h. van voorbeelden”
Verschillen aanpak menselijke expert en machineleren Menselijke expert Beschouwt een document om te bepalen wat de inhoud is. Gaat op zoek naar descriptoren die de inhoud het best typeren. Met combinaties van descriptoren probeert hij de inhoud vast te leggen. Nadruk op onderlinge verbanden descriptoren. Machineleren We werken met losse woorden uit documenten. Geen aandacht voor de betekenis van woorden (semantiek). Met een algoritme wordt een verband gelegd tussen woorden en een toegekende descriptor. Bij machineleren spelen relaties tussen descriptoren geen rol
Beperkingen van beide benaderingen Menselijke expert Inconsistentie. “Human error”. Machineleren Niet ontvankelijk voor nieuwe woorden in een document. Veronderstelt geen verbanden tussen descriptoren. Niet in staat nieuwe descriptoren te bedenken
Beoordeling van resultaten: Precisie De precisie is een maat voor de juistheid van het aantal door de classifier toegekende descriptoren. Stel: de classifier voor een descriptor kent aan 100 documenten de descriptor toe. In 85 gevallen is dit in overeenstemming met het oordeel van de expert. De precisie is dan 0,
Beoordeling van de resultaten: Recall De recall is een maat waarmee wordt aangegeven in hoeveel van de door de experts toegekende gevallen de classifier deze ook toekent. Stel: in een verzameling documenten heeft de expert aan 100 documenten een bepaalde descriptor toegekend. Van deze 100 gevallen kent de classifier aan 30 de descriptor ook toe. De recall is dan 0,
Is automatische ontsluiting nu ook mogelijk? Uit dit onderzoek blijkt dat: Precisie is goed. Recall is redelijk tot slecht. Prestaties zijn: Afhankelijk van de methode (LC of SVM). Afhankelijk van het aantal keren dat de descriptor voorkomt in de trainingsverzameling. Afhankelijk van de documentrepresentatie (bin, tf, tf×idf)
9 Stappen in het onderzoek Documenten verdelen in trainingsset en testset. Vectoriseren van documenten. Trainingsfase (ontwikkelen van een classifier) Testfase (testen van de classifier)
Documenten verdelen in trainingsverzameling en testverzameling. Selectie descriptoren de trainingsverzameling: jaargang 1990, documenten. de testverzameling: jaargang 1991, documenten. 264 descriptoren geselecteerd uit een totaal van ongeveer (Medical Subject Headings)
Vectoriseren van documenten Binaire codering Termfrequenties Termfrequenties * Inverse document frequentie
Voorbeeld voor termfrequentie D1 : Kunst in de gemeente Schoonhoven : een nieuwe lente, een nieuw geluid. D2 : Architectuur in een nieuw jasje : Schoonhoven, een gemeente in ontwikkeling. D3 : Architectuur en Kunst in de gemeente Amsterdam, een nieuwe ontwikkeling
termfrequenties worden genormaliseerd tot waarden tussen 0 en
Trainingsfase
Documentvectoren met toegekende descriptor c
Documentvectoren met toegekende descriptor c
Testfase Classifier C
Testfase Classifier C
Het ontwikkelen van een classifier Documenten worden weergegeven als punten in een n- dimensionale ruimte. We willen in deze ruimte een scheiding aanbrengen tussen documenten gelabeld met een descriptor en de overige documenten (hypervlak met dimensie n-1). We bepalen criteria waarom het ene hypervlak beter voldoet dan het andere
Documenten weergegeven in een driedimensionale ruimte (3 termen)
Documenten d 2 en d 5 gescheiden van de andere door een scheidingsvlak
Maar ook dit vlak scheidt de documenten d 2 en d 5 van de rest
Resultaten onderzoek
Enkele merkwaardige resultaten
Uit veel onderzoek is gebleken dat dit kan
Maar kan dit ook?
In dit onderzoek is getracht dat op deze manier te doen
Conclusie. Mogelijke aanzet tot een vervolgonderzoek Stapsgewijze, hiërarchische, benadering gedurende de trainingsfase. Classificatie aan de hand van een beslissingsboom gedurende de testfase of de gebruiksfase
Hiërarchische benadering
Einde van de presentatie Maarten Luykx Studentnummer: