Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.

Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven

Lexiconuitbreiding Doel: Reductie van het aantal OOV- woorden dmv: –opvangen van een aantal productieve woordvormingsprocessen –accurate inhoud van het herkennerslexicon

Woordvormingsprocessen Invoer: aantal woordonderdelen die al dan niet samen een woord kunnen vormen Regelgebaseerde aanpak Uitvoer: samenstelling + syntactische informatie over samenstelling

Woordvormingsprocessen: Invoer Uit woordlexicon (WL): volledige woorden die zowel alleen als in samenstellingen kunnen voorkomen Uit quasi-woordlexicon (QWL): ‘woorden’ die niet op zichzelf kunnen voorkomen, maar enkel als deel van een samenstelling (hersen, schaaps, kinder, zonne) 2 tem 5 woordonderdelen

Woordvormingsprocessen: Regels Tool voor woordvorming maakt gebruik van regels voor woordvorming vb: modifier (N) + head (N)  compound (N) Invoer uit QWL: woord is N en kan enkel als modifier gelden Invoer uit WL: invoer wordt opgezocht in CGN. Syntactische info wordt gebruikt in regels

Woordvormingsprocessen: Regels (2) Regels gaan uit van 2 woordonderdelen Bij invoer van meer dan 2 woordonderdelen worden de regels recursief toegepast

Woordvormingsprocessen: Uitvoer Mogelijkheden voor uitvoer: –geen samenstelling mogelijk –samenstelling + syntactische informatie over samenstelling Er kan meer dan één hypothese gegenereerd worden over de syntactische informatie horende bij de samenstelling

Woordvormingsprocessen: Uitvoer (2) Gegenereerde samenstelling met POS wordt opgezocht in het volledige CGN-lexicon: –aanwezig: extra indicatie dat gegenereerde woord + syntactische informatie correct is –afwezig: indicatie dat gegenereerde woord niet correct is Informatie is relevant als er verschillende hypotheses gegenereerd worden

Woordvormingsprocessen: Software Voorlopig Perl-script beschikbaar dat samenstellingen genereert obv woordonderdelen en woordvormingsregels Databases voor script: CGN-lexicon, QWL, WL Documentatie bij Perl-script beschikbaar

Lexicon: Inhoud Vertrekpunt: CGN-lexicon (570.000 entries) Reductie naar één entry per woordvorm per POS (rest: 300.000 entries) Verwijdering van samenstellingen (behalve scheidbare werkwoorden) (rest:200.000 entries)

Lexicon: Inhoud (2) Volgende reductie (nog niet uitgevoerd) : scheidbare werkwoorden (rest ±160.000) Meest frequente entries worden geselecteerd om tot 40.000 te komen (nog niet uitgevoerd) QWL: welke samenstellende delen komen niet voor in WL: 1000 entries

Lexicon: Accuraatheid Er gebeurt een zorgvuldige selectie van de woorden die tot het WL behoren: –geen samenstellingen –frequente woorden Organisatie van het herkennerslexicon: maximale toepasbaarheid van de regels door splitsing in WL en QWL

Verdere stappen Toevoeging van productiviteitsregels ivm suffixen en prefixen die voldoende akoestische info bevatten voor verdere lexiconreductie testen op een aantal teksten: hoe zit het met overgeneratie van samenstellingen finetuning van de regels obv testresultaten

Verdere stappen (2) Toevoegen van informatie in het lexicon om verfijning van regels mogelijk te maken: –statistische informatie –semantische informatie

Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.

Verwante presentaties

Presentatie over: "Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.

Verwante presentaties

Presentatie over: "Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback