Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven
Lexiconuitbreiding Doel: Reductie van het aantal OOV- woorden dmv: –opvangen van een aantal productieve woordvormingsprocessen –accurate inhoud van het herkennerslexicon
Woordvormingsprocessen Invoer: aantal woordonderdelen die al dan niet samen een woord kunnen vormen Regelgebaseerde aanpak Uitvoer: samenstelling + syntactische informatie over samenstelling
Woordvormingsprocessen: Invoer Uit woordlexicon (WL): volledige woorden die zowel alleen als in samenstellingen kunnen voorkomen Uit quasi-woordlexicon (QWL): ‘woorden’ die niet op zichzelf kunnen voorkomen, maar enkel als deel van een samenstelling (hersen, schaaps, kinder, zonne) 2 tem 5 woordonderdelen
Woordvormingsprocessen: Regels Tool voor woordvorming maakt gebruik van regels voor woordvorming vb: modifier (N) + head (N) compound (N) Invoer uit QWL: woord is N en kan enkel als modifier gelden Invoer uit WL: invoer wordt opgezocht in CGN. Syntactische info wordt gebruikt in regels
Woordvormingsprocessen: Regels (2) Regels gaan uit van 2 woordonderdelen Bij invoer van meer dan 2 woordonderdelen worden de regels recursief toegepast
Woordvormingsprocessen: Uitvoer Mogelijkheden voor uitvoer: –geen samenstelling mogelijk –samenstelling + syntactische informatie over samenstelling Er kan meer dan één hypothese gegenereerd worden over de syntactische informatie horende bij de samenstelling
Woordvormingsprocessen: Uitvoer (2) Gegenereerde samenstelling met POS wordt opgezocht in het volledige CGN-lexicon: –aanwezig: extra indicatie dat gegenereerde woord + syntactische informatie correct is –afwezig: indicatie dat gegenereerde woord niet correct is Informatie is relevant als er verschillende hypotheses gegenereerd worden
Woordvormingsprocessen: Software Voorlopig Perl-script beschikbaar dat samenstellingen genereert obv woordonderdelen en woordvormingsregels Databases voor script: CGN-lexicon, QWL, WL Documentatie bij Perl-script beschikbaar
Lexicon: Inhoud Vertrekpunt: CGN-lexicon ( entries) Reductie naar één entry per woordvorm per POS (rest: entries) Verwijdering van samenstellingen (behalve scheidbare werkwoorden) (rest: entries)
Lexicon: Inhoud (2) Volgende reductie (nog niet uitgevoerd) : scheidbare werkwoorden (rest ± ) Meest frequente entries worden geselecteerd om tot te komen (nog niet uitgevoerd) QWL: welke samenstellende delen komen niet voor in WL: 1000 entries
Lexicon: Accuraatheid Er gebeurt een zorgvuldige selectie van de woorden die tot het WL behoren: –geen samenstellingen –frequente woorden Organisatie van het herkennerslexicon: maximale toepasbaarheid van de regels door splitsing in WL en QWL
Verdere stappen Toevoeging van productiviteitsregels ivm suffixen en prefixen die voldoende akoestische info bevatten voor verdere lexiconreductie testen op een aantal teksten: hoe zit het met overgeneratie van samenstellingen finetuning van de regels obv testresultaten
Verdere stappen (2) Toevoegen van informatie in het lexicon om verfijning van regels mogelijk te maken: –statistische informatie –semantische informatie