De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.

Verwante presentaties


Presentatie over: "Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven."— Transcript van de presentatie:

1 Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven

2 Lexiconuitbreiding Doel: Reductie van het aantal OOV- woorden dmv: –opvangen van een aantal productieve woordvormingsprocessen –accurate inhoud van het herkennerslexicon

3 Woordvormingsprocessen Invoer: aantal woordonderdelen die al dan niet samen een woord kunnen vormen Regelgebaseerde aanpak Uitvoer: samenstelling + syntactische informatie over samenstelling

4 Woordvormingsprocessen: Invoer Uit woordlexicon (WL): volledige woorden die zowel alleen als in samenstellingen kunnen voorkomen Uit quasi-woordlexicon (QWL): ‘woorden’ die niet op zichzelf kunnen voorkomen, maar enkel als deel van een samenstelling (hersen, schaaps, kinder, zonne) 2 tem 5 woordonderdelen

5 Woordvormingsprocessen: Regels Tool voor woordvorming maakt gebruik van regels voor woordvorming vb: modifier (N) + head (N)  compound (N) Invoer uit QWL: woord is N en kan enkel als modifier gelden Invoer uit WL: invoer wordt opgezocht in CGN. Syntactische info wordt gebruikt in regels

6 Woordvormingsprocessen: Regels (2) Regels gaan uit van 2 woordonderdelen Bij invoer van meer dan 2 woordonderdelen worden de regels recursief toegepast

7 Woordvormingsprocessen: Uitvoer Mogelijkheden voor uitvoer: –geen samenstelling mogelijk –samenstelling + syntactische informatie over samenstelling Er kan meer dan één hypothese gegenereerd worden over de syntactische informatie horende bij de samenstelling

8 Woordvormingsprocessen: Uitvoer (2) Gegenereerde samenstelling met POS wordt opgezocht in het volledige CGN-lexicon: –aanwezig: extra indicatie dat gegenereerde woord + syntactische informatie correct is –afwezig: indicatie dat gegenereerde woord niet correct is Informatie is relevant als er verschillende hypotheses gegenereerd worden

9 Woordvormingsprocessen: Software Voorlopig Perl-script beschikbaar dat samenstellingen genereert obv woordonderdelen en woordvormingsregels Databases voor script: CGN-lexicon, QWL, WL Documentatie bij Perl-script beschikbaar

10 Lexicon: Inhoud Vertrekpunt: CGN-lexicon (570.000 entries) Reductie naar één entry per woordvorm per POS (rest: 300.000 entries) Verwijdering van samenstellingen (behalve scheidbare werkwoorden) (rest:200.000 entries)

11 Lexicon: Inhoud (2) Volgende reductie (nog niet uitgevoerd) : scheidbare werkwoorden (rest ±160.000) Meest frequente entries worden geselecteerd om tot 40.000 te komen (nog niet uitgevoerd) QWL: welke samenstellende delen komen niet voor in WL: 1000 entries

12 Lexicon: Accuraatheid Er gebeurt een zorgvuldige selectie van de woorden die tot het WL behoren: –geen samenstellingen –frequente woorden Organisatie van het herkennerslexicon: maximale toepasbaarheid van de regels door splitsing in WL en QWL

13 Verdere stappen Toevoeging van productiviteitsregels ivm suffixen en prefixen die voldoende akoestische info bevatten voor verdere lexiconreductie testen op een aantal teksten: hoe zit het met overgeneratie van samenstellingen finetuning van de regels obv testresultaten

14 Verdere stappen (2) Toevoegen van informatie in het lexicon om verfijning van regels mogelijk te maken: –statistische informatie –semantische informatie


Download ppt "Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven."

Verwante presentaties


Ads door Google