De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Katrien Depuydt Track 3: Historische lexicondata.

Verwante presentaties


Presentatie over: "Katrien Depuydt Track 3: Historische lexicondata."— Transcript van de presentatie:

1 Katrien Depuydt Track 3: Historische lexicondata

2 Doel van track 3  Groot historisch computationeel lexicon, gekoppeld aan de historische woordenboeken  Trainingmateriaal voor PoS-taggen en lemmatiseren historisch Nederlands

3 Het historisch lexicon Opbouw:  Toekenning “modern lemma” en woordsoort aan alle woordvormen  Attestatie-informatie bij de woordvormen  Koppeling met de historische woordenboeken

4 Toepassingen van het historisch lexicon  Gebruik bij automatische taalkundige verrijking  Referentie bij interpretatie teksten  Query-expansie: er kan met modern lemma als zoeksleutel gezocht worden

5 Toepassingen van het historisch lexicon

6

7 Hoe bouwen we het  WNT-gebaseerd IMPACT lexicon wordt basis  Uitbreiding met gegevens uit ONW, VMNW, MNW  Onderlinge koppeling van de woordenboeken zodat we daadwerkelijk een lexicon krijgen  Uitbreiding gebaseerd op corpusmateriaal (historisch en modern)

8 Ingrediënten basislexicon  ONW : 9268 ingangen, 12619 definities, 30025 citaten  VMNW: 25946 ingangen, 102202 definities, 194366 citaten  MNW: 74773 ingangen, 144367 definities, 392244 citaten  WNT: 467217 ingangen, 915637 definities, 1665537 citaten  ingangen totaal: 577.204  betekenissen totaal: 1.174.825  citaten totaal: 2.282.172

9 Werkwijze: lexiconinhoud uit woordenboekcitaten

10 Uitgangspunt: WNT-module GiGaNT

11 Onderlinge koppeling woordenboeklemmata

12 Werkwijze: Corpusgebaseerde uitbreiding lexicon

13 Trainingmateriaal voor taggen en lemmatiseren  Omvang per periode en type materiaal: te bepalen!  Werkwijze: automatische voorbewerking en correctie in CoBaLT (vgl. Kenter, Erjavec, Ž orga Dulmin & Fiše 2012)  Integratie met basislexicon

14 Deliverables  D. 1.1 Uitbreiding van het GiGaNT-lexicon met de MNW- basismodule  D. 1.2 Uitbreding van het GiGaNT-lexicon met de VMNW- basismodule  D. 1.3 Uitbreiding van het GiGaNT-lexicon met de ONW- basismodule  D. 1.4 Eventueel uitbreiding van het GiGaNT-lexicon met modern materiaal  D. 1.5 Periodespecifieke sets van spellingvariatieregels die in combinatie met het lexicon als webservice gebruikt moeten worden bij de verrijking. Tool ontwikkeld binnen IMPACT. Onderzoek nodig naar grootte van de periode.  D. 1.6 Gold Standard corpusmateriaal voor het trainen van taggers en lemmatiseerders voor nog nader te definiëren periodes, en ter aanvulling van het lexiconmateriaal van de verschillende periodes.


Download ppt "Katrien Depuydt Track 3: Historische lexicondata."

Verwante presentaties


Ads door Google