Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.

Slides:



Advertisements
Verwante presentaties
Stefan van Seters Projectmanager NV REWIN
Advertisements

Inclusieve Kinderopvang De Vlaamse Beleidsaanpak.
On-line toevoeging, annulering en wijziging van fiches. Algemene beschrijving van de functionaliteit Als er wijzigingen moeten aangebracht worden aan fiches.
In aanvulling op het gemeentelijk HORECA-reglement
“Ontwerp een eigen school” Leerarrangement KC Macht en Regels
Pilot Loondispensatie Oktober •Aanleiding aanmelding / deelname pilot •Doelgroep •Toegangstoets •Uitgangspunten - ontwikkelingen •Huidige status.
Van uitleggen leer je het meest
3-jarigen in het basisonderwijs
Illegale en criminele praktijken in de woningsector
Practica Computerlinguistiek Tekst en uitleg:
Aandachtspunten Voldoende en duidelijke informatie
EconLit Zoeken op auteur met samengestelde naam Universiteitsbibliotheek verder = klikken.
Een aankoop boeken Vanuit het modulescherm, tab ‘Boekhouden’, gaat u naar het gewenste aankopendagboek. Link \ Manage © / 14.
C-DSD: Curating the Dutch Song Database (Nederlandse Liederenbank) C-DSD Martine de Bruin.
MARKETINGCOMMUNICATIE
Aanpassing van linguïstische modules voor ondertiteling Beschrijving en Evaluatie van de huidige zinsreductiesoftware.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 4 mei 2004 Modellering van spontane spraak Jacques Duchateau
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 22 oktober 2003 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
Statistische Taalmodellen voor Spontane Spraak
Prosodie.
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
Processing Unknown Words Wouter Schellekens Merlijn Hutteman.
Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)
1. Parsing (epsilon’s, tabellen) 2. Unificatie grammatica Natuurlijke taalverwerking week 7.
Natuurlijke Taalverwerking
Digitale Bibliotheek Eigen selectie van databases bewaren Universiteitsbibliotheek verder = klikken.
ZW : trillingen 6 WW.
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
© Significant Meten met de CQ-index Klantervaring telt, 24 april 2007, Rotterdam.
Hoofdstuk 16 en 19 PHP en MYSQL
Aanpak van lees- en spellingproblemen in de school
Deel XXI 1 Internetapplicaties Internetprogrammeren Capita Selecta.
De regeling Praktijkleren
Scriptieseminarie 3 Methode – Experimenteel onderzoek
Startersleningen zijn door veel gemeenten in het leven geroepen om de bereikbaarheid van koopwoningen te vergroten voor met name de starters op de woningmarkt.
WERKWOORDSPELLING Hoe doe je dat ?.
Handboek verzenden van Nieuwsbrief Caribbean.nl 12 september 2012 Ga naar CRM Personen Kies Open zoekvraag.
Sociological Abstracts Zoeken op auteur met samengestelde naam Universiteitsbibliotheek verder = klikken.
Presentatie Gemeenteraad
Feedback Wat Soorten Door wie
Mailen van documenten Software that makes life easy …
1. Starten Zet de telefoon aan en voer je pin code in Als dit scherm verschijnt klik dan vervolgens op de Boordcomputer Icoon 2.1 Inloggen Log in door.
Opgave Vertaling Filtering. Babelfish Webservice Context Werkwoorden Plaatsnamen & onbekende woorden Taaldetectie.
Inloggen >> Gegevensaanlevering en controle in Peridos In Release 3.3 van Peridos is er een nieuwe module gebouwd voor het aanleveren en bekijken van gegevens.
Daar had ik niet op gerekend! -over de relatie tussen motorische en rekenproblemen- Stefanie Pieters Promotoren: Prof. dr. Annemie Desoete, Prof. dr. Herbert.
1 van 10 Hoofdstuk 4 Woordenschatonderwijs. 2 van 10 Woordenschat Vormaspecten o enkelvoudige woorden o samenstellingen o afleidingen o uitgangen (vervoegingen.
Ondersteuning signalering kindermishandeling en implementatie kindcheck middels een NHGDoc alert. AchtergrondNHGDoc ONDERZOEKSVRAAG: Welke oudersignalen.
De definitie van een object. Een object is een verzameling van eigenschappen en bewerkingen. Veel voorkomende objecten zijn: D (display) Gui (user interface)
RNA-Seq data-analyse pipeline integratie in GALAXY Van Middelem Robin.
Via TEGELS | ZETTEN is de tegel Browser te openen. ( B )
Voor bibliotheken. Training AquaBrowser Zoetermeer, 20 mei 2010.
Zoeken op internet
SNEL VAN START MET DE MJO-applicatie VAN BOUWKOSTEN.NL
KRITISCH DENKEN 10 Co-premissen I © Kritisch Denken.
On-line toevoeging, annulering en wijziging van fiches.
SNEL VAN START MET DE MJO-applicatie VAN GWWkosten.nl
Standaard Toepasbare Regels Introductie
Syntactische Annotatie CHILDES
Aura Software: meer dan 25 jaar thuis in schoolbibliotheken
Aura Software: meer dan 25 jaar thuis in schoolmediatheken
Grafiek Generator Monitor de Bibliotheek op school
Testen in MISUT Onderwijs
Praegus B.V.. .
Flitsbijeenkomsten November 2016 Ernie Schouten Harco Weemink
Nederlands 4h6 30/12/18
COMMISSIE CONVERSIE OPTIMALISATIE HOE ZEND IK MIJN CASE IN?
Mailen van documenten Making it easy.
Transcript van de presentatie:

Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven

Lexiconuitbreiding Doel: Reductie van het aantal OOV- woorden dmv: –opvangen van een aantal productieve woordvormingsprocessen –accurate inhoud van het herkennerslexicon

Woordvormingsprocessen Invoer: aantal woordonderdelen die al dan niet samen een woord kunnen vormen Regelgebaseerde aanpak Uitvoer: samenstelling + syntactische informatie over samenstelling

Woordvormingsprocessen: Invoer Uit woordlexicon (WL): volledige woorden die zowel alleen als in samenstellingen kunnen voorkomen Uit quasi-woordlexicon (QWL): ‘woorden’ die niet op zichzelf kunnen voorkomen, maar enkel als deel van een samenstelling (hersen, schaaps, kinder, zonne) 2 tem 5 woordonderdelen

Woordvormingsprocessen: Regels Tool voor woordvorming maakt gebruik van regels voor woordvorming vb: modifier (N) + head (N)  compound (N) Invoer uit QWL: woord is N en kan enkel als modifier gelden Invoer uit WL: invoer wordt opgezocht in CGN. Syntactische info wordt gebruikt in regels

Woordvormingsprocessen: Regels (2) Regels gaan uit van 2 woordonderdelen Bij invoer van meer dan 2 woordonderdelen worden de regels recursief toegepast

Woordvormingsprocessen: Uitvoer Mogelijkheden voor uitvoer: –geen samenstelling mogelijk –samenstelling + syntactische informatie over samenstelling Er kan meer dan één hypothese gegenereerd worden over de syntactische informatie horende bij de samenstelling

Woordvormingsprocessen: Uitvoer (2) Gegenereerde samenstelling met POS wordt opgezocht in het volledige CGN-lexicon: –aanwezig: extra indicatie dat gegenereerde woord + syntactische informatie correct is –afwezig: indicatie dat gegenereerde woord niet correct is Informatie is relevant als er verschillende hypotheses gegenereerd worden

Woordvormingsprocessen: Software Voorlopig Perl-script beschikbaar dat samenstellingen genereert obv woordonderdelen en woordvormingsregels Databases voor script: CGN-lexicon, QWL, WL Documentatie bij Perl-script beschikbaar

Lexicon: Inhoud Vertrekpunt: CGN-lexicon ( entries) Reductie naar één entry per woordvorm per POS (rest: entries) Verwijdering van samenstellingen (behalve scheidbare werkwoorden) (rest: entries)

Lexicon: Inhoud (2) Volgende reductie (nog niet uitgevoerd) : scheidbare werkwoorden (rest ± ) Meest frequente entries worden geselecteerd om tot te komen (nog niet uitgevoerd) QWL: welke samenstellende delen komen niet voor in WL: 1000 entries

Lexicon: Accuraatheid Er gebeurt een zorgvuldige selectie van de woorden die tot het WL behoren: –geen samenstellingen –frequente woorden Organisatie van het herkennerslexicon: maximale toepasbaarheid van de regels door splitsing in WL en QWL

Verdere stappen Toevoeging van productiviteitsregels ivm suffixen en prefixen die voldoende akoestische info bevatten voor verdere lexiconreductie testen op een aantal teksten: hoe zit het met overgeneratie van samenstellingen finetuning van de regels obv testresultaten

Verdere stappen (2) Toevoegen van informatie in het lexicon om verfijning van regels mogelijk te maken: –statistische informatie –semantische informatie