Natuurlijke Taalverwerking 3e trimester 98/99 docent: Gosse Bouma.

Slides:



Advertisements
Verwante presentaties
Communicatie & Presentatie
Advertisements

Grammar Chapter 4 – G4 Meervoud.
Grafeem-foneemomzetting voor spraaksynthese
Practica Computerlinguistiek Tekst en uitleg:
Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 1 Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden Mariëlle Stoelinga.
Werkwoordspelling Hoe ging het ook alweer?.
Marokko.
Aanvankelijk lezen Hoe lezen wij?
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 22 november 2001.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 28 oktober 2002.
Compositionaliteit, bereik en lambda’s
Taal met één hand Taal- en spraaktechnologie: groepsproject
Deze les wordt verzorgd door de Kansrekening en statistiekgroep Faculteit W&I TU/e.
INTERACTION DESIGN Week 4.
Definite Clause Grammar
1. Parsing (epsilon’s, tabellen) 2. Unificatie grammatica Natuurlijke taalverwerking week 7.
Natuurlijke Taalverwerking
Natuurlijke-Taalinterfaces week 5 Lambda-termen en Lambda-conversie.
Hoofdzinnen, bijzinnen, en vraagzinnen in Unificatie Grammatica
Natuurlijke taalverwerking week 4
Natuurlijke Taalverwerking
Het kloppend maken van reactievergelijkingen
Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden
Functies als Getallen Jan Martin Jansen.
Informatie avond groep 3
Aristid Lindenmayer Hongaar, werkte in Utrecht studie naar de groei van algen en andere levende wezens: L-systemen kan ook mooie regelmatige.
Parsing: Top-down en bottom-up
Orientatie Alfa-informatica Computer-taalkunde Gosse Bouma
Unificatie grammatica
Lots of, a lot of, much, many little, few
Grammar Chapter 3 – G2 Meervoud. Meervoud Je weet al hoe je woorden in het Engels in het meervoud zet, nl: Je weet al hoe je woorden in het Engels in.
LauwersCollege Buitenpost Java Applet programma dat op een website zichtbaar is Java Application programma dat zelfstandig werkt Javascript Scripttaal.
College 7, jaar 2, Zomer 2010 Nieuwe Businessmodellen Auteur: Ayman van Bregt Docent: Toine Nagel.
College 4, jaar 2, Zomer 2010 Projectles Auteur: Ayman van Bregt Docent: Toine Nagel.
Inleiding CIW Hoorcollege 2.
Klik ergens op het witte deel van deze pagina om verder te gaan
Fonemisch bewustzijn / aanvankelijk lezen Groep 1 t/m 4
MICROCONTROLLERS.
Semantische Interpretatie Jurafsky & Martin (Ed. 1): Hoofdstuk 15
Project Text To Speech Wat houdt het text-to-speech project in
Leerlijnen in relatie met de methode
Een taalopdracht maken (e-ee/ u-uu/o-oo/a-aa)
Hoofdstuk 9 havo KWADRATEN EN LETTERS
Quiz Start.
WERKWOORDSPELLING Hoe doe je dat ?.
Modelleren van XML element content of Hoe doe je dat? Harrie Passier & Bastiaan Heeren TouW-dag 13 november 2010.
Reguliere talen nReguliere grammatica: versimpelde Contextvrije grammatica nFinite-state Automaton: andere manier om een taal te beschrijven nReguliere.
Controllers en automatisatie
De dag van het solliciteren Blok 1
Samenvatting hst. 3 sec. 1-3 ( ) :: Parser a b  Parser a b  Parser a b ( ) :: Parser a (b  c)  Parser a b  Parser a c ( ) :: (b  c)  Parser a b.
Variabelen en berekeningen
Het gebruik van FP op een meeloopdag voor middelbare scholieren Paul de Mast.
tircms02-p les 1 Operating Systems practicum
Vervolg C Hogeschool van Utrecht / Institute for Computer, Communication and Media Technology 1 Onderwerpen voor vandaag top-down decompositie Opdrachten:
voor familie en vrienden van
2PROJ5 – PIC assembler Hogeschool Utrecht / Institute for Computer, Communication and Media Technology 1 Les 4 - onderwerpen DB038 hardware : luidsprekertje.
Overige spellingsregels
2PROJ5 – PIC assembler Hogeschool Utrecht / Institute for Computer, Communication and Media Technology 1 Les 3 - onderwerpen Instruction timing Shadow.
Te gek voor woorden. Verwijswoorden FilipEmanuelle  hij  zijn  hem  de man  de arme man  haar echtgenoot  de gewonde man  de pechvogel  zij.
Kruising waarbij 2 genenparen betrokken zijn
Dihybride kruising Kruising waarbij 2 genenparen betrokken zijn.
Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 1 Universiteit Twente meets school Zoeken in grote tekstbestanden Mariëlle Stoelinga.
Oefening met atlas en kaarten
Spelling woorden met lange klank
Tinpro015b-les 1 C++ voor C-kenners Voor Technische Informatica.
Mol en beer.
Aflevering 3: Het koppelteken‘-’.
Ieder is anders. Woordenschat 2..
*Bekijk het zwarte woordje
Python – For loop + strings
Transcript van de presentatie:

Natuurlijke Taalverwerking 3e trimester 98/99 docent: Gosse Bouma

Transducers en fonologische regels in FSA Week 3

Natuurlijke Taalverwerking3 Transducers Nut van herkenners (recognizers) is beperkt. Meeste finite state toepassingen gebruiken transducers. Een transducer vertaalt een invoerstring naar een uitvoerstring. apen -> a-pen 19 -> negentien KPN -> kapeEn

Natuurlijke Taalverwerking4 Transducer l:l a:a k:k o:o o:  p:p +:  +:k e:e n:n lak+en -> lakken, loop+en -> lopen

Natuurlijke Taalverwerking5 Reguliere expressies [a:b, c*] vertaalt accc in bccc ‘:’ is de ‘pair’-operator: A:B vertaalt symbool A in symbool B. [{a,e,i,o,u} x ‘V’] vertaalt strings uit taal {a,e,i,o,u} in de string ‘V’. ‘x’ is de ‘cross-product-operator’: A x B vertaalt strings uit taal A in strings uit taal B.

Natuurlijke Taalverwerking6 Reguliere expressies [a:b, c*] is eigenlijk een afkorting voor [a:b, (c:c)*] reguliere expressies zonder ‘:’ of ‘x’ worden dus gelezen als ‘identity- transducers’: ieder input-symbool verschijnt ongewijzigd in de output.

Natuurlijke Taalverwerking7 Reg Ex Voorbeeld {{a,e,i,u,o} x ‘V’,{b,c,d} x ‘C’}* abeceeidi -> VCVCVVVCV a:V, e:V, i:V b:C, c:C, d:C

Natuurlijke Taalverwerking8 Spellingsregels [lttr*, {[[a,a] x a, cons],[a,a,cons,cons]}, +:[], e,n] haar+en --> haren haard+en --> haarden Non-deterministisch? Echt non-determinisch: {[a:b,c*,b],[a:d,c*,d]}

Natuurlijke Taalverwerking9 Non-deterministisch h:h a:a r:r a:a a:  r:r +:  d:d e:e n:n haar+en -> haren, haard+en -> haarden

Natuurlijke Taalverwerking10 Getallen -> woorden Macro(eentallen, [{1:een, 2:twee, 3:drie}]). Macro(twintig, [2:[],eentallen,[]:entwintig]). 21 -> eenentwintig

Natuurlijke Taalverwerking11 Compositie Vertaal Nederlandse getalsnamen naar het Engels: eenentwintig -> 21 -> twentyone Een mogelijke benadering: schrijf een transducer die NL in getallen omzet, schrijf een transducer die getallen in ENG omzet, Knoop ze aan elkaar.

Natuurlijke Taalverwerking12 Compositie (2) macro(nl2num,{een x 1, twee x 2, …}). macro(num2eng,{1 x one, 2 x two,..}). macro(trans, nl2num o num2eng). A o B is een transducer waarbij output van A wordt gebruikt als input van B. eenentwintig -> A -> 21 -> B -> twentyone

Natuurlijke Taalverwerking13 (Fonologische) Regels Een transducer die de letter ‘x’ vervangt door ‘ks’: Poging 1 (fout): [[? *, ‘x’ x [k,s]]*, ?*] axax -> aksaks, axaks, aksaks, axax Poging 2 (goed): [[(? - x)*, ‘x’ x [k,s]]*, (? - x)*] axax -> aksaks Poging 3 (simpel): {? - x, ‘x’ x [k,s]}*

Natuurlijke Taalverwerking14 Regels met context c -> s, mits gevolgd door e of i (cent, politici) Poging 1: {?-c,[c:s,{e,i}]}* cent -> sent, cactus -> no output c -> k, anders Poging 2: {? -c,[c:k,{e,i}],[c:s,? - {e,i}]}* cent -> sent, cactus -> kaktus

Natuurlijke Taalverwerking15 De replace-operator Het handmatig definiëren van regels is moeizaam replace(A x B, LC, RC): vervang A door B in de context LC _ RC replace(c:s,[],{e,i}) replace(c:s,[],{e,i}) o replace(c:k,[],[])

Natuurlijke Taalverwerking16 Grafeem naar foneem conversie Stap 1: segmenteren g-r-a-f-ee-m, r-i-ng, s-ch-oo-l macro(segment,{a,aa,aai,…,z}). replace([segment,[] : -],[],[])

Natuurlijke Taalverwerking17 Grafeem naar foneem conversie Stap 2: conversie van gesegmenteerde input macro(g2p(Target,LC,RC), replace([Target,-:+],[LC,{-,+}],RC)) macro(lang, g2p({[a,a] x a, [e,e] x e},[],[]). slaapt -> slapt, weer -> wer

Natuurlijke Taalverwerking18 Opdracht 2 G2P conversie voor letters a e i o u d n r s t