Natuurlijke Taalverwerking 3e trimester 98/99 docent: Gosse Bouma
Automaten en Transducers Week 2
Natuurlijke Taalverwerking Opdracht 1 Lees hoofdstuk 1, 2, en 3 van de syllabus. Doe de FSA tutorial, tot transducers. Maak opdracht 1 (zie www.let.rug.nl/~gosse/nlp1) Deadline: Dinsdag 6 april Natuurlijke Taalverwerking
Natuurlijke Taalverwerking Eindige Automaten De eenvoudigste machines om taal (reeksen symbolen) te verwerken zin eindige automaten. Een automaat bestaat uit een aantal toestanden transities een begintoestand één of meer eindtoestanden Natuurlijke Taalverwerking
Natuurlijke Taalverwerking Eindige Automaten B A 3 1 C 4 C 2 D Natuurlijke Taalverwerking
Epsilon-transities (jumps) macro(syll,[b,{r,l}^,o,k,{s,t}^]). o s t b l r k Natuurlijke Taalverwerking
Deterministische automaten Een automaat is deterministisch wanneer je vanuit iedere toestand T voor ieder invoersymbool S hoogstens 1 transitie mogelijk is. Automaten met epsilons zijn (behalve in flauwe gevallen) non-deterministisch. Natuurlijke Taalverwerking
Woordenlijst als automaat Een lijst {aap,alp,aak,alm,...} kun je beschouwen als een taal bestaande uit de woorden in de lijst. [a,{[l,{p,m}],[a,{k,p}]}] Corresponderende automaat is een letter-trie Voordelen: snel zoeken, combinatie met FS-technieken : macro(woord,[prefix,stam,suffix]). Natuurlijke Taalverwerking
Wat je ook doet, de semantiek gooit roet Makkelijk ? Spellingcontrole, Afbreken, OCR, Tekst naar spraak, Information Retrieval, Voice Response, Part of Speech tagging, Samenvatten, Rapporten genereren. Moeilijk? Grammaticale controle (d/t fouten) Dicteersystemen (grote woordenschat) Volledige syntactische en semantische analyse Automatisch vertalen Natuurlijke Taalverwerking
Natuurlijke Taalverwerking Transducers Nut van herkenners (recognizers) is beperkt. Meeste finite state toepassingen gebruiken transducers. Een transducer vertaalt een invoerstring naar een uitvoerstring. apen -> a-pen 19 -> negentien KPN -> kapeEn Natuurlijke Taalverwerking
Natuurlijke Taalverwerking On-line Demo’s Woordsoorten toekennen Memory-based tagging (Tilburg) Finite State Morphology (Xerox, Grenoble) Grafeem-naar-foneem conversie (Tilburg) N.b. Deze toepassingen kun je met finite state technologie te lijf gaan, meestal (in combinatie met) statistische modellen. Natuurlijke Taalverwerking
Natuurlijke Taalverwerking Transducer lak+en -> lakken, loop+en -> lopen k:k a:a +:k l:l n:n e:e o:o +: o: p:p Natuurlijke Taalverwerking
Natuurlijke Taalverwerking Non-deterministisch haar+en -> haren, haard+en -> haarden r:r h:h n:n d:d a:a e:e +: a:a a: r:r Natuurlijke Taalverwerking