Natuurlijke taalverwerking week 4 Zinnen en Grammatica Natuurlijke taalverwerking week 4
Automatisch zinsontleden Herkennen van zinsdelen Onderwerp Persoonsvorm Lijdend voorwerp Bijwoordelijke bepalingen Woorden benoemen op woordsoort Natuurlijke Taalverwerking
Natuurlijke Taalverwerking Toepassingen Correctie van grammaticale fouten jan word ziek dit kind is verwent Dialoogsystemen: USER: wanneer gaat de volgende trein? SYSTEM: over vijftien minuten Automatisch vertalen Natuurlijke Taalverwerking
Natuurlijke Taalverwerking Demonstraties NP-chunker Vind NP’s (zelfstandige naamwoordgroep) in een tekst Alvey Tools Grammar algemene grammatica voor het Engels (klein woordenboek) NWO-TST (OVIS) parser in Hdrug Voor openbaar vervoer reisinformatie (gesproken taal, semantiek) Natuurlijke Taalverwerking
Natuurlijke Taalverwerking Wat is een grammatica Verzameling regels (en een woordenboek) die de grammaticale zinnen van een taal beschrijven Doelstelling 1: (automatisch) bepalen of een zin grammaticaal is (d.w.z. voldoet aan de regels van de grammatica)) of niet. Doelstelling 2: Structuur (constituenten, betekenis) toekennen aan zinnen van de taal. Natuurlijke Taalverwerking
Context-vrije grammatica Regels: S --> NP VP NP --> Det A N VP --> V VP --> V NP Woordenboek: Det --> een N --> voorbeeld A --> eenvoudig V --> is NP --> dit Natuurlijke Taalverwerking
Dit is een eenvoudig voorbeeld NP VP V NP Det A N eenvoudig Dit is een voorbeeld Natuurlijke Taalverwerking
FSA versus CFG: 1. recursieve regels Sommige talen of zinsconstructies zijn niet met een Finite state Grammatica (reguliere expressies) te beschrijven: AN BN : een aantal A’s, gevolgd door hetzelfde aantal B’s. S --> a S B S --> a b Natuurlijke Taalverwerking
FSA versus CFG: 1. Recursieve regels Recursieve regels zijn in grammatica’s heel gewoon: een dun iel dom oud boompje een huis met tuin in Haren in de dorpskern N --> A N N --> N PP Niet iedere recursie is echt nodig: macro(np, [det, a*, n, pp*]). pas wel op dat pp niet een macro mag zijn waarin np voorkomt Natuurlijke Taalverwerking
FSA versus CFG: 1. Recursieve regels Problemen ontstaan bij `center-embedding’: recursie die in het midden van een regel optreedt: de fotograaf die de vrouw fotografeerde NP --> Det N Pronoun NP V (ik ken) de fotograaf die de vrouw die de man die de hond die de kat achtervolgde zag kust fotografeerde,…. (Probleem: zinnen met ‘center-embedding’ zijn zeer moeilijk te verwerken Natuurlijke Taalverwerking
FSA versus CFG: 2. Structuur NP --> Det N, N --> A N, N --> N PP macro(np,[det,a*,n,pp*]) Grammatica’s zijn equivalent in zwakzwakke generatieve kracht: ze accepteren dezelfde strings. Niet equivalent in sterke generatieve kracht: CFG levert constituent-structuur op (boompjes), FSA niet. (syntactische) ambiguiteit is onzichtbaar in FSA Natuurlijke Taalverwerking
FSA versus CFG: 2. Structuur VP --> V NP VP --> VP PP An eet rijst met een vork NP --> NP PP An eet rijst met kip macro(vp,[v,np,pp*]) Natuurlijke Taalverwerking
FSA versus CFG: 2. Structuur VP PP VP VP eet rijst met een vork NP V eet NP PP rijst met kip Natuurlijke Taalverwerking
Natuurlijke Taalverwerking Voorbij CFG CFG met features (kenmerken, attributen) en unificatie voorbeelden: Definite Clause Grammar, Unificatie Grammatica. Transformationele grammatica is te lastig voor computationele doeleinden: weinig formele precisie lastig voor automatisch ontleden Natuurlijke Taalverwerking
Natuurlijke Taalverwerking Voorbij CFG De taal WW (een rij woorden gevolgd door dezelfde rij woorden) is niet context-vrij: aabcccaabccc Nederlandse werkwoordsclusters vertonen vergelijkbare ‘cross-serial dependencies’: dat Peter Hans Cecilia de kraanvogels zag helpen fotograferen Natuurlijke Taalverwerking