1. Parsing (epsilon’s, tabellen) 2. Unificatie grammatica Natuurlijke taalverwerking week 7
Natuurlijke Taalverwerking2 Shift-reduce algoritme
Natuurlijke Taalverwerking3 shift-reduce algoritme Stapel/Stack: hierop staan tussenresultaten. Shift-actie : Verwijder het meest linkse woord uit de invoer, en plaats de categorie van het woord op de stapel Reduce-actie: Vervang C 1 …C n op de stapel door C 0 als er een regel C 0 --> C 1 …C n bestaat.
Natuurlijke Taalverwerking4 Bottom-up voordeel: links-recursie is geen probleem, omdat je vanuit de woorden begint. Het aantal woorden is altijd eindig… nadeel: epsilon-regels (det --> e) shift(Invoer,Invoer,det). Je kunt eindeloos categorieën aan de stapel toevoegen, zonder dat de invoer korter wordt…...
Natuurlijke Taalverwerking5 Epsilon’s leiden tot een eindeloze ’reduce’-actie.
Natuurlijke Taalverwerking6 Epsilon’s in bottom-up parsing det --> [] np --> det n np --> n het effect van epsilon’s kan ook bereikt worden door extra regels toe te voegen:
Natuurlijke Taalverwerking7 Wegwerken van epsilon’s Voor alle epsilon-regels C --> [] en alle regels M --> C 1 …C i,C,C j …C n, voeg toe M --> C 1 …C i,C j …C n, De epsilon-regels zijn nu overbodig. Een boomstruktuur met epsilon’s kan aan de afgeleide regels worden toegevoegd.
Natuurlijke Taalverwerking8 Nadelen van backtracking (dat) zij een student met een gsm, een mountainbike, en een PC met modem kent. zij is NP[mv] of NP[enk] Kiest een shift-actie voor NP[mv], dan wordt eerst de hele complexe NP correct ontleed, waarna via backtracking de juiste mogelijkheid NP[enk] gezocht moet worden, en de NP erna nogmaals ontleed moet worden.
Natuurlijke Taalverwerking9 Unificatie-grammatica Voordelen van definite clause grammar: –categorieen kunnen complexe structuren (features, bomen, semantiek) bevatten –unificatie Nadelen: –omslachtige notatie, –slechte leesbaarheid.
Natuurlijke Taalverwerking10 Taalkunde: Features sonorant - stemhebbend + nasaal - labiaal + alveolair - b = N + V - bar-level 2 NP = b = phon(-,+,-,+,-) np = cat(+,-,2)
Natuurlijke Taalverwerking11 Feature structuren bar 0 headcat v vform fin subj head cat n casenom agrper1 numpl bar 2 (wij) slapen = 1. recursie (feature structuur als waarde)
Natuurlijke Taalverwerking12 Feature structuren (wij) slapen = 2. reentrancy (Prolog-variabelen) subj sem1 sempredslapen arg11
Natuurlijke Taalverwerking13 Unificatie van feature structuren A subsumeert B wanneer B (minstens) alle informatie bevat die A bevat. A is ‘algemener’, B is ‘specifieker’. De unificatie van A en B is de meest algemene structuur C waarvoor geldt: –A subsumeert C en –B subsumeert C. (Unificatie faalt als zo’n C niet bestaat.)
Natuurlijke Taalverwerking14 Subsumptie van feature- structuren bar0 headcatv bar0 headcatv caseacc subsumeert
Natuurlijke Taalverwerking15 subsumptie van feature- structuren subj sem1 sempredslapen arg11 subj sem1 kim sempredslapen arg11 kim subsumeert
Natuurlijke Taalverwerking16 Subsumptie Feature-structuur A subsumeert B als –voor alle features F in A geldt: de waarde van F in A subsumeert de waarde van F in B. –voor alle reentracies in A geldt dat deze ook in B aanwezig is.
Natuurlijke Taalverwerking17 van Noord’s Hdrug een ontwikkelomgeving voor unificatie- grammatica, taal om feature-structuren mee te beschrijven, feature-unificatie (=Prolog term- unificatie) in combinatie met een parser zinnen testen, visualisatie van regels, parse-bomen, etc.