Taaltheorie en Taalverwerking Week 4: Parseer-algoritmes.

Slides:



Advertisements
Verwante presentaties
Week 9: Probabilistische Grammatica's Jurafsky & Martin (ed. 1), Hoofdstuk 12: Lexicalized and Probabilistic Parsing) Taaltheorie en Taalverwerking Remko.
Advertisements

Let me tell you about... (De Voltooid Tegenwoordige Tijd)
Collaborative writing Building a Taxonomy and Nomenclature of Collaborative Writing to Improve Interdisciplinary Research and Practice.
HM-ES-th1 Les 9 Hardware/Software Codesign with SystemC.
Natuurlijke-Taalinterfaces
Conditional Clauses If-zinnen.
Past Simple – Past Continuous
Thursday, 10 July 2014 donderdag 10 juli 2014 Click Klik.
Inleiding Software Engineering Universiteit AntwerpenBetrouwbaarheid 2.1 Ontdek de 7 verschillen.
Vervolg C Hogeschool van Utrecht / Institute for Computer, Communication and Media Technology 1 Onderwerpen voor vandaag Gelinkte lijsten Finite State.
From: Julia larissa Ian and Maartje.. SCHOON WATER PROJECT Door Julia, larissa, Ian, en Maartje.
Virgielcollege Mede mogelijk gemaakt door uw Eerstejaarsch Commissie.
Taaltheorie en Taalverwerking Week 3: Syntax van Natuurlijke Taal.
Project Software Engineering Universiteit AntwerpenBetrouwbaarheid 2.1 Ontdek de 7 verschillen.
SQL injections en meer... PERU. web application vulnerabilities Cross Site Scripting (21.5%) SQL Injection (14%) PHP includes (9.5%) Buffer overflows.
Instructie grammatica Word order II A comparison.
VHDL Peter Slaets KHLim Functies en procedures Functies –type conversie functies »bit vector to integer en omgekeerd –verkorte componenten met maar 1 output.
Grammaticale modellen
Spatial Association. Spatial Association Rule X → Y X → Y P 1 ..  P m → Q1 ..  Qn (c%) P 1 ..  P m → Q1 ..  Qn (c%) Los predicaat: 1-predicate.
1 Variatie in betekenis Taalverwerving. 2 Opzet van de cursus Weken 1-5: basis Tijd (in zinnen) Aspect (in zinnen) Tijd & Aspect in discourse Tijdsadverbia.
MSWLogo Kite (verder afwerken) If – functie Recursie Een gokspel.
1/1/ / faculty of Computer Science eindhoven university of technology 5JJ20:Computerarchitectuur 2M200:Inleiding Computersystemen Sessie 7(2): Vertalen.
Neurale Netwerken Kunstmatige Intelligentie Rijksuniversiteit Groningen Mei 2005.
Definite Clause Grammar
1. Parsing (epsilon’s, tabellen) 2. Unificatie grammatica Natuurlijke taalverwerking week 7.
Natuurlijke-Taalinterfaces week 5 Lambda-termen en Lambda-conversie.
Natuurlijke taalverwerking week 4
Probleem P 1 is reduceerbaar tot P 2 als  afbeelding  :P 1  P 2 zo dat: I yes-instantie van P 1   (I) yes-instantie van P 2 als ook:  polytime-algoritme,
AI91  Het Probleem  Grammatica’s  Transitie netwerken Leeswijzer: Hoofdstuk AI Kaleidoscoop College 9: Natuurlijke taal.
Netwerk Algorithms: Shortest paths1 Shortest paths II Network Algorithms 2004.
Flocking using Global Roadmaps Niels Gorisse Motion Planning 26 februari 2003 University Utrecht.
Ontleden nNon-deterministisch m.b.v. Parser-combinators nDeterministisch m.b.v. Stack-machine type Parser a b = [a]  [ (b, [a]) ] type Parser a b = [a]
Present simple & continuous
Sunday, 03 August 2014 WHY DID YOU LEAVE ME BEHIND ? WAAROM LIET JE MIJ ACHTER ? 1 FUR COAT NEEDS 100 FURS ! 100 VACHTEN VOOR 1 BONTJAS ! MOST PROSTITUTES.
CLICK THE END EINDE THE END May peace be with you EINDE Moge de vrede met jou zijn Next time I’ll present you the alphabet Volgende keer bied ik je het.
Paragraph 2.7. In paragraph 2.2: William II became Stadtholder, and the war against Spain ended in The Republic was now a separate country.
HOM - COM Ledenvergadering 08 / 10 / Easeus-Partition-Master- Home-Edition Link software: Master-Home-Edition/ _4-
Oefentherapie bij ischialgie CAT de Krom
Parsing: Top-down en bottom-up
Unificatie grammatica
DB&SQL8- 1 VBA Visual Basics for Applications: eigen Office versie vanaf Office2000 gelijk voor alle applicaties Programmeren onder meer nodig voor Het.
Tussentoets Digitale Techniek. 1 november 2001, 11:00 tot 13:00 uur. Opmerkingen: 1. Als u een gemiddeld huiswerkcijfer hebt gehaald van zes (6) of hoger,
Overzicht  Is een kennissysteem een oplossing?  Probleem- en domeinmodel  Methodologie.
ANother Tool for Language Recognition
Derde blok. Februari - April
Deltion College Engels C1 Luisteren [Edu/001] thema: It’s on tv can-do : kan zonder al te veel inspanning tv-programma’s begrijpen.
Meervouden one car – four cars one schoolbag – two schoolbags
Taaltheorie en Taalverwerking Week 5: – Natuurlijke Taal Syntax. (Uitbreiding op CFG: Features.) – Human Parsing: Center-Embedding.
Semantische Interpretatie Jurafsky & Martin (Ed. 1): Hoofdstuk 15
MET DATA WERELDKAMPIOEN Tjerk Smeets – 13 juni 2013 – InfraTrends Congres.
Lesson 9.
Last week I forgot my keys.
A LL R IGHT 1 THV U NIT 5 GRAMMAR 4.1 EN 4.2. M AAK DE VOLGENDE ZINNEN VRAGEND ! I am your best friend. She is at home. We are late. I can help you.
All right 1thv unit 7 gr 2.1 en 2.2.
4.1 present simple de present simple = de gewone tegenwoordige tijd: Ik loop = I walk Jij slaapt = you sleep etc! Je gebruikt deze tijd om aan te geven.
Sketchpad - Introductie Mens en computer kunnen snel converseren door medium van line drawings Hexagons als één symbool (Ring Structure) Verschil met potlood.
1/1/ / faculty of Computer Science eindhoven university of technology 5B040:Computerarchitectuur 2M200:Inleiding Computersystemen Sessie 9(2): Virtual.
Taaltheorie en Taalverwerking Parsing Continued. Totnutoe: Top-Down-Parser.
Plan Coordination by Revision in Collective Agent Based Systems Adriaan ter Mors en Gijsbert Deelder Plan Coordination by Revision in Collective.
Klik op een vlag. Click on a flag Language: Jefken is altijd daar om te helpen ! Jefken is always there to help !
C++ C++ als een verbetering van C Abstracte datatypen met classes Constructoren en destructoren Subklassen binding van functies 1.
Rule-based tic-tac-toe Andreas van Cranenburgh,
Kunstmatige Intelligentie, 2009/2010, 2e semester Taaltheorie en Taalverwerking Remko Scha Week 11 Discourse.
Studie Dag KNVG 6 december 2012 Maarssen. Agenda (1) 1.Opening en vaststelling agenda 2.Actualiteiten : Martin van Rooijen 3.Vragen die gepensioneerden.
Parsing 1. Situering Contextvrije grammatica’s Predictive (of recursive-descent) parsing LR-parsing Parser generator: Yacc Error recovery 2.
In een reguliere taal… zin yxz S E A B vuwuwxzvuwxzvvuwxzvvvuwxzvvv lengte  n.
Syntaxis 1. Inleiding: Combinaties Combinaties op verschillende niveaus: Lettergrepen als combinaties van fonemen. (College 3,4) Woorden als combinaties.
Zinnen 1 Henriëtte de Swart.
MTAS Multi Tier Annotation Search
Wat gaan we doen? Herhaling ARM assembler instructies
Transcript van de presentatie:

Taaltheorie en Taalverwerking Week 4: Parseer-algoritmes

Gegeven: Sequentie woorden en CFG. Gevraagd:Wat zijn de structuren van deze sequentie volgens de CFG? Parseer-algoritmes voor CFG's

Parsing as search. (1) Top-down: Toestandsruimte:Alle mogelijke bomen Doel: Boom past op string (2) Bottom-up: Toestandsruimte:Partiële analyses van de string Doel: Analyse is compleet Parseer-algoritmes

Top-down search space

Bottom-up search space Book that flight

"Naïef top-down-algoritme": Toestandsruimte:Alle mogelijke bomen Doel: Boom past op string Initialisering van de toestandenverzameling: {S} Uitbreiding van de toestanden-verzameling (“successor-functie”): Expandeer een non-terminale knoop m.b.v. een grammatica-regel Goal-test:Is de yield van een van de bomen de gewenste string?

S S  NP VP

S NPVP

articlenoun S NPVP S  NP VP NP  article noun

article the noun S NPVP S  NP VP NP  article noun

article the noun wumpus S NPVP S  NP VP NP  article noun

article the noun wumpus verb is S NPVP adjective dead VP

"Naief" top-down: generate and test. "Redelijk" top-down: Toestand: analyse van linkerdeel v.d. zin + current node + volgende woord Testen kan nu incrementeel.

Martin & Jurafsky (pp ): "A Basic Top-Down Parser." search state: partial tree + active node. input string + active word. agenda: Stack of search states. cs: current state generatie van nieuwe search-states door: apply-rules apply-lexical-rule

article the noun S NPVP wumpus is dead toestand (cs) (,) node to expand (nte) current input (cip)

apply-rules (cs) the S NPVP article the noun S NP VP wumpus is dead Voorbeeld:Actieve knoop: NP. Toepasbare regel: NP  article noun

apply-lexical-rule (cs) article the noun S NPVP Voorbeeld:Actieve knoop: article. Actief woord: the. Toepasbare lexicale regel: article  the article the noun S NPVP wumpus is dead

agenda := [ (S, word1 word2... wordn )] cs := pop (agenda) loop if success (cs) then return (cs) else if cat (nte(cs))  POS then if cat (nte(cs)) = pos (cip (cs)) then push (apply-lexical-rule(cs), agenda) else push (apply-rules (cs), agenda); if empty(agenda) then return (reject) else cs := pop (agenda) end Martin & Jurafsky (pp ): "A Basic Top-Down Parser."

Intialisatie: cs = ( S, Book that flight) agenda = [ ]

Intialisatie: cs = ( S, Book that flight ) agenda = [ ]

pop:

Na een aantal pop's: cs = (, Book that flight ) V NP Nu is “apply-lexical-rule” toepasbaar.

En zo verder.

Huiswerk: Implementeer top-down parser

Probleem bij top-down parseren: links-recursie.

B.v.: regels van de vorm: A  A B.

Links-recursie in het Nederlands. N  N PP ("kat", "kat op de mat") VP  VP PP ("slaapt", "slaapt tot 10 uur") S  S en S ("Kim slaapt", "Kim slaapt en Sandy werkt") NP  det NP det  NP 's ("Peter", "Peter's huis")

Links-recursie verwijderen De regels: N  N PP | man | vrouw | huis | tafel |... PP  Prep NP Worden vervangen door: N  N-lex PP* N-lex  man | vrouw | huis | tafel |... PP*  PP PP* PP*   PP  Prep NP

Nadeel: Veranderde grammatica leidt tot andere boom-structuren! (Post-processing noodzakelijk.) Veranderde grammatica heeft (veel) meer regels

Lijkt de menselijke grammatica op een CFG?

(1) Nee. Nederlands kan niet met een CFG beschreven worden: Cross-serial dependencies.

Lijkt de menselijke grammatica op een CFG? (2) Nee. CFG genereert zinnen die voor een mens moeilijk zijn: "center-embedding".

J&M § 13.4: Center-embedding. "The dog chased the cat that likes tuna fish" "The cat the dog chased likes tuna fish."

J&M § 13.4: Center-embedding. "The dog chased the cat that likes tuna fish" "The cat the dog chased likes tuna fish." "The cat [the dog chased] " NP  NP S' S'  NP V2 NP  NP NP V2 “center-embedding”

J&M § 13.4: Center-embedding. "The dog chased the cat that likes tuna fish" "The cat the dog chased likes tuna fish." "The elephant admired the rat that bit the dog that chased the cat that likes tuna fish."

J&M § 13.4: Center-embedding. "The dog chased the cat that likes tuna fish" "The cat the dog chased likes tuna fish." "The elephant admired the rat that bit the dog that chased the cat that likes tuna fish." "The cat the dog the rat the elephant admired bit chased likes tuna fish."

J&M § 13.4: Center-embedding. "The cat the dog the rat the elephant admired bit chased likes tuna fish." Regels van de vorm NP  NP NP V2 kunnen de facto niet recursief toegepast worden. Verklaring: beperkte stack-diepte. Victor Yngve: Engels is wel een reguliere taal!

Chomsky-hierarchy revisited. Cross-serial dependencies.

J&M § 13.3: Cross-serial dependencies. Nederlands & Züüritüütsch.

J&M § 13.3: Cross-serial dependencies. Engels: "... that we let the children help Hans paint the house." "... that [we let [the children help [Hans paint the house]]]."

J&M § 13.3: Cross-serial dependencies. Duits: "... dass wir die Kinder Hans das Haus anstreichen helfen liessen." "... dass [wir [die Kinder [Hans das Haus anstreichen] helfen] liessen ]."

J&M § 13.3: Cross-serial dependencies. Nederlands: "... dat we de kinderen Hans het huis lieten helpen verven."

J&M § 13.3: Cross-serial dependencies. Engels: "... that [we let [the children help [Hans paint the house]]]." Duits: "... dass [wir [die Kinder [Hans das Haus anstreichen] helfen] liessen]." Nederlands: "... dat we de kinderen Hans het huis lieten helpen verven."

J&M § 13.3: Cross-serial dependencies. Nederlands: "... dat we de kinderen Hans het huis lieten helpen verven." Kan niet contextvrij. (Bewijs m.b.v. Pompstelling voor conetxtvrije grammatica's.)