Processing Unknown Words Wouter Schellekens Merlijn Hutteman.

Slides:



Advertisements
Verwante presentaties
Informatieanalyse klassediagram I.
Advertisements

Onderzoek naar competentiegericht beoordelen in het groene onderwijs
Visual Knowledge Building
- Inhoud Artificial Intelligence - Inhoud Wat is AI? OorsprongReasoningLearning • Wat is Artificial Intelligence.
Opdrachttaak kennissystemen:
Hogeschool HZ Zeeland 19 augustus 2003augustus 2003 Data Structuren & Algoritmen Week 1.
Analyse en Ontwerpen II
Verandermanagement Hoofdstuk 1 Verandermanagement; een rondleiding in en buiten het vakgebied.
Taal en cognitie: Optimaliteitstheorie Henriëtte de Swart.
Zakelijk lezen Nederlands.
HOOFDSTUK 8 ORGANISATIE ALS FLUX EN TRANSFORMATIE
Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
Ontwerpen van Informatiesystemen met
1. Parsing (epsilon’s, tabellen) 2. Unificatie grammatica Natuurlijke taalverwerking week 7.
Categoriale Grammatica
Natuurlijke taalverwerking week 4
Onderzoeksmethode Oftewel: met welke specifieke onderzoeksmethode kan ik het best mijn onderzoeksvraag beantwoorden.
AI91  Het Probleem  Grammatica’s  Transitie netwerken Leeswijzer: Hoofdstuk AI Kaleidoscoop College 9: Natuurlijke taal.
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Hoofdstuk 2 Het onderzoeksonderwerp formuleren en verduidelijken Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian.
Hoofdstuk 6 Steekproeven trekken Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije Booij en Jan.
Hoofdstuk 11 Kwantitatieve gegevens analyseren Methoden en technieken van onderzoek, 5e editie, Mark Saunders, Philip Lewis, Adrian Thornhill, Marije.
Inleiding Kennistechnologie §Hoofdstuk 7: Kennisrepresentaties 1: Eigenschappen en representatievormen §Hoofdstuk 8: Kennisrepresentaties 2: Eenvoud en.
Designing Knowledge Systems b Hoofdstuk 11 van Knowledge Engineering and Management. The CommonKADS Methodology. b A.Th. Schreiber, J.M. Akkermans, A.A.Anjewierder,
Spatial subgroup mining
Armoede en sociaal isolement op het Nederlandse platteland
Nederlands Gymnasium Centraal examen 2011.
Erbeterdezaak.nl Duurzame groei De “paradigm shift” door het Cradle to Cradle denken.
Introductie OHSAS
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
Partiële r² Predictie van y gebaseerd op z alleen
Project Proceshuis Road show
AI111  Algemeen  Voorbeeld  Concept Learning (Version Space)  Bias Leeswijzer: Hoofdstuk AI Kaleidoscoop College 11: Machinaal.
Introductie tot GoF patterns in Java
Samenvatting Havo 5.
Tentamen vraag 1 Als L en M talen zijn, dan nL  M is gelijk aan { s  t | s  L, t  M } nL M is gelijk aan { s t | s  L, t  M } nL n is gelijk aan.
Workshop evalueren Dcp
MBR AtT1 College 9 Diagnose met correctmodellen. Verdieping in de formalisatie. In reader: Characterizing diagnoses and Systems J. de Kleer, A.
Literatuur Gericht gezocht op artikelen waarin Natural Language Processing systemen werden uitgediept: Friedman 2003Bashyam 2009.
Code compressie in Embedded Systems Onno Kievit ET4074 Kwantitatieve aspecten van computer architectuur.
POVO Wolvega / Dedemsvaart
Java Objectgeoriënteerd Programmeren in Java met BlueJ
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
onderzoeksvraag Soorten onderzoeksvragen Exploratieve onderzoeksvraag
Eigen klassen maken A new way of thinking.. Wat? Zie voorbeeld. Zie voorbeeld.
1 cijfer uit 8 miljoen records Resultaten uit het 1-cijfer-traject Arjan Biemans (HBO-raad) Dair-seminar 6 november 2003.
Inzoomen op de competenties  Beantwoord de volgende vragen: -Wat zijn competenties? -Wat is de norm? -Waarom kijken we naar competenties in een procesgericht.
IK en WIJ ontwikkeling De weg naar autonomie in verbinding Jale Simsek
Bijeenkomst 5. Terugblik  Wat hebben we vorige bijeenkomst besproken?  Alles gelukt met het persoonlijk profiel?  Liepen jullie nog tegen dingen aan?
Hoofdstuk 2 Taalverwerving.
Via TEGELS | ZETTEN is de tegel Browser te openen. ( B )
Patiëntauthenticatie. Authenticatie Het proces waarbij wordt nagegaan of een natuurlijk persoon daadwerkelijk degene is die hij beweert te zijn. Hiervoor.
Multiple politica Tegendemocratie Vertegenwoordigende democratie
8 Samengestelde Redeneringen identificeren
Groep 7 Begrijpend lezen lezen
KRITISCH DENKEN 2 Groeperen © Kritisch Denken.
Gameprogrammeren: Lists en interfaces
Openstaande discussies B&I
Musical Style Analysis using Statistical Pattern Recognition
De juiste route naar het juiste doel
Modelleren en Programmeren voor KI Practicumopdracht 4: SAT Solver
Hoofdstuk 16 De steekproefuitkomsten generaliseren naar de populatie en hypothesen over percentages en gemiddelden toetsen.
Youden Analyse.
Posters voor in het geschiedenislokaal
Natuurlijke-Taalinterfaces
teksten Een tekst vormt een samenhangend geheel
De exegese van de tekst Of te wel, begrijp je wat God door de bijbel tegen je zegt? Lees niet alleen wat er staat. Onderzoekt alles, maar behoud het goede.
Transcript van de presentatie:

Processing Unknown Words Wouter Schellekens Merlijn Hutteman

Introductie Mensen begrijpen onbekende woorden Veel NLP systemen gaan uit van een gecompleteerd lexicon Gaan veelal uit van ‘general concept learning’ Besproken HPSG systeem richt zich op extractie van linguïstische eigenschappen

Introductie Andere systemen: uit grote corpora analyse door statistiek Dit systeem: meer gericht op grammaticale analyse van individuele zinnen

Doelstellingen iIncorporeren van informatie- gebaseerd concept ‘unknowness’ Woorden zijn niet geheel onbekend, bevatten ‘revisable’ informatie Hierdoor onderscheid tussen ‘open-’ en ‘closed class’ woorden

Doelstellingen iiMaximaal gebruiken kenmerken HPSG Zoveel mogelijk ‘rich representations’ als HPSG Daarbij gebruik van zelfde grammatica en lexicon Van belang voor hergebruik bestaande grammatica’s en feedback voor theorievorming

Doelstellingen iii Mogelijkheid tot domein-onafhankelijke inferentie en lexicon updates Lexiconschrijver moet kunnen aangeven, welke informatie nog mogelijk te reviseren is

Lexicale acquisitie Nieuwe contextuele verschijning: - vergelijkbaar - nieuwe - of conflicterende informatie

Lexicale acquisitie (1) a. Im Axon tritt ein Ruhepotential auf. b. Das Potential wandert über das Axon. (2) a. Das Ohr reagiert auf akustische Reize. b. Ein Sinnesorgan reagiert auf Reize. (3) a. Die Nase ist für Gerüche sensibel. b. Die sensible Nase reagiert auf Gerüche.

Lexicale acquisitie De reviseerbare informatie indelen in de twee klassen: ‘specializable’ en ‘generalizable’ Specializable: gender, case, etc. Generalizable: restricties in argumentselectie, predactief vs. attributief gebruik Beiden kunnen in dezelfde lexicale entry voorkomen

Representatie Alle reviseerbare informatie uitdrukbaar in formele typen Specialisatie: informatie omzetten in simpele type unificatie: non_fem & neut = neut Generalisatie vereist echter type vereniging: pred V attr = prd Generalisatie maakt gebruik van hulptype u_g, voor markering beginstate onbekende informatie

Representatie Om problemen als incorrecte unificatie bij generalisatie te voorkomen twee nieuwe features: gen en ctxt ctext is de opslag voor contekst- geünificeerde informatie, bij conflicten → ongrammaticaliteit gen bevat generaliseerbare informatie, alle gen waarden: u_g als disj. type genctxt

Representatie In HPSG als volgt gedefinieerd:

Processing Allereerst gewone parsing Bij een onbekend woord failt het parsen niet, maar gebruikt een generieke entry Hierna: updaten van lexical entries, bestaat uit 4 stappen

Processing Projecteren FS op alle woorden Gevolg: alle woorden context verrijkt en lijst van ‘update candidates’ Bepalen concrete update waarden  Bij een matchende generalisatie clause: vereniging van gen waarde van het oude woord met de ctxt waarde van de parse projectie  Bij een matchende specialisatie clause wordt het parseresultaat van de specialisatie gebruikt

Processing Controleer of de update een verschil maakt, dwz. dat een generalisatie geen minder algemeen resultaat oplevert, en vice versa Wijzigingen daadwerkelijk doorvoeren; oude entry verwijderen, herzien, en toevoegen

Voorbeeld 1) Die Nase ist ein Sinnesorgan. 2) Das Ohr perzipiert. 3) Eine verschnupfte Nase perzipiert den Gestank.

Voorbeeld Na: Die Nase ist ein Sinnesorgan. Na: Das Ohr perzipiert

Voorbeeld Na: Das Ohr perzipiert Na: Eine verschnupfte Nase perzipiert den Gestank.

Punten van discussie Methode lijkt niet overeenkomstig met de mens; menselijke redenering op basis van incompleet bewijs Systeem heeft moeite met ambiguïteit Gevaar van overgeneratie Grens tussen stricte, grammaticale voorspellingen en openheid tot revisie

Credits