Natuurlijke Taalverwerking

Slides:



Advertisements
Verwante presentaties
HET CSE NEDERLANDS. Je spreekt toch al jaren
Advertisements

Sprint Jabbla.
Natuurlijke-Taalinterfaces
Groep 7&8 INFORMATIEMIDDAG Maandag 24 september 2012.
Zoeken in het Nederlands: toepassingen voor ontwikkeling en beheer van thesauri Dennis de Vries.
Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.
Van idee tot digitaal materiaal
DE SAMENGESTELDE ZIN HOOFDSTUK 2.
Dia 1 van 13 Presentatie ExtraCheck Ministerie van OC&W Najaar 2011.
Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 1 Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden Mariëlle Stoelinga.
Taal- en spraaktechnologie voor mensen met een leesbeperking
Clubmiddag 15 oktober 2013 Kantoor programma’s ©ab wiegman.
Het verslag en het belang ervan
En wat doet taalkunde in het programma van CKI?
Semantiek 1.
Grammaticale modellen
Taalwetenschap in de CKI-bachelor
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
En wat doet taalkunde in het programma van CKI?
Definite Clause Grammar
Natuurlijke Taalverwerking 3e trimester 98/99 docent: Gosse Bouma.
1. Parsing (epsilon’s, tabellen) 2. Unificatie grammatica Natuurlijke taalverwerking week 7.
Natuurlijke Taalverwerking
Categoriale Grammatica
Natuurlijke-Taalinterfaces week 5 Lambda-termen en Lambda-conversie.
Hoofdzinnen, bijzinnen, en vraagzinnen in Unificatie Grammatica
Natuurlijke taalverwerking week 4
Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden
AI91  Het Probleem  Grammatica’s  Transitie netwerken Leeswijzer: Hoofdstuk AI Kaleidoscoop College 9: Natuurlijke taal.
Onderzoeksvaardigheden
Informatica op het Kalsbeek College. Informatica op het Kalsbeek College.
Lesplanning 6.7 Deze les oefenen met moeilijke opgaven met behulp van 6.7 Volgende les samenvatting 24 april proefwerk hoofdstuk 6.
Natuurlijke-Taalinterfaces Week 1 -- Inleiding 2e trimester 2002/03 docent: Gosse Bouma
Parsing: Top-down en bottom-up
Orientatie Alfa-informatica Computer-taalkunde Gosse Bouma
Unificatie grammatica
Annelie Tuinman, Holger Mitterer & Anne Cutler
Uitspraak trainen met een computer: is dat mogelijk? Ambra Neri Catia Cucchiarini, Helmer Strik Radboud Universiteit Nijmegen, CLST.
Al doende leren training docenten
HSR Human speech recognition / Speech processing.
AMARANTIS EXAMEN Medewerker Marketing Communicatie.
Leerlijnen in relatie met de methode
TOOLS FOR STRUGGLING WRITERS ASSISTIVE TECHNOLOGY FOR WRITING Evy Jansen.
Leef je geloof! Jacobus 2: Jacobus 2 : 26
Woordenschat en kijk op taal Hoofdstuk 2 en 3
Docent: Ans Sarianamual - oktober 2014
Tentamen vraag 1 Als L en M talen zijn, dan nL  M is gelijk aan { s  t | s  L, t  M } nL M is gelijk aan { s t | s  L, t  M } nL n is gelijk aan.
SE-Seneca voorbereiding op CE 2013!
DEEL 1 LES 4 De basis Les 4 Snijden versie
Stage: Basisschool de Klingerberg
Syntaxis 1. Inleiding: Combinaties Combinaties op verschillende niveaus: Lettergrepen als combinaties van fonemen. (College 3,4) Woorden als combinaties.
Hoe leer je geschiedenis?
Tekstverklaring Hoe doe je dat?.
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Informatieavond leerlingen en ouders mavo scholen Dunamare Overstap 4 mavo naar 4 havo per
Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 1 Universiteit Twente meets school Zoeken in grote tekstbestanden Mariëlle Stoelinga.
Grammatica leren. Inleiding Ook de grammatica kun je leren. De grammatica zijn eigenlijk de spelregels van de taal. Regel kun je leren en toepassen. Hieronder.
Kennen en kunnen Wat je moet kennen en kunnen voor de SO Woordenschat H1 t/m H4 1. Woordraadstrategieën: -zoek een synoniem; -zoek een omschrijving of.
Centraal Examen Nederlands
Lessenserie Taal Leren Vrije Universiteit Schooltalenproject
Kennismaking met programmeren
Vwo 2 – week SCHM.
Kennismaking met programmeren
Syntactische Annotatie CHILDES
Informatieavond Kurzweil (basis).
Hoe schrijf je een recensie?
Spraakherkenning.
V4 – week
Samengestelde zinnen.
in Word Vijf nieuwe manieren van werken
Transcript van de presentatie:

Natuurlijke Taalverwerking 3e trimester 98/99 docent: Gosse Bouma

Inleiding Week 1

Natuurlijke Taalverwerking Inhoud Week 1-4 : Woorden woordenlijsten, woordenboeken, morfologie, spelling, afbreken, tekst naar spraak, etc. Finite State Netwerken, reguliere expressies, Transducers FSA pakket Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Inhoud Week 5-10: Zinnen Grammatica, zinsontleden, automatisch vertalen, vraagzinnen, hoofd- en bijzinnen, etc. definite clause grammar, shift-reduce en chart parsing, unificatie grammatica Hdrug pakket Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Studiemateriaal Webpagina: www.let.rug.nl/~gosse/nlp1/ Syllabus Computationele Taalkunde en Taaltechnologie www.let.rug.nl/~gosse/tt/ Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Werkvorm en Toetsing Practicum: Zaal H12.102 (UNIX) Vrijdag 12-14 Vrijdag 14-16 Opdrachten mogen in groepjes van 2 gemaakt worden. Toetsing: Practicumopdrachten (50%) Tentamen (50%) Natuurlijke Taalverwerking

Wat is computertaalkunde? Taalkundig onderzoek met behulp van de computer: tellen van woorden, woordgroepen, zinslengte, etc. testen van taalkundige theorieën, automatisch leren van taalkundige kennis. Natuurlijke Taalverwerking

Wat is computertaalkunde? ICT-toepassingen waar kennis van taal een rol speelt: spellingcorrectie tekst naar spraak (demo Fluent Dutch) automatisch vertalen (demo Alta Vista) dialoogsystemen (intelligente voice response) (NS reisinformatie) rapporten genereren (weerbericht, beursnieuws) Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Meer toepassingen Spraakherkenning (Philips FreeSpeech, Lernhout & Hauspie,...). Intelligente Information Retrieval (concepten, morfologie, multilinguaal, multimediaal) Optical Character Recognition Samenvatten Natuurlijke Taalverwerking

Wat je ook doet, de semantiek gooit roet Makkelijk ? Spellingcontrole, Afbreken, OCR, Tekst naar spraak, Information Retrieval, Voice Response, Part of Speech tagging, Samenvatten, Rapporten genereren. Moeilijk? Grammaticale controle (d/t fouten) Dicteersystemen (grote woordenschat) Volledige syntactische en semantische analyse Automatisch vertalen Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Woorden (Bijna) iedere toepassing maakt gebruik van een woordenboek Sommige toepassingen bestaan vrijwel alleen uit een woordenboek: spellingcorrectie afbreken tekst naar spraak spraakherkenning vertaalhulp Natuurlijke Taalverwerking

Hoeveel woorden zijn er? Groene Boekje : 125K Words-L (public domain woordenlijst voor spellingcorrectie en afbreken): 250K Celex (lexicale database) : 325K Van Dale:… Natuurlijke Taalverwerking

Geen woordenlijst is volledig. Voorbeeld: Eindhoven corpus 1 mln woorden. 40% hiervan ontbreekt in Celex Toepassingen die alleen gebruik maken van een woordenlijst gaan dus vaak de fout in: false alarms (spellingcorrectie) afbreekfouten Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Spellingcorrectie Fouten vinden is tamelijk eenvoudig Correcties voorstellen is lastiger: onmiddelijk  onmiddellijk pselling  spelling pijnzen  pijnzin, peinzen slaolm  slalom, slaolie, slakom kompjoeter  computer N.B. MS Office accepteert pijnzen en slaolm! Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Afbreken Op basis van lettergreepstructuur: af-bre-ken, niet afbr-eke-n Maak het begin van de lettergreep zo lang mogelijk: ha-mer, niet ham-er al-fa-bet, niet alf-ab-et Met inachtneming van morfeemgrenzen: lamp-licht, niet lam-plicht fietslamp-je vs. slagboom-pje Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Afbreekalgoritme: Verdeel een woord in samenstellende delen (morfemen), Verdeel de delen in lettergrepen, Zorg ervoor dat het begin van de lettergreep zo lang mogelijk is. Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Eindige Automaten De eenvoudigste machines om taal (reeksen symbolen) te verwerken zin eindige automaten. Een automaat bestaat uit een aantal toestanden transities een begintoestand één of meer eindtoestanden Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Eindige Automaten B A 3 1 C 4 C 2 D Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Reguliere expressies Handige manier om automaten te definiëren. A* = nul of meer A’s A+ = één of meer A’s [A, B] = een A gevolgd door een B {A, B} = een A of een B [A, B^] = een A optioneel gevolgd door een B etc…. Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Van Noord’s FSA Pakket Software voor het werken met reguliere expressies en automaten Vertaalt reguliere expressies in automaten en laat resultaat zien Veel toeters en bellen voor taalkundige toepassingen. Tutorial Natuurlijke Taalverwerking

Natuurlijke Taalverwerking Opdracht 1 Lees hoofdstuk 1, 2, en 3 van de syllabus. Doe de FSA tutorial, tot en met transducers. Maak opdracht 1 (zie www.let.rug.nl/~gosse/nlp1) Deadline: Maandag 5 april Natuurlijke Taalverwerking