Download de presentatie
De presentatie wordt gedownload. Even geduld aub
1
Natuurlijke Taalverwerking
3e trimester 98/99 docent: Gosse Bouma
2
Inleiding Week 1
3
Natuurlijke Taalverwerking
Inhoud Week 1-4 : Woorden woordenlijsten, woordenboeken, morfologie, spelling, afbreken, tekst naar spraak, etc. Finite State Netwerken, reguliere expressies, Transducers FSA pakket Natuurlijke Taalverwerking
4
Natuurlijke Taalverwerking
Inhoud Week 5-10: Zinnen Grammatica, zinsontleden, automatisch vertalen, vraagzinnen, hoofd- en bijzinnen, etc. definite clause grammar, shift-reduce en chart parsing, unificatie grammatica Hdrug pakket Natuurlijke Taalverwerking
5
Natuurlijke Taalverwerking
Studiemateriaal Webpagina: Syllabus Computationele Taalkunde en Taaltechnologie Natuurlijke Taalverwerking
6
Natuurlijke Taalverwerking
Werkvorm en Toetsing Practicum: Zaal H (UNIX) Vrijdag 12-14 Vrijdag 14-16 Opdrachten mogen in groepjes van 2 gemaakt worden. Toetsing: Practicumopdrachten (50%) Tentamen (50%) Natuurlijke Taalverwerking
7
Wat is computertaalkunde?
Taalkundig onderzoek met behulp van de computer: tellen van woorden, woordgroepen, zinslengte, etc. testen van taalkundige theorieën, automatisch leren van taalkundige kennis. Natuurlijke Taalverwerking
8
Wat is computertaalkunde?
ICT-toepassingen waar kennis van taal een rol speelt: spellingcorrectie tekst naar spraak (demo Fluent Dutch) automatisch vertalen (demo Alta Vista) dialoogsystemen (intelligente voice response) (NS reisinformatie) rapporten genereren (weerbericht, beursnieuws) Natuurlijke Taalverwerking
9
Natuurlijke Taalverwerking
Meer toepassingen Spraakherkenning (Philips FreeSpeech, Lernhout & Hauspie,...). Intelligente Information Retrieval (concepten, morfologie, multilinguaal, multimediaal) Optical Character Recognition Samenvatten Natuurlijke Taalverwerking
10
Wat je ook doet, de semantiek gooit roet
Makkelijk ? Spellingcontrole, Afbreken, OCR, Tekst naar spraak, Information Retrieval, Voice Response, Part of Speech tagging, Samenvatten, Rapporten genereren. Moeilijk? Grammaticale controle (d/t fouten) Dicteersystemen (grote woordenschat) Volledige syntactische en semantische analyse Automatisch vertalen Natuurlijke Taalverwerking
11
Natuurlijke Taalverwerking
Woorden (Bijna) iedere toepassing maakt gebruik van een woordenboek Sommige toepassingen bestaan vrijwel alleen uit een woordenboek: spellingcorrectie afbreken tekst naar spraak spraakherkenning vertaalhulp Natuurlijke Taalverwerking
12
Hoeveel woorden zijn er?
Groene Boekje : 125K Words-L (public domain woordenlijst voor spellingcorrectie en afbreken): 250K Celex (lexicale database) : 325K Van Dale:… Natuurlijke Taalverwerking
13
Geen woordenlijst is volledig.
Voorbeeld: Eindhoven corpus 1 mln woorden. 40% hiervan ontbreekt in Celex Toepassingen die alleen gebruik maken van een woordenlijst gaan dus vaak de fout in: false alarms (spellingcorrectie) afbreekfouten Natuurlijke Taalverwerking
14
Natuurlijke Taalverwerking
Spellingcorrectie Fouten vinden is tamelijk eenvoudig Correcties voorstellen is lastiger: onmiddelijk onmiddellijk pselling spelling pijnzen pijnzin, peinzen slaolm slalom, slaolie, slakom kompjoeter computer N.B. MS Office accepteert pijnzen en slaolm! Natuurlijke Taalverwerking
15
Natuurlijke Taalverwerking
Afbreken Op basis van lettergreepstructuur: af-bre-ken, niet afbr-eke-n Maak het begin van de lettergreep zo lang mogelijk: ha-mer, niet ham-er al-fa-bet, niet alf-ab-et Met inachtneming van morfeemgrenzen: lamp-licht, niet lam-plicht fietslamp-je vs. slagboom-pje Natuurlijke Taalverwerking
16
Natuurlijke Taalverwerking
Afbreekalgoritme: Verdeel een woord in samenstellende delen (morfemen), Verdeel de delen in lettergrepen, Zorg ervoor dat het begin van de lettergreep zo lang mogelijk is. Natuurlijke Taalverwerking
17
Natuurlijke Taalverwerking
Eindige Automaten De eenvoudigste machines om taal (reeksen symbolen) te verwerken zin eindige automaten. Een automaat bestaat uit een aantal toestanden transities een begintoestand één of meer eindtoestanden Natuurlijke Taalverwerking
18
Natuurlijke Taalverwerking
Eindige Automaten B A 3 1 C 4 C 2 D Natuurlijke Taalverwerking
19
Natuurlijke Taalverwerking
Reguliere expressies Handige manier om automaten te definiëren. A* = nul of meer A’s A+ = één of meer A’s [A, B] = een A gevolgd door een B {A, B} = een A of een B [A, B^] = een A optioneel gevolgd door een B etc…. Natuurlijke Taalverwerking
20
Natuurlijke Taalverwerking
Van Noord’s FSA Pakket Software voor het werken met reguliere expressies en automaten Vertaalt reguliere expressies in automaten en laat resultaat zien Veel toeters en bellen voor taalkundige toepassingen. Tutorial Natuurlijke Taalverwerking
21
Natuurlijke Taalverwerking
Opdracht 1 Lees hoofdstuk 1, 2, en 3 van de syllabus. Doe de FSA tutorial, tot en met transducers. Maak opdracht 1 (zie Deadline: Maandag 5 april Natuurlijke Taalverwerking
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.