De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Natuurlijke Taalverwerking

Verwante presentaties


Presentatie over: "Natuurlijke Taalverwerking"— Transcript van de presentatie:

1 Natuurlijke Taalverwerking
3e trimester 98/99 docent: Gosse Bouma

2 Inleiding Week 1

3 Natuurlijke Taalverwerking
Inhoud Week 1-4 : Woorden woordenlijsten, woordenboeken, morfologie, spelling, afbreken, tekst naar spraak, etc. Finite State Netwerken, reguliere expressies, Transducers FSA pakket Natuurlijke Taalverwerking

4 Natuurlijke Taalverwerking
Inhoud Week 5-10: Zinnen Grammatica, zinsontleden, automatisch vertalen, vraagzinnen, hoofd- en bijzinnen, etc. definite clause grammar, shift-reduce en chart parsing, unificatie grammatica Hdrug pakket Natuurlijke Taalverwerking

5 Natuurlijke Taalverwerking
Studiemateriaal Webpagina: Syllabus Computationele Taalkunde en Taaltechnologie Natuurlijke Taalverwerking

6 Natuurlijke Taalverwerking
Werkvorm en Toetsing Practicum: Zaal H (UNIX) Vrijdag 12-14 Vrijdag 14-16 Opdrachten mogen in groepjes van 2 gemaakt worden. Toetsing: Practicumopdrachten (50%) Tentamen (50%) Natuurlijke Taalverwerking

7 Wat is computertaalkunde?
Taalkundig onderzoek met behulp van de computer: tellen van woorden, woordgroepen, zinslengte, etc. testen van taalkundige theorieën, automatisch leren van taalkundige kennis. Natuurlijke Taalverwerking

8 Wat is computertaalkunde?
ICT-toepassingen waar kennis van taal een rol speelt: spellingcorrectie tekst naar spraak (demo Fluent Dutch) automatisch vertalen (demo Alta Vista) dialoogsystemen (intelligente voice response) (NS reisinformatie) rapporten genereren (weerbericht, beursnieuws) Natuurlijke Taalverwerking

9 Natuurlijke Taalverwerking
Meer toepassingen Spraakherkenning (Philips FreeSpeech, Lernhout & Hauspie,...). Intelligente Information Retrieval (concepten, morfologie, multilinguaal, multimediaal) Optical Character Recognition Samenvatten Natuurlijke Taalverwerking

10 Wat je ook doet, de semantiek gooit roet
Makkelijk ? Spellingcontrole, Afbreken, OCR, Tekst naar spraak, Information Retrieval, Voice Response, Part of Speech tagging, Samenvatten, Rapporten genereren. Moeilijk? Grammaticale controle (d/t fouten) Dicteersystemen (grote woordenschat) Volledige syntactische en semantische analyse Automatisch vertalen Natuurlijke Taalverwerking

11 Natuurlijke Taalverwerking
Woorden (Bijna) iedere toepassing maakt gebruik van een woordenboek Sommige toepassingen bestaan vrijwel alleen uit een woordenboek: spellingcorrectie afbreken tekst naar spraak spraakherkenning vertaalhulp Natuurlijke Taalverwerking

12 Hoeveel woorden zijn er?
Groene Boekje : 125K Words-L (public domain woordenlijst voor spellingcorrectie en afbreken): 250K Celex (lexicale database) : 325K Van Dale:… Natuurlijke Taalverwerking

13 Geen woordenlijst is volledig.
Voorbeeld: Eindhoven corpus 1 mln woorden. 40% hiervan ontbreekt in Celex Toepassingen die alleen gebruik maken van een woordenlijst gaan dus vaak de fout in: false alarms (spellingcorrectie) afbreekfouten Natuurlijke Taalverwerking

14 Natuurlijke Taalverwerking
Spellingcorrectie Fouten vinden is tamelijk eenvoudig Correcties voorstellen is lastiger: onmiddelijk  onmiddellijk pselling  spelling pijnzen  pijnzin, peinzen slaolm  slalom, slaolie, slakom kompjoeter  computer N.B. MS Office accepteert pijnzen en slaolm! Natuurlijke Taalverwerking

15 Natuurlijke Taalverwerking
Afbreken Op basis van lettergreepstructuur: af-bre-ken, niet afbr-eke-n Maak het begin van de lettergreep zo lang mogelijk: ha-mer, niet ham-er al-fa-bet, niet alf-ab-et Met inachtneming van morfeemgrenzen: lamp-licht, niet lam-plicht fietslamp-je vs. slagboom-pje Natuurlijke Taalverwerking

16 Natuurlijke Taalverwerking
Afbreekalgoritme: Verdeel een woord in samenstellende delen (morfemen), Verdeel de delen in lettergrepen, Zorg ervoor dat het begin van de lettergreep zo lang mogelijk is. Natuurlijke Taalverwerking

17 Natuurlijke Taalverwerking
Eindige Automaten De eenvoudigste machines om taal (reeksen symbolen) te verwerken zin eindige automaten. Een automaat bestaat uit een aantal toestanden transities een begintoestand één of meer eindtoestanden Natuurlijke Taalverwerking

18 Natuurlijke Taalverwerking
Eindige Automaten B A 3 1 C 4 C 2 D Natuurlijke Taalverwerking

19 Natuurlijke Taalverwerking
Reguliere expressies Handige manier om automaten te definiëren. A* = nul of meer A’s A+ = één of meer A’s [A, B] = een A gevolgd door een B {A, B} = een A of een B [A, B^] = een A optioneel gevolgd door een B etc…. Natuurlijke Taalverwerking

20 Natuurlijke Taalverwerking
Van Noord’s FSA Pakket Software voor het werken met reguliere expressies en automaten Vertaalt reguliere expressies in automaten en laat resultaat zien Veel toeters en bellen voor taalkundige toepassingen. Tutorial Natuurlijke Taalverwerking

21 Natuurlijke Taalverwerking
Opdracht 1 Lees hoofdstuk 1, 2, en 3 van de syllabus. Doe de FSA tutorial, tot en met transducers. Maak opdracht 1 (zie Deadline: Maandag 5 april Natuurlijke Taalverwerking


Download ppt "Natuurlijke Taalverwerking"

Verwante presentaties


Ads door Google