De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Natuurlijke Taalverwerking 3e trimester 98/99 docent: Gosse Bouma.

Verwante presentaties


Presentatie over: "Natuurlijke Taalverwerking 3e trimester 98/99 docent: Gosse Bouma."— Transcript van de presentatie:

1 Natuurlijke Taalverwerking 3e trimester 98/99 docent: Gosse Bouma

2 Inleiding Week 1

3 Natuurlijke Taalverwerking3 Inhoud Week 1-4 : Woorden woordenlijsten, woordenboeken, morfologie, spelling, afbreken, tekst naar spraak, etc. Finite State Netwerken, reguliere expressies, Transducers FSA pakket

4 Natuurlijke Taalverwerking4 Inhoud Week 5-10: Zinnen Grammatica, zinsontleden, automatisch vertalen, vraagzinnen, hoofd- en bijzinnen, etc. definite clause grammar, shift-reduce en chart parsing, unificatie grammatica Hdrug pakket

5 Natuurlijke Taalverwerking5 Studiemateriaal Webpagina: Syllabus Computationele Taalkunde en Taaltechnologie

6 Natuurlijke Taalverwerking6 Werkvorm en Toetsing Practicum: Zaal H (UNIX) –Vrijdag –Vrijdag –Opdrachten mogen in groepjes van 2 gemaakt worden. Toetsing: –Practicumopdrachten (50%) –Tentamen (50%)

7 Natuurlijke Taalverwerking7 Wat is computertaalkunde? Taalkundig onderzoek met behulp van de computer: –tellen van woorden, woordgroepen, zinslengte, etc. –testen van taalkundige theorieën, –automatisch leren van taalkundige kennis.

8 Natuurlijke Taalverwerking8 Wat is computertaalkunde? ICT-toepassingen waar kennis van taal een rol speelt: –spellingcorrectie –tekst naar spraak (demo Fluent Dutch) –automatisch vertalen (demo Alta Vista)demo Alta Vista –dialoogsystemen (intelligente voice response) (NS reisinformatie) –rapporten genereren (weerbericht, beursnieuws)

9 Natuurlijke Taalverwerking9 Meer toepassingen Spraakherkenning (Philips FreeSpeech, Lernhout & Hauspie,...). Intelligente Information Retrieval (concepten, morfologie, multilinguaal, multimediaal) Optical Character Recognition Samenvatten

10 Natuurlijke Taalverwerking10 Wat je ook doet, de semantiek gooit roet Makkelijk ? –Spellingcontrole, –Afbreken, –OCR, –Tekst naar spraak, –Information Retrieval, –Voice Response, –Part of Speech tagging, –Samenvatten, –Rapporten genereren. Moeilijk? –Grammaticale controle (d/t fouten) –Dicteersystemen (grote woordenschat) –Volledige syntactische en semantische analyse –Automatisch vertalen

11 Natuurlijke Taalverwerking11 Woorden (Bijna) iedere toepassing maakt gebruik van een woordenboek Sommige toepassingen bestaan vrijwel alleen uit een woordenboek: –spellingcorrectie –afbreken –tekst naar spraak –spraakherkenning –vertaalhulp

12 Natuurlijke Taalverwerking12 Hoeveel woorden zijn er? Groene Boekje : 125K Words-L (public domain woordenlijst voor spellingcorrectie en afbreken): 250K Celex (lexicale database) : 325K Van Dale:…

13 Natuurlijke Taalverwerking13 Geen woordenlijst is volledig. Voorbeeld: –Eindhoven corpus –1 mln woorden. –40% hiervan ontbreekt in Celex Toepassingen die alleen gebruik maken van een woordenlijst gaan dus vaak de fout in: –false alarms (spellingcorrectie) –afbreekfouten

14 Natuurlijke Taalverwerking14 Spellingcorrectie Fouten vinden is tamelijk eenvoudig Correcties voorstellen is lastiger: –onmiddelijk  onmiddellijk –pselling  spelling –pijnzen  pijnzin, peinzen –slaolm  slalom, slaolie, slakom –kompjoeter  computer –N.B. MS Office accepteert pijnzen en slaolm!

15 Natuurlijke Taalverwerking15 Afbreken Op basis van lettergreepstructuur: –af-bre-ken, niet afbr-eke-n Maak het begin van de lettergreep zo lang mogelijk: –ha-mer, niet ham-er –al-fa-bet, niet alf-ab-et Met inachtneming van morfeemgrenzen: –lamp-licht, niet lam-plicht –fietslamp-je vs. slagboom-pje

16 Natuurlijke Taalverwerking16 Afbreekalgoritme: Verdeel een woord in samenstellende delen (morfemen), Verdeel de delen in lettergrepen, Zorg ervoor dat het begin van de lettergreep zo lang mogelijk is.

17 Natuurlijke Taalverwerking17 Eindige Automaten De eenvoudigste machines om taal (reeksen symbolen) te verwerken zin eindige automaten. Een automaat bestaat uit –een aantal toestanden –transities –een begintoestand –één of meer eindtoestanden

18 Natuurlijke Taalverwerking18 Eindige Automaten A B C C D

19 Natuurlijke Taalverwerking19 Reguliere expressies Handige manier om automaten te definiëren. A* = nul of meer A’s A+ = één of meer A’s [A, B] = een A gevolgd door een B {A, B} = een A of een B [A, B^] = een A optioneel gevolgd door een B etc….

20 Natuurlijke Taalverwerking20 Van Noord’s FSA Pakket Software voor het werken met reguliere expressies en automaten Vertaalt reguliere expressies in automaten en laat resultaat zien Veel toeters en bellen voor taalkundige toepassingen. Tutorial

21 Natuurlijke Taalverwerking21 Opdracht 1 Lees hoofdstuk 1, 2, en 3 van de syllabus. Doe de FSA tutorial, tot en met transducers. Maak opdracht 1 (zie Deadline: Maandag 5 april


Download ppt "Natuurlijke Taalverwerking 3e trimester 98/99 docent: Gosse Bouma."

Verwante presentaties


Ads door Google