Orientatie Alfa-informatica Computer-taalkunde Gosse Bouma www.let.rug.nl/~gosse/orient/

Slides:



Advertisements
Verwante presentaties
Redekundig ontleden Over waarom, wat en hoe....
Advertisements

Algemene Weetjes Over Tekst verklaren en het CSE.
HET CSE NEDERLANDS. Je spreekt toch al jaren
Sprint Jabbla.
De Veilig in elke Vezel campagne is een initiatief van VERAS en VVTB ter bevordering van de veilige verwijdering van asbest in Nederland. Deze campagne.
Web 3.0: van omgevallen boekenplank tot georganiseerde kennisbank Frank van Harmelen Vrije Universiteit Amsterdam Creative Commons License: allowed to.
Welkom. Wat gaan we doen? • Data leren gebruiken als startpunt van verhalen • Naar de IATI set kijken van buitenlandse zaken.
Communicatie & Presentatie
Thinkquest2 versie 2013 info: vanaf februari 2013.
Loverboys.
Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 1 Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden Mariëlle Stoelinga.
LITERATUUR ONDERZOEK.
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
Definite Clause Grammar
Natuurlijke Taalverwerking 3e trimester 98/99 docent: Gosse Bouma.
1. Parsing (epsilon’s, tabellen) 2. Unificatie grammatica Natuurlijke taalverwerking week 7.
Natuurlijke Taalverwerking
Hoofdzinnen, bijzinnen, en vraagzinnen in Unificatie Grammatica
Natuurlijke taalverwerking week 4
Natuurlijke Taalverwerking
Onderzoeksmethode Oftewel: met welke specifieke onderzoeksmethode kan ik het best mijn onderzoeksvraag beantwoorden.
Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden
Parsing: Top-down en bottom-up
Unificatie grammatica
Al doende leren training docenten
Deltion College Engels
Three steps to success Foutloos zinnen vertalen in drie stappen
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
WERKWOORDSPELLING Hoe doe je dat ?.
Woordenschat en kijk op taal Hoofdstuk 2 en 3
Informatievaardigheden Ecologie-2 (NCP-20503) september/oktober 2012 Corrie van Zeist, Liza Bruggenkamp, Marco van Veller, Wouter Gerritsma en Ans Brouwer.
OFC28 mediawijsheid les 7 leren door te maken
AI Kaleidoscoop Werkcollege 1: AI Overzicht Radu Serban
Evidence-Based Medicine
SE-Seneca voorbereiding op CE 2013!
Hoe gebruik ik -d & -t? Leren en oefenen Maar eerst…….
Loopbaan oriëntatie en begeleiding
Module Grammatica K3 zinsontleding.
Module Grammatica K3 zinsontleding.
Is ‘t kofschip gezonken…?
CONCEPT CHECKS & FAST FEEDBACK
Presentatietitel: aanpassen via Beeld, Koptekst en voettekst 1 Universiteit Twente meets school Zoeken in grote tekstbestanden Mariëlle Stoelinga.
Kennen en kunnen Wat je moet kennen en kunnen voor de SO Woordenschat H1 t/m H4 1. Woordraadstrategieën: -zoek een synoniem; -zoek een omschrijving of.
Grammatica zinsdelen H1 t/m H6
Centraal Examen Nederlands
Naam: 1 Werkwoord: Type je naam in het vak en druk op de play knop Beantwoord de vragen en kijk hoeveel je er goed had succes.
Werkwoordspelling Tegenwoordige tijd. Stam zoeken (infinitief –en) PersoonVormPersoon Ik …Stam Je/JijStam + t StamJe Hij/zij/hetStam + t Wij/jullie/zijStam.
SPELLING BIJVOEGLIJK GEBRUIKT DEELWOORD HOOFDLETTERGEBRUIK.
STAPPENPLAN VOOR HET MAKEN VAN EEN LEESTOETS LEESRONDE 1 - ORIENTEREND: -Lees titel, tussenkopjes etc. -Lees eerste en laatste alinea -Formuleer hoofdgedachte.
GRAMMATICA BLOK 1 T/M 4 Uitleg en voorbeelden Woordsoorten Basis leerjaar 4.
Leesvaardigheid Lezen en leestoetsen. ▪ 1. Gouden tip voor leestoetsen ▪ 2. Hoe pak je leestoetsen aan? ▪ 3. Wat doe je bij onbekende woorden? ▪ 4. Hoe.
Groep 4 Begrijpend lezen lezen
Groep 6 Begrijpend lezen
De vraag is je beste vriend
Les 4 havo Leesvaardigheistraining;
Meest voorkomende vragen bij examenteksten.
Groep 7 Begrijpend lezen lezen
Onvoltooid deelwoord/bijvoeglijk gebruikt deelwoord
Meest voorkomende vragen bij examenteksten.
Groep 5 Begrijpend lezen lezen
Hoofdstuk 1 Grammatica zinsdelen
Media educatie. Paula Veldman Onderwerp. Bijvoeglijk naamwoord Doel
Door Roos K, Roos V, Lianne, Yosta en Marlijne
Grammatica zinsdelen Redekundig ontleden.
volgende bladzijde terug
Reading strategies 2 Meaning of words, fixed expressions, multiple choice questions, open questions, article.
Bijvoeglijk gebruikt deelwoord hoofdlettergebruik
Jongens en meisjes …verschillende rollen
Grammatica: werkwoorden
Leesvaardigheid Woordbetekenis Leesvaardigheid – Woordbetekenis.
Transcript van de presentatie:

Orientatie Alfa-informatica Computer-taalkunde Gosse Bouma

Natuurlijke Taalverwerking2 Overzicht Taaltechnologie –Toepassingen, – Computer-taalkunde, –Woorden en reguliere expressies –Wat je ook doet, de semantiek gooit roet… Corpustaalkunde, –Zoeken en tellen in teksten –Corpus Internet

Natuurlijke Taalverwerking3 Taaltechnologie? ICT-toepassingen waar kennis van taal een rol speelt: –spellingcorrectie –tekst naar spraak (demo Fluent Dutch) –automatisch vertalen (demo Alta Vista)demo Alta Vista –dialoogsystemen (intelligente voice response ) (NS reisinformatie) –rapporten genereren (weerbericht, beursnieuws)

Natuurlijke Taalverwerking4 Meer toepassingen Spraakherkenning (Philips FreeSpeech, Lernhout & Hauspie,...), Intelligente Information Retrieval (concepten, morfologie, multilinguaal, multimediaal), Document ( ) classificatie, Samenvatten.

Natuurlijke Taalverwerking5 Wat is computer-taalkunde? Taalkundig onderzoek met behulp van de computer: – taaltechnologie, – testen van taalkundige theorieën, – automatisch leren van taalkundige kennis.

Natuurlijke Taalverwerking6 Spellingcorrectie Fouten vinden is tamelijk eenvoudig Correcties voorstellen is lastiger: –onmiddelijk  onmiddellijk –pselling  spelling –pijnzen  pijnzin, peinzen –slaolm  slalom, slaolie, slakom –kompjoeter  computer –N.B. MS Office accepteert pijnzen en slaolm !

Natuurlijke Taalverwerking7 Woorden (Bijna) iedere toepassing maakt gebruik van een woordenboek Sommige toepassingen bestaan vrijwel alleen uit een woordenboek: –spellingcorrectie –afbreken –tekst naar spraak –spraakherkenning –vertaalhulp

Natuurlijke Taalverwerking8 Hoeveel woorden zijn er? Groene Boekje : 125K Words-L (public domain woordenlijst voor spellingcorrectie en afbreken): 250K Celex (lexicale database) : 325K Van Dale:…

Natuurlijke Taalverwerking9 Geen woordenlijst is volledig. Voorbeeld: – Eindhoven corpus –1 mln woorden. –40% hiervan ontbreekt in Celex Toepassingen die alleen gebruik maken van een woordenlijst gaan dus vaak de fout in: –false alarms (spellingcorrectie) –afbreekfouten

Natuurlijke Taalverwerking10 Afbreken Op basis van lettergreepstructuur: – af-bre-ken, niet afbr-eke-n Maak het begin van de lettergreep zo lang mogelijk: – ha-mer, niet ham-er – al-fa-bet, niet alf-ab-et Met inachtneming van morfeemgrenzen: – lamp-licht, niet lam-plicht – fietslamp-je vs. slagboom-pje

Natuurlijke Taalverwerking11 Afbreekalgoritme: Verdeel een woord in samenstellende delen (morfemen), Verdeel de delen in lettergrepen, Zorg ervoor dat het begin van de lettergreep zo lang mogelijk is.

Natuurlijke Taalverwerking12 ‘Stemming’ herleiden van een woord tot een stam –fietsen, fietste, gefietst --> fiets, –lopen, gelopen, liep --> loop –varken --> varken nuttig voor veel toepassingen –information retrieval, –zinsontleden, …. Demo : XeroxXerox

Natuurlijke Taalverwerking13 Woordsoorten Benoemen van woorden op woordsoort (zelfst nw, ww, bijv nw, vz, lidw, …) herleiden van een woord tot een stam –fietsen --> fiets, –leven --> leef –varken --> varken nuttig voor veel toepassingen –zinsontleden, –automatisch vertalen, – information retrieval

Natuurlijke Taalverwerking14 Part-of-Speech tagging fiets -> zelfst. nw? werkwoord? fietsen -> zelfst. nw? werkwoord (infinitief, ott mv?) De fietsen staan in de schuur. We fietsen naar school. Maak gebruik van de woorden in de context om de juiste categorie te bepalen. Demo: ilk.kub.nlilk.kub.nl

Natuurlijke Taalverwerking15 Eindige Automaten De eenvoudigste machines om taal (reeksen symbolen) te verwerken zin eindige automaten. Een automaat bestaat uit –een aantal toestanden –transities –een begintoestand –één of meer eindtoestanden

Natuurlijke Taalverwerking16 Eindige Automaten A B C C D

Natuurlijke Taalverwerking17 Reguliere expressies Handige manier om automaten te definiëren. A* = nul of meer A’s A+ = één of meer A’s [A, B] = een A gevolgd door een B {A, B} = een A of een B [A, B^] = een A optioneel gevolgd door een B etc….

Natuurlijke Taalverwerking18 Reg Ex voor woordsoorten Bijvoeglijke naamwoorden: o.a. woorden die eindigen op -e [? *, e] maar zelfst. nw eindigen vaak op -je! [?*, e] & ~ [? *, j, e] [? *, e] - [?*, j, e] [?*, ? - j, e]

Natuurlijke Taalverwerking19 Opdracht 1 Probeer de reguliere expressie demo op het webreguliere expressie demo Bedenk een reg ex voor bijv. nw’en, Test op een willekeurige verz. Voorbeelden

Natuurlijke Taalverwerking20 Wat je ook doet, de semantiek gooit roet Makkelijk ? –Spellingcontrole, –Afbreken, –OCR, –Tekst naar spraak, –Information Retrieval, –Voice Response, –Part of Speech tagging, –Samenvatten, –Rapporten genereren. Moeilijk? –Grammaticale controle (d/t fouten) –Dicteersystemen (grote woordenschat) –Volledige syntactische en semantische analyse –Automatisch vertalen

Natuurlijke Taalverwerking21 Corpustaalkunde Corpora (verzamelingen tekst) bevatten veel nuttige informatie over het gebruik van taal, Tekst is elektronisch beschikbaar op CD of via Internet, Corpustaalkunde probeert taalkundige kennis te vinden in corpora, Bijna alle taaltechnologie maakt gebruik van corpora.

Natuurlijke Taalverwerking22 Onderzoeksmethode 1: “Literatuuronderzoek” Verzin een vraag, Lees boeken en artikelen over het onderwerp, (doe wat denkwerk,) Doe verslag van je bevindingen

Natuurlijke Taalverwerking23 Onderzoeksmethode 2: “Data-gestuurd, Experimenteel” Verzin een vraag, verzamel data, bedenk een experiment tel, experimenteer, vergelijk, (doe wat denkwerk), Doe verslag van je bevindingen Corpusonderzoek is een manier om deze methode binnen de letteren te hanteren.

Natuurlijke Taalverwerking24 Corpora Veel vragen over taal kun je alleen/beter beantwoorden door te kijken naar echt taalgebruik. Corpus: een verzameling tekst of gesproken taal B.v. British National Corpus: –100 mln woorden, –Allerlei tekstsoorten, stijlen, auteurs –Voorzien van woordsoort

Natuurlijke Taalverwerking25 Voorbeeld: “X laat zich” From: To: Subject: Vraag Gegeven voorbeelden als “de deur laat zich openen met een sleutel” “de auto laat zich starten door contact te maken” Heeft een van jullie dan het gevoel “vrije wil” (bewust of onbewust) aan de sleutel/ de auto toe te kennen?

Natuurlijke Taalverwerking26 “Laat zich” in Eindhoven corpus het laat zich verstaan dat het afzoeken van…. Dat het gevaarvolle avontuur slaagt, laat zich voorspellen Het bedenken van een dergelijke naieve gewapende overval laat zich moeilijk verenigen met….. de cassette laat zich net zo gemakkelijk inbrengen en uitnemen De combinatie van schone stad en industriestad laat zich moeilijk rijmen Uit de aantekeningen laat zich reconstrueren hoe onze schrijfster… Hij slaat zich verwoed op een knie Ongeveer 25 resultaten (2 false positives), met persoon/abstractum/dat- zin/apparaat als onderwerp

Natuurlijke Taalverwerking27 Zoeken op het Web Het web is niet zonder meer geschikt voor corpusonderzoek, Maar bevat wel veel data (ook voor minder courante talen) WebCorp: Netkwic: Search-engine die tekstfragmenten als resultaat oplevert.

Natuurlijke Taalverwerking28 Corpus Internet Nederlands Corpus Internet is naar schatting meer dan 100 mln woorden groot. (Oostendorp & VdWouden, ts. Ned. Taalkunde, 1998) Is alweer een Nederlands woord, en weeral Vlaams? Is “best wel” gebonden aan bepaalde registers? (nieuwe woorden, tussenklanken,…)

Natuurlijke Taalverwerking29 Opdracht 2: Corpus internet Bekijk de vragen over spelling en betekenis bij de Taaladviesdienst (Onze Taal) Zoek voor een probleemwoord op het Web naar de verhouding tussen goede en foute spelling, Zoek op het Web naar voorbeelden van woorden met een moeilijke betekenis.