Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Slides:



Advertisements
Verwante presentaties
Grammar Chapter 4 – G1 What en Which.
Advertisements

Deltion College Engels C1 Gesprekken voeren [Edu/002]/ subvaardigheid lezen thema: Order, order…. can-do : kan een bijeenkomst voorzitten © Anne Beeker.
Proeftentamen Media Ecologie. Opbouw tentamen als opbouw cursus • 4 kennisvragen • 4 politieke vragen • 2 verdiepingsvragen.
Klanken 2.
Taalwetenschap in de CKI-bachelor
En wat doet taalkunde in het programma van CKI?
Natuurlijke Taalverwerking
AI91  Het Probleem  Grammatica’s  Transitie netwerken Leeswijzer: Hoofdstuk AI Kaleidoscoop College 9: Natuurlijke taal.
Tussentoets Digitale Techniek. 1 november 2001, 11:00 tot 13:00 uur. Opmerkingen: 1. Als u een gemiddeld huiswerkcijfer hebt gehaald van zes (6) of hoger,
Grammar Chapter 6 G 3 Some en Any. Some en Any In klas 1 heb je al iets over some en any geleerd, nl dat beide woorden te maken hebben met een onbepaalde.
Grammar Chapter 3 – G3 One en Ones.
From computer power and human reason. Joseph Weizenbaum.
Deltion College Engels C1 Schrijven [Edu/002] thema: CV and letter of application can-do : kan complexe zakelijke teksten schrijven © Anne Beeker Alle.
Deltion College Engels En Projectopdracht [Edu/001] thema: research without borders can-do/gesprekken voeren : 1. kan eenvoudige feitelijke informatie.
Writing exercise This one goes into your language portfolio!!! You have until the end of the week to hand it in… (So you have a little longer than it says.
Semantische Interpretatie Jurafsky & Martin (Ed. 1): Hoofdstuk 15
Rational Unified Process RUP Jef Bergsma. Iterations –Inception –Elaboration –Construction –Transition De kernbegrippen (Phases)
Deltion College Engels B2 Spreken/presentaties/subvaardigheid lezen [Edu/003] thema: Holland – coffee shops and euthanasia? can-do : kan een duidelijk.
English and IPC How to teach content through English.
Deltion College Engels B1 Lezen [no. 001] can-do : 2 products compared.
Deltion College Engels B1 Schrijven [Edu/003] thema: what have I done wrong…? can-do : kan s/ brieven schrijven over persoonlijke zaken © Anne Beeker.
Deltion College Engels B1 Gesprekken voeren [Edu/006] thema: Look, it says ‘No smoking’… can-do : kan minder routinematige zaken regelen © Anne Beeker.
Deltion College Engels B2 Schrijven [Edu/006] thema: Euromail can-do : kan in persoonlijke s nieuws en standpunten van een ander becommentariëren.
Deltion College Engels C1 Spreken/Presentaties [Edu/004] thema ‘Today I will talk to you about… ‘ can-do : kan duidelijke, gedetailleerde beschrijving.
Deltion College Engels B2 Spreken/presentaties/subvaardigheid lezen [Edu/002] thema: how stuff works can-do : kan de werking van een produkt uitleggen.
Deltion College Engels A2 Lezen [Edu/001] thema: What about smoking in this B&B? can-do : kan specifieke informatie vinden en begrijpen in eenvoudig, alledaags.
Deltion College Engels C1 Spreken [Edu/002] thema: A book that deserves to be read can-do : kan duidelijke, gedetailleerde samenvatting geven van een gelezen.
Deltion College Engels B2 Gesprekken voeren [Edu/005]/subvaardigheid luisteren thema: ‘Pink pop and air-controllers on strike’ can-do : kan in een telefoongesprek.
Wednesday, 01 April 2015 woensdag 1 april 2015 You can walk or you can run You feel sad or you have fun Live today and don’t feel sorrow Don’t think.
Deltion College Engels B2 Lezen [Edu/004] thema: Scanning, a race against the time can-do: kan snel belangrijke detailinformatie vinden in lange en complexe.
Nothing Is As It Seems Introduction Lesson. What are we going to do? - We gaan deze periode spreek, luister, lees en schrijflessen in een thema oefenen.
Deltion College Engels B1 En Spreken/Presentaties [Edu/006] Thema: “The radio station“ can-do : kan een publiek toespreken, kan verzonnen gebeurtenissen.
Deltion College Engels B1 Schrijven [Edu/006] thema: to a prisoner – Amnesty International can-do : kan korte tekst schrijven volgens een vast format ©
Deltion College Engels C1 Schrijven [Edu/007] thema: Mind twister or how to write an essay… can-do : kan heldere, goed gestructureerde uiteenzetting schrijven.
Deltion College Engels C1 Schrijven [Edu/006] thema: Dear editor,
Nothing Is As It Seems Lesson 7 What’s the Story?.
Deltion College Engels B2 Lezen [Edu/003] thema: Topical News Lessons: The Onestop Magazine can-do: kan artikelen en rapporten begrijpen die gaan over.
Deltion College Engels B2 Spreken [Edu/001] thema: What’s in the news? can-do : kan verslag doen van een gebeurtenis en daarbij meningen met argumenten.
AWK A Pattern scanning and processing language made by Aho Weinberger Kernighan and explained by Albert Montijn.
Deltion College Engels B1 Spreken [Edu/001] thema: song texts can-do : kan een onderwerp dat mij interesseert op een redelijk vlotte manier beschrijven.
Deltion College Engels B2 Lezen[Edu/001] /subvaardigheid schrijven korte samenvattingen thema: Exotic news can-do : lezen om informatie op te doen - kan.
Deltion College Engels B2 Gesprekken voeren [Edu/009] thema: ‘We’d better go to…’ can-do : kan in vertrouwde situaties actief meedoen aan discussies over.
Deltion College Engels B2 Schrijven [Edu/005] thema: Writing a hand-out can-do: kan een begrijpelijke samenvatting schrijven © Anne Beeker Alle rechten.
Deltion College Engels B2 Schrijven [Edu/002] thema: how we celebrate birthdays can-do : kan een samenhangend verhaal schrijven.
Deltion College Engels B1 En Spreken/Presentaties [Edu/003]/ Subvaardigheid lezen Thema: Once upon a time… can-do : kan een verhaal(tje) vertellen © Anne.
Deltion College Engels B1 Lezen [Edu/002] thema: But I ‘ve read it in… can-do : kan hoofdthema en belangrijkste argumenten begrijpen van eenvoudige teksten.
Deltion College Engels B2 Gesprekken voeren [Edu/007] thema: ‘With this mobile you can…’ can-do : kan op betrouwbare wijze gedetailleerde informatie doorgeven.
Copyright met toestemming gebruikt van Stichting Licentie © 1999 Joel Houston/Hillsong Publishing 1/6 EVERYDAY (Joel Houston) 1. What to say Lord it's.
Deltion College Engels B2 (telefoon)gesprekken voeren[Edu/002] /subvaardigheid lezen/schrijven thema: I am so sorry for you… can-do : kan medeleven betuigen.
Deltion College Engels C1 Lezen [Edu/002]/ subvaardigheid schrijven thema: Hwaet! (Old) English literature can-do: kan snel belangrijke detailinformatie.
Future Tenses by Nathalie French ©. Just like in Dutch, we can talk about things that take place in the present, the past or the future
1/11 Algoritmen en Complexiteit Programmeerparadigma’s Voorbereiding Visitatie ZAP vergadering woensdag 27/2/2008.
Skin by Roald Dahl What do you think this text will be about?
Lamb to the Slaughter Who or what is ‘the Lamb to the Slaughter’ in this story?
The Research Process: the first steps to start your reseach project. Graduation Preparation
Key Process Indicator Sonja de Bruin
Salt & Light Zout & Licht
Woordvolgorde in Engelse bevestigende en vragende zinnen.
Dictionary Skills!?.
Tool WB-1: Natuurwetenschappen in de beroepspraktijk
De taaltaak
Today: Chapter 2 Discuss SO 2 What to study for your test?
Hulpwerkwoorden Hoofdwerkwoorden vs hulpwerkwoorden
ACTmodel van psychopathologie
Dynamic Architecture What about you?
Assignment: calling for a meeting about internet use at work
PHP regular expressions
Matthew 16 “But who do you say that I am?”  Simon Peter replied, “You are the Christ, the Son of the living God.”  And Jesus answered him, “Blessed are.
Chapter 6 Sounds cool! Grammar Stepping Stones 2 t/hv.
Leerlingen zeiden: “Je MOET hem loslaten
Transcript van de presentatie:

Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie

Vorm van deze cursus: Elke week: Hoorcollege Huiswerk Werkcollege Oefenopdrachten

Vorm van deze cursus: Elke week: Hoorcollege (Remko Scha) Huiswerk (Prolog-opdrachten) Werkcollege (Tikitu de Jager) Oefenopdrachten

Vorm van deze cursus: Elke week: Hoorcollege (Remko Scha) Huiswerk (Prolog-opdrachten) Werkcollege (Tikitu de Jager) Oefenopdrachten Ingangseis: Enige vaardigheid in Prolog programmeren

Vorm van deze cursus: Elke week: Hoorcollege (Remko Scha) Huiswerk (Prolog-opdrachten) Werkcollege (Wouter Josemans) Oefenopdrachten Ingangseis: Enige vaardigheid in Prolog programmeren Niet: Andere vakken. Ook niet: tentamen Prolog

Jurafsky & Martin: Speech and Language Processing eerste editie (online: blackboard course documents) of tweede editie (te koop) [Ook een klein stukje uit: Russell & Norvig: Artificial Intelligence: a Modern Approach.]

Taaltheorie & Taalverwerking = Inleiding Computerlinguïstiek = Inleiding Taaltechnologie

Taalverwerking Cognitie Toepassingen

Cognitie Toepassingen: Machine Translation Information Retrieval Question Answering Taalverwerking

Taaltheorie (Linguïstiek)

Linguïstiek: Taal-analyse op verschillende niveau's: Fonetiek/Fonologie: Geluid Morfologie: Woord-structuur Lexicon: Woorden Syntax: Zins-structuur Discourse: Text

Syntax: Structuur Semantiek: Betekenis Pragmatiek: Gebruik Linguïstiek: Taal-analyse in verschillende dimensies:

Onze focus: de interpretatie van tekst. [Derdejaars-college Zeevat: Discourse] Linguïstiek & A.I.

Onze focus: de interpretatie van tekst. [Derdejaars-college Zeevat: Discourse] Daarom eerst: de interpretatie van zinnen. [Tweedejaars-college Scha: Natuurlijke-Taal Interfaces] Linguïstiek & A.I.

Onze focus: de interpretatie van tekst. [Derdejaars-college Zeevat: Discourse] Daarom eerst: de interpretatie van zinnen. [Tweedejaars-college Scha: Natuurlijke-Taal Interfaces] Daarom eerst: de structuur van zinnen. [Dit college.] Linguïstiek & A.I.

Inhoud van deze cursus: "Taaltheorie en Taalverwerking" = Formele Linguïstiek & Computerlinguïstiek

Inhoud van deze cursus: Blok a: Structuur van woorden en zinnen (morfologie en syntax): Formele Talen en Automaten Formele Grammatica's Analyse-algoritmes t.b.v. zulke grammatica's

Inhoud van deze cursus: Blok b: Semantiek (Betekenis) Discourse (Tekst & Dialoog) Toepassingen (b.v.: Machine Translation)

Formele Linguïstiek Basics Computerlinguïstiek Logica Machine Learning Advanced Computerlinguïstiek

Week 1: Formele talen en automaten. Deel 1: Reguliere Expressies & Eindige-Toestands-Automaten.

Theorie der Formele Talen en Automaten. Wiskunde over verzamelingen strings. Uitgevonden door: Noam Chomsky Klassiek overzichtsboek: Hopcroft & Ullman Prettig leerboek: Peter Linz

Theorie der Formele Talen en Automaten. String: Sequentie van discrete symbolen, afkomstig uit een gegeven "alphabet".

Theorie der Formele Talen en Automaten. String: Sequentie van discrete symbolen, afkomstig uit een gegeven "alphabet". Taal: Verzameling strings.

Theorie der Formele Talen en Automaten. String: Sequentie van discrete symbolen, afkomstig uit een gegeven "alphabet". Taal: Verzameling strings. Grammatica: Definitie van een taal.

Theorie der Formele Talen en Automaten. String: Sequentie van discrete symbolen, afkomstig uit een gegeven "alphabet". Taal: Verzameling strings. Grammatica: Definitie van een taal. Automaat: "Implementatie" van een grammatica.

Grammatica's en automaten heb je in soorten: meer of minder "krachtige". We beginnen nu met de eenvoudigste.

Grammatica's en automaten heb je in soorten: meer en minder "krachtige". We beginnen nu met de eenvoudigste: Reguliere Expressies & Finite State Automata

Grammatica's en automaten heb je in soorten: meer en minder "krachtige". We beginnen nu met de eenvoudigste: Reguliere Expressies & Finite State Automata [Volgende week: hiërarchie van verschillende soorten grammatica's en automaten.]

Formele talen. Neem aan: alphabet: a...z en  Talen b.v.: {ab, ad, da,  } {ab} { , ab, abab, ababab, abababab,.....} {ab, aabb, aaabbb, aaaabbbb,...}

Reguliere expressies: Strings: ab --> {ab} Disjunctie: (ab | bc)-->{ab, bc} Kleene Star: (ab)*--> { , ab, abab, ababab, abababab,...} Concatenatie: (ab)*c-->{c, abc, ababc, abababc,...}

Reguliere expressies (a | b)*c-->

Reguliere expressies (a | b)*c-->{c, ac, bc, aac, abc, bac, bbc,...}

Reguliere expressies (a | b)*c-->{c, ac, bc, aac, abc, bac, bbc,...} (a*c) | ( b*c)-->{c, ac, aac,aaac,..., bc, bb, bbbc,...}

Reguliere expressies in Perl e.d.: Heel veel "syntactic sugar": negatie optionaliteit minstens één [0-9], [a-z] wildcard etc.

Finite State Automata Ook wel genoemd: Finite State Machines, Finite Automata, Eindige-Toestands- Automaten, Eindige Automaten Ander formalisme, equivalent aan Reguliere Expressies

FSAs als Grafen

J & M: "Schapentaal": baa(a)*!

FSAs als Grafen J & M: "Schapentaal": baa(a)*!

Sheep FSA We can say the following things about this machine It has 5 states At least b,a, and ! are in its alphabet q0 is the start state q4 is an accept state It has 5 transitions

But note There are other machines that correspond to this language

More Formally: Defining an FSA We specify an FSA by enumerating the following things: The set of states: Q A finite alphabet: A A start state q 0 A set F of accepting/final states F  Q A transition function  (q,i) that maps Q x A to Q

Transition function can be represented by a state- transition table:

Recognition Recognition is the process of determining if a string is accepted by a machine It is the process of determining if a string is in the language defined by the machine

Recognition Start in the start state Examine the current input Consult the table Go to a new state and update the tape pointer.

D-Recognize

FSAs can be viewed from two perspectives: –Acceptors that can tell you if a string is in the language –Generators to produce all and only the strings in the language

Dollars and Cents

Non-Determinism

Epsilon transitions do not examine or advance the tape during recognition 

Equivalence Non-deterministic machines can be converted to deterministic ones That means that they have the same power; non- deterministic machines are not more powerful than deterministic ones

Going from Regular Expressions to FSA All regular expression operators can be implemented by combinations of concatenation, disjunction, and closure

So if we could just show how to turn closure/union/concat from regexps to FSAs, this would give an idea of how FSA compilation works. Take any regular expression and build an automaton Intuition: induction Base case: build an automaton for single symbol (say ‘a’) Inductive step: Show how to imitate the 3 regexp operations in automata

Disjunction Accept a string in either of two languages

Concatenation Accept a string consisting of a string from language L1 followed by a string from language L2.

Closure Verbind de eindtoestanden met de begintoestand met een epsilon-arc.

Opgaven Wekelijks per verzenden aan met cc aan Vermeld in de subject-heading: "TTTV". Gezamenlijke inzending door groepjes van twee personen wordt toegestaan en zelfs aangemoedigd.

Eindcijfer Eindcijfer is het gemiddelde van het gemiddelde cijfer van alle opdrachten en het cijfer van het tentamen, met dien verstande dat beide voldoende moeten zijn. Er is een tussentoets in week 8.