Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen (AI-LAB 1986-1989)

Slides:



Advertisements
Verwante presentaties
Janine van Manen, Helene Andrea, Roel Verheul
Advertisements

Op zoek naar de ware Over de zoektocht naar een christelijke partner
Web 3.0: van omgevallen boekenplank tot georganiseerde kennisbank Frank van Harmelen Vrije Universiteit Amsterdam Creative Commons License: allowed to.
Stijn Hoppenbrouwers Software Engineering les 1 Algemene inleiding en Requirements Engineering.
Olga Haarman, 11 juni 2009 Kulturhusberaad Positionering van het Kulturhus 1.
Online leerplatform voor het Nederlands als pluricentrische taal Dit project werd gefinancierd met de steun van de Europese Commissie. ('Grant Agreement'-nr.:
© 2010 Noordhoff UitgeversMarketingcommunicatiestrategie.
Mobile Communication Digitale Media Paul Koole Rodney de Grave.
- Inhoud Artificial Intelligence - Inhoud Wat is AI? OorsprongReasoningLearning • Wat is Artificial Intelligence.
De toekomst van de betaalinstrumenten
Datacommunicatie en Netwerken Les 1: netwerken in vogelvlucht
REBELS: Race and Ethnicity Based Education; Local Solutions
‘Het spel waarbij je supersnel een beroemd persoon moet raden!’
Via BaTaVo en prioriteitenlijst op weg naar een (betere) TST-infrastructuur voor het Nederlands Helmer Strik en vele anderen.
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Adaptieve Ondersteuning van Mens-Computer Teams Een Verkenning van het Gebruik van Cognitieve Modellen van Vertrouwen en Aandacht Peter-Paul van Maanen.
Duidelijk schrijven voor iedereen
Geld & Geluk Laura Spierdijk.
Denktank van Nederland Krijn van Beek, dec
Onderzoeksdag Associatie Universiteit & Hogescholen
Sociolinguïstiek Bijeenkomst 3.
1 Omgaan met onderzoeksdata: beheer van onderzoeksdata in uw instelling Inleiding bij de studiedag georganiseerd door VVBAD, aan de Universiteit Antwerpen,
CLARIN: een introductie Ineke Schuurman Coördinator CLARIN-Vlaanderen.
Het CE wiskunde C Ruud Stolwijk Toetsdeskundige wiskunde bij Cito
En wat doet taalkunde in het programma van CKI?
Nieuwe encyclopedie van de Vlaamse Beweging Frankie Schram 1 Nieuwe encyclopedie van de Vlaamse Beweging Werken met een webstek Fr. Schram 26/02/2000.
Universal Design for Learning 24/09/2013 UGent Karen Leyman.
Het belang van een evidence based benadering in het onderwijs
Lucas Aerbeydt & Alexander Ide 1 SPYWARE You are being watched.
Ontwerpen van Informatiesystemen met
Informatievaardig bij Trendanalyse: M eer dan Google Jaroen Kuijper, informatiespecialist
Nijmeegs Instituut voor Sociaal en Cultureel Onderzoek Communicatiewetenschap.
Geest, brein en cognitie Filosofie van de geest en Grondslagen van de cognitiewetenschap Fred Keijzer.
Portfolio
Als we wisten wat we deden, heette het geen onderzoek.
Big Data - De hype voorbij Toepassing bij Centraal Bureau voor de Statistiek (CBS) en Rabobank Piet Daas (CBS) Hilde van Hulten (Rabobank) Klik hier voor.
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
Uitspraak trainen met een computer: is dat mogelijk? Ambra Neri Catia Cucchiarini, Helmer Strik Radboud Universiteit Nijmegen, CLST.
1 Wie durft er nog in een vliegtuig, trein of auto te stappen? Over betrouwbaarheid van software Frits Vaandrager Institute for Computing and Information.
Inleiding CIW Werkcollege 6. Lyons (1984) maakt binnen taalgedrag (language behaviour) een onderscheid tussen de volgende taalmiddelen: Language behaviour.
‘Geef uw team vleugels’
Internationale Multi Channel Campagnes Marketing Pioneers Martin Boschhuizen.
UpToDate Tips and Tricks at Universiteit Antwerpen 5 December 2012 Ad-Jan Bos;Account Manager Benelux.
(social) media monitoring bij De Nederlandsche Bank
Je publiek aan het woord Hoe ga je beleidsmatig om met de stem van je publiek? Workshop - Dag voor Cultuurcommunicatie 13 december Gent.
Informatievaardigheden. Niveau 2. Gevorderd. Academiejaar 2010 – 2011 Els Martens & Carl Demeyere.
Ledenenquête 2013 Uitkomsten. Statistieken 23 vragen 91 leden begonnen 50 volledig ingevuld.
Improving health by sharing science 11/09/2014 ICT en datakwaliteit: een goede relatie? Ariaan Siezen - Nijmegen ICT coördinator Radboud Biobank/Parelsnoer.
Emeritiforum 23/10/2014 Ir. Wilfried Verachtert (Imec) Prof. Bart Preneel (KULeuven Esat) Moderator Prof. Em. Hugo De Man.
Sociale Media – Best Belangrijk Daniel
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Hans BennisMeertens Instituut (KNAW)
Deltion College Engels B1 Lezen [no. 001] can-do : 2 products compared.
Inleiding Adaptieve Systemen, Opleiding CKI, Utrecht. Auteur: Gerard Vreeswijk Inleiding adaptieve systemen Lerende classificatie systemen.
English Class 2G 1st of December 2010 It’s nice to be important, but it’s more important to be nice.
1 e-Books & i-Papers Rik Min researcher Centre for Telematics and Information Technology (CTIT) & Faculty of Educational Science and Technology (EDTE)
Tto: de laatste ontwikkelingen
3/30/2015 | 1 Bibliotheekinstructie Nederlands 2014.
Leren in de beroepspraktijk
Evidence-Based Medicine
Deltion College Engels B1 Spreken [Edu/001] thema: song texts can-do : kan een onderwerp dat mij interesseert op een redelijk vlotte manier beschrijven.
Karel Vlieghe - Utrecht 29 januari 2005 Veranderscenario’s voor e-Learning systemen Evolutie van e-Learning systemen door de jaren heen.
Grondbeginselen van de zelforganisatie: netwerken Eric Postma TiCC Universiteit van Tilburg.
Automatisch Vertalen SMT Lieve Macken Vakgroep Vertalen, Tolken en Communicatie.
Grammar – period 2.
CLIL-didactiek voor Duits
Ik ben Erik Stolper, huisarts in Heerde en onderzoeker verbonden aan de universiteiten van Maastricht en Antwerpen. Ik sta hier namens een groep onderzoekers.
Procedurele rechtvaardigheid in multiculturele conflicten
Laat ik mij voorstellen:
WELKOM bij Denkvragen stellen simonettekoven.nl 1.
Disclosure belangen (Potentiële) belangenverstrengeling Geen
Transcript van de presentatie:

Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen (AI-LAB )

Natuurlijke Taal Verwerking in AI Turing Test (1950) (imitation game) Kunnen computers denken? Computers van mensen onderscheiden op basis van een dialoog in natuurlijke taal

Wetenschappelijk belang Nauwe verwevenheid van taal, denken en bewustzijn Natuurlijke taal als belangrijkste medium voor Kennisrepresentatie en -opslag Communicatie

Sociaal en economisch belang Informatie-explosie (o.a. internet) 2002: Nieuw gedrukt materiaal: 2 petabyte / jaar Wetenschappelijke kennis: 2000 nieuwe pagina’s per minuut Verdubbeling elke 2-3 jaar

Sociaal en economisch belang Vertaalexplosie EU (2005) 20+ officiële talen Budget > 1 miljard euro per jaar 2500 vertalers 40% administratief budget Geen uniek Europees probleem: Zuid-Afrika heeft 11 officiële talen

Fundamentele probleem: oplossen van ambiguïteit Lexicaal Brussel wil vrachtwagens zwaarder belasten. Morfologisch Fremdzugehen, betrachtet die Familie als eine Schande. External train marriages, the family considers as a disgrace. Syntactisch De prins heeft zijn huwelijk met Verhofstadt besproken. Wereldkennis Hij had geen werk. Hij nam de krant. Hij werd lastiggevallen door een wesp. Hij nam de krant.

Oplossing: computermodellen Van tekst naar semantische representatie via Morfologische analyse Syntactische analyse Zinssemantiek Tekstsemantiek Semantische representatie Eerste orde predikatenlogica (+ logica’s voor tijd, modaliteit, defaults, …) Semantische netwerken Expliciete domeinkennis, wereldkennis Inferentie

John is going to Boston by bus (John Sowa) (  x:Go)(  y:Person)(  z:City)(  w:Bus) (name(y,'John')  name(z,'Boston')  agnt(x,y)  dest(x,z)  inst(x,w))

Problemen met deze aanpak Niet schaalbaar (werkt alleen voor microwerelden) Niet robuust Niet efficiënt Duur in ontwikkeltijd Geen “grounding” van concepten …

Even terug naar 1987 (AI-LAB Brussel)  Doctoraat (gestart in Nijmegen) over computermodel morfologie / fonologie van het Nederlands voor spraaksynthese (voorleesmachine)  GRAFON-D  Taalkundige regels (productieregels)  Modularisering morfologie - fonologie - lettergreepstructuur - klemtoonmodule  Geavanceerde kennisrepresentatie  KRS (frame-based)  Meervoudige overerving, encapsulering, multi-methodes, …  Doctoraat (gestart in Nijmegen) over computermodel morfologie / fonologie van het Nederlands voor spraaksynthese (voorleesmachine)  GRAFON-D  Taalkundige regels (productieregels)  Modularisering morfologie - fonologie - lettergreepstructuur - klemtoonmodule  Geavanceerde kennisrepresentatie  KRS (frame-based)  Meervoudige overerving, encapsulering, multi-methodes, …

Vaststelling  Wet van de verminderde meeropbrengst (derde wet van Hugo Brandt Corstius) klopt!

Eigenschap van taal  Weinig regelmatigheden, veel subregelmatigheden en uitzonderingen door  Ontlening  Etymologie  Allerlei variatie (idiolect, regiolect, gender, leeftijd, sociale klasse …)  Weinig regelmatigheden, veel subregelmatigheden en uitzonderingen door  Ontlening  Etymologie  Allerlei variatie (idiolect, regiolect, gender, leeftijd, sociale klasse …)

Alternatief: lerende systemen (statistiek)  Machine Learning activiteit in AI-LAB  Incidentele studies  Sejnowski & Rosenberg  Tekst naar spraak met neurale netwerken  Stanfill & Waltz  Tekst naar spraak met memory-based reasoning  Zucht …  Beter accuraatheid  Geen expliciete taalkundige modules, geen regels  Schaalbaar / Effici ë nt / Meer robuust  …  Machine Learning activiteit in AI-LAB  Incidentele studies  Sejnowski & Rosenberg  Tekst naar spraak met neurale netwerken  Stanfill & Waltz  Tekst naar spraak met memory-based reasoning  Zucht …  Beter accuraatheid  Geen expliciete taalkundige modules, geen regels  Schaalbaar / Effici ë nt / Meer robuust ……

Paradigm Shift  Start van productieve onderzoekslijn  “machine learning of language”  “memory-based language processing”  in Tilburg  ILK ( nu)  en Antwerpen  CNTS ( nu)  Belang van dit onderzoek  “Early Adopters” wereldwijd  Pioniersrol in Europa  Start van productieve onderzoekslijn  “machine learning of language”  “memory-based language processing”  in Tilburg  ILK ( nu)  en Antwerpen  CNTS ( nu)  Belang van dit onderzoek  “Early Adopters” wereldwijd  Pioniersrol in Europa

Computertaalkunde publicaties

Terug naar begrijpen van taal Vanuit de “market pull”, pragmatische oplossing Text Mining in plaats van tekstbegrip Oppervlakkige semantische analyse (concepten, relaties tussen concepten) Op basis van Machine Learning Robuust, efficiënt, schaalbaar, … Laat toepassingen toe als Question Answering, Summarization, Information Extraction, … Probleem: negatie, modaliteit, kwantificatie, inferentie, recursie, … Vanuit de wetenschap Maak schaalbare “shallow understanding” dieper Extraheer domein- en wereldkennis uit tekst met unsupervised learning

Voorbeeld: ‘Vraag-Antwoord systemen’ Geef antwoord op een vraag (in tegenstelling tot information retrieval: vind documenten die relevant zijn voor de vraag) V: Wie heeft de telefoon uitgevonden? A: Alexander Graham Bell V: Wanneer werd de telefoon uitgevonden? A: 1876

QA Systeem: Shapaqa (SHAllow PArsing QA) Analyseer de vraag Wanneer werd de telefoon uitgevonden? Welke informatie is gegeven? Werkwoord uitgevonden Voorwerp telefoon Welke informatie hebben we nodig? Een temporele frase verbonden met het werkwoord Document retrieval op WWW met de gegeven informatie Analyse van zinnen waar alle gegeven informatie in de juiste grammaticale relaties voorkomt Tel de antwoorden die voorkomen in de gevraagde grammaticale relatie (temporele frase)

Shapaqa: voorbeeld (Engels systeem) When was the telephone invented? Google: invented “the telephone” levert 835 paginas op 53 geanalyseerde zinnen met de twee gegeven relaties en met een temporele frase is through his interest in Deafness and fascination with acoustics that the telephone was invented in 1876, with the intent of helping Deaf and hard of hearing The telephone was invented by Alexander Graham Bell in 1876 When Alexander Graham Bell invented the telephone in 1876, he hoped that these same electrical signals could …

Shapaqa: frequentievolgorde Wanneer werd de telefoon uitgevonden? WWW resultaten bevatten fouten en de shallow parser maakt fouten, maar door het grote aantal antwoorden is het resultaat toch juist 17:1876 3:1874 2:ago 2:later 1:Bell …

Who shot Kennedy? (42%) Lawrence J Wilker (14%) James Wilker (14%) Clinton (14%) Martha J. Fleischman (14%) Larry Wilker Shapaqa (50%) Lee Oswald (25%) Jim Bishop Author of “The day Kennedy was shot” (13%) a bullet (13%) a man

Conclusies (Inhoudelijk) Natuurlijke taal verwerking behoort nog steeds tot de kern van AI onderzoek Van groot wetenschappelijk en socio-economisch belang Kennisgebaseerde, logische, diepe aanpak heeft gefaald in schaalbaarheid en toepasbaarheid Huidige taaltechnologie is inductief, schaalbaar en bruikbaar maar oppervlakkig Trend: incorporatie inzichten kennisgebaseerde aanpak in inductieve methode Trend: domein- en wereldkennis uit tekst

Conclusies (Organisatorisch) Belang (voor AI onderzoeksgroep) van kritische massa en aanwezigheid van experts in verschillende subdisciplines Waarom hebben we geen IMEC of VIB voor “cognitive sciences”? “harmonica-effect” bij productieve onderzoeksgroepen moet opgelost worden Na (soms forse) groei moet onderzoeksgroep weer krimpen Geen betrouwbare continue sponsoring van onderzoek Geen plaats voor onderzoeksmanagers aan onze universiteiten naast het (al overvraagde) ZAP-kader