De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen (AI-LAB 1986-1989)

Verwante presentaties


Presentatie over: "Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen (AI-LAB 1986-1989)"— Transcript van de presentatie:

1 Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen (AI-LAB )

2 Natuurlijke Taal Verwerking in AI Turing Test (1950) (imitation game) Kunnen computers denken? Computers van mensen onderscheiden op basis van een dialoog in natuurlijke taal

3 Wetenschappelijk belang Nauwe verwevenheid van taal, denken en bewustzijn Natuurlijke taal als belangrijkste medium voor Kennisrepresentatie en -opslag Communicatie

4 Sociaal en economisch belang Informatie-explosie (o.a. internet) 2002: Nieuw gedrukt materiaal: 2 petabyte / jaar Wetenschappelijke kennis: 2000 nieuwe pagina’s per minuut Verdubbeling elke 2-3 jaar

5 Sociaal en economisch belang Vertaalexplosie EU (2005) 20+ officiële talen Budget > 1 miljard euro per jaar 2500 vertalers 40% administratief budget Geen uniek Europees probleem: Zuid-Afrika heeft 11 officiële talen

6 Fundamentele probleem: oplossen van ambiguïteit Lexicaal Brussel wil vrachtwagens zwaarder belasten. Morfologisch Fremdzugehen, betrachtet die Familie als eine Schande. External train marriages, the family considers as a disgrace. Syntactisch De prins heeft zijn huwelijk met Verhofstadt besproken. Wereldkennis Hij had geen werk. Hij nam de krant. Hij werd lastiggevallen door een wesp. Hij nam de krant.

7 Oplossing: computermodellen Van tekst naar semantische representatie via Morfologische analyse Syntactische analyse Zinssemantiek Tekstsemantiek Semantische representatie Eerste orde predikatenlogica (+ logica’s voor tijd, modaliteit, defaults, …) Semantische netwerken Expliciete domeinkennis, wereldkennis Inferentie

8 John is going to Boston by bus (John Sowa) (  x:Go)(  y:Person)(  z:City)(  w:Bus) (name(y,'John')  name(z,'Boston')  agnt(x,y)  dest(x,z)  inst(x,w))

9 Problemen met deze aanpak Niet schaalbaar (werkt alleen voor microwerelden) Niet robuust Niet efficiënt Duur in ontwikkeltijd Geen “grounding” van concepten …

10 Even terug naar 1987 (AI-LAB Brussel)  Doctoraat (gestart in Nijmegen) over computermodel morfologie / fonologie van het Nederlands voor spraaksynthese (voorleesmachine)  GRAFON-D  Taalkundige regels (productieregels)  Modularisering morfologie - fonologie - lettergreepstructuur - klemtoonmodule  Geavanceerde kennisrepresentatie  KRS (frame-based)  Meervoudige overerving, encapsulering, multi-methodes, …  Doctoraat (gestart in Nijmegen) over computermodel morfologie / fonologie van het Nederlands voor spraaksynthese (voorleesmachine)  GRAFON-D  Taalkundige regels (productieregels)  Modularisering morfologie - fonologie - lettergreepstructuur - klemtoonmodule  Geavanceerde kennisrepresentatie  KRS (frame-based)  Meervoudige overerving, encapsulering, multi-methodes, …

11 Vaststelling  Wet van de verminderde meeropbrengst (derde wet van Hugo Brandt Corstius) klopt!

12 Eigenschap van taal  Weinig regelmatigheden, veel subregelmatigheden en uitzonderingen door  Ontlening  Etymologie  Allerlei variatie (idiolect, regiolect, gender, leeftijd, sociale klasse …)  Weinig regelmatigheden, veel subregelmatigheden en uitzonderingen door  Ontlening  Etymologie  Allerlei variatie (idiolect, regiolect, gender, leeftijd, sociale klasse …)

13 Alternatief: lerende systemen (statistiek)  Machine Learning activiteit in AI-LAB  Incidentele studies  Sejnowski & Rosenberg  Tekst naar spraak met neurale netwerken  Stanfill & Waltz  Tekst naar spraak met memory-based reasoning  Zucht …  Beter accuraatheid  Geen expliciete taalkundige modules, geen regels  Schaalbaar / Effici ë nt / Meer robuust  …  Machine Learning activiteit in AI-LAB  Incidentele studies  Sejnowski & Rosenberg  Tekst naar spraak met neurale netwerken  Stanfill & Waltz  Tekst naar spraak met memory-based reasoning  Zucht …  Beter accuraatheid  Geen expliciete taalkundige modules, geen regels  Schaalbaar / Effici ë nt / Meer robuust ……

14 Paradigm Shift  Start van productieve onderzoekslijn  “machine learning of language”  “memory-based language processing”  in Tilburg  ILK ( nu)http://ilk.uvt.nl/http://ilk.uvt.nl/  en Antwerpen  CNTS ( nu)http://www.cnts.ua.ac.be/http://www.cnts.ua.ac.be/  Belang van dit onderzoek  “Early Adopters” wereldwijd  Pioniersrol in Europa  Start van productieve onderzoekslijn  “machine learning of language”  “memory-based language processing”  in Tilburg  ILK ( nu)http://ilk.uvt.nl/http://ilk.uvt.nl/  en Antwerpen  CNTS ( nu)http://www.cnts.ua.ac.be/http://www.cnts.ua.ac.be/  Belang van dit onderzoek  “Early Adopters” wereldwijd  Pioniersrol in Europa

15 Computertaalkunde publicaties

16 Terug naar begrijpen van taal Vanuit de “market pull”, pragmatische oplossing Text Mining in plaats van tekstbegrip Oppervlakkige semantische analyse (concepten, relaties tussen concepten) Op basis van Machine Learning Robuust, efficiënt, schaalbaar, … Laat toepassingen toe als Question Answering, Summarization, Information Extraction, … Probleem: negatie, modaliteit, kwantificatie, inferentie, recursie, … Vanuit de wetenschap Maak schaalbare “shallow understanding” dieper Extraheer domein- en wereldkennis uit tekst met unsupervised learning

17 Voorbeeld: ‘Vraag-Antwoord systemen’ Geef antwoord op een vraag (in tegenstelling tot information retrieval: vind documenten die relevant zijn voor de vraag) V: Wie heeft de telefoon uitgevonden? A: Alexander Graham Bell V: Wanneer werd de telefoon uitgevonden? A: 1876

18 QA Systeem: Shapaqa (SHAllow PArsing QA) Analyseer de vraag Wanneer werd de telefoon uitgevonden? Welke informatie is gegeven? Werkwoord uitgevonden Voorwerp telefoon Welke informatie hebben we nodig? Een temporele frase verbonden met het werkwoord Document retrieval op WWW met de gegeven informatie Analyse van zinnen waar alle gegeven informatie in de juiste grammaticale relaties voorkomt Tel de antwoorden die voorkomen in de gevraagde grammaticale relatie (temporele frase)

19 Shapaqa: voorbeeld (Engels systeem) When was the telephone invented? Google: invented “the telephone” levert 835 paginas op 53 geanalyseerde zinnen met de twee gegeven relaties en met een temporele frase is through his interest in Deafness and fascination with acoustics that the telephone was invented in 1876, with the intent of helping Deaf and hard of hearing The telephone was invented by Alexander Graham Bell in 1876 When Alexander Graham Bell invented the telephone in 1876, he hoped that these same electrical signals could …

20 Shapaqa: frequentievolgorde Wanneer werd de telefoon uitgevonden? WWW resultaten bevatten fouten en de shallow parser maakt fouten, maar door het grote aantal antwoorden is het resultaat toch juist 17:1876 3:1874 2:ago 2:later 1:Bell …

21 Who shot Kennedy? (42%) Lawrence J Wilker (14%) James Wilker (14%) Clinton (14%) Martha J. Fleischman (14%) Larry Wilker Shapaqa (50%) Lee Oswald (25%) Jim Bishop Author of “The day Kennedy was shot” (13%) a bullet (13%) a man

22 Conclusies (Inhoudelijk) Natuurlijke taal verwerking behoort nog steeds tot de kern van AI onderzoek Van groot wetenschappelijk en socio-economisch belang Kennisgebaseerde, logische, diepe aanpak heeft gefaald in schaalbaarheid en toepasbaarheid Huidige taaltechnologie is inductief, schaalbaar en bruikbaar maar oppervlakkig Trend: incorporatie inzichten kennisgebaseerde aanpak in inductieve methode Trend: domein- en wereldkennis uit tekst

23 Conclusies (Organisatorisch) Belang (voor AI onderzoeksgroep) van kritische massa en aanwezigheid van experts in verschillende subdisciplines Waarom hebben we geen IMEC of VIB voor “cognitive sciences”? “harmonica-effect” bij productieve onderzoeksgroepen moet opgelost worden Na (soms forse) groei moet onderzoeksgroep weer krimpen Geen betrouwbare continue sponsoring van onderzoek Geen plaats voor onderzoeksmanagers aan onze universiteiten naast het (al overvraagde) ZAP-kader


Download ppt "Natuurlijke Taal Verwerking Walter Daelemans CNTS, Universiteit Antwerpen (AI-LAB 1986-1989)"

Verwante presentaties


Ads door Google