De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Taal, intelligentie en betekenis Piek Vossen Irion Technologies/Vrije Universiteit Amsterdam 45ste Lustrum van het Natuur- en Letterkundig Genootschap.

Verwante presentaties


Presentatie over: "Taal, intelligentie en betekenis Piek Vossen Irion Technologies/Vrije Universiteit Amsterdam 45ste Lustrum van het Natuur- en Letterkundig Genootschap."— Transcript van de presentatie:

1 Taal, intelligentie en betekenis Piek Vossen Irion Technologies/Vrije Universiteit Amsterdam 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007

2 Taal en intelligentie

3 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007  Momenteel: meer dan 80% van de telefonische vragen in vrije tekst worden beantwoord!  GemeenteConnect is juli 2007 in gebruik genomen door de gemeente Gilze & Rije  Gebruikt natuurlijke taal maar is het intelligent? gemeente burger GemeenteConnect Telefoon kantoortijden 24/7

4 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Taal en intelligentie  Mechanisering van de mens:  Descartes (17de eeuw): Discours de la Méthode  machine met menselijk lichaam en gedrag en uitingen die correleren met bewegingen en veranderingen in organen  MAAR die machine zal nooit betekenisvolle antwoorden kunnen geven op talige vragen vergelijkbaar met de antwoorden van de meest domme persoon  Kunnen computers intelligent gedrag vertonen?  Alan Turing (1950): Turing test is een taaltest  Kunnen computers daadwerkelijk met mensen communiceren?  John Searl (1990): Chinese room experiment is een taaltest

5 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Alan Turing: een intelligentietest voor computers  Zonder visueel contact  Communicatie in natuurlijke taal met een andere persoon en met een computer.  Je mag vragen wat je wil  Wie is de computer and wie is de mens?  Turing dacht dat het 50 jaar zou duren voor dat computers redelijk zouden scoren op deze test.  Maakt het niet uit hoe de computer er in slaagt om de ondervrager ‘voor de gek te houden’.

6 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 John Searl: domme machine kan toch slagen voor de test  Chinese Room Experiment:  Iemand die geen Chinees spreekt zit opgesloten in een kamer  Een spreker van het Chinees stelt vragen in het Chinees op een stuk papier en geeft die door een opening zonder verder contact aan de persoon in de kamer  De persoon in de kamer stelt een antwoord op in de vorm van een reeks Chinese karakters door de instructies op te volgen uit een handleiding in zijn eigen taal, zonder verder begrip van het onderwerp  De Chinese spreker zal de indruk hebben dat de persoon in de kamer hem begrijpt en Chinees spreekt

7 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Menselijke dialoog zonder begrip  Eliza  Jospeh Weizenbaum:  Parafraseert wat iemand intypt  Wekt de illusie dat je praat met een heel geduldige en vriendelijke therapeut.  Eliza is bedoeld als een parodie.  Alice bot:  Animated characters:  Meer animatie, meer begrip maar niet nuttig

8

9

10

11

12

13

14

15

16

17 Nutteloze dialoog met Alice-bot

18 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Vaagheid en meerduidigheid is inherent aan taal  Taal medieert tussen de verwachtingen van de Spreker en de Hoorder => een half woord is genoeg  Taal is nooit volledig descriptief maar minimaal voldoende:  Geen onnodige informatie die al bekend is => gaat uit van achtergrondkennis  Minimale set van woorden en uitdrukkingen om geheugen te ontlasten => woorden en uitdrukkingen hebben meerdere betekenissen

19 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Concept in ons hoofd Plato met baard "gavagai" W.V.O.Quine (1964): inscrutability of reference konijn met worteltjes en rozemarijn goddelijke verschijning ter aankondiging van de lente knuffeldier Echt begrip is fundamenteel onmogelijk

20 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Het is onmogelijk om betekenis formeel te definiëren maar:  Mensen communiceren...  Mensen communiceren met computers...  Als taal maar effectief is:  betekenis = het gewenste effect hebben !  Link taal aan bruikbare inhoud !

21 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Het heeft zin om betekenis te verankeren! Verankering vindt al plaats overal op de wereld door standaardizatie:  maten en eenheden: meter, liter, kilo  terminologische databases, juridische definities, contracten  internationale samenwerking  ontologieën: definitie van betekenis van concepten in een formeel kennisrepresentatie systeem, (1 st order logic) zodat een computer ermee kan redeneren

22 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Hoe kunnen we de betekenis van woorden verankeren?  Aan elkaar:  semantic network or wordnet  Aan logische implicaties:  een formele ontologie

23 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Relationeel model van betekenis manwoman boygirl cat kitten dog puppy animal man woman boy girl cat kitten dog puppy animal

24 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Wordnet van semantisch gerelateerde woorden  Ontwikkeld door George Miller en zijn team aan de Princeton University, als de implementatie van een model van het mentale lexicon  Notie van een synset: set van synoniemen in een taal die samen een concept vormen  Semantische relaties tussen concepten  115,000 concepten en 130,000 Engelse woorden

25 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Wordnet van semantisch gerelateerde woorden {conveyance;transport} {vehicle} {motor vehicle; automotive vehicle} {car; auto; automobile; machine; motorcar} {bumper} {car door} {car window} {car mirror} {armrest} {doorlock} {hinge; flexible joint} {cruiser; squad car; patrol car; police car; prowl car} {cab; taxi; hack; taxicab}

26 ENGLISH Car … Train … Vehicle Inter-Lingual-Index English Words vehicle cartrain Czech Words dopravní prostředník autovlak 2 1 French Words véhicule voiture train 2 1 Estonian Words liiklusvahend autokillavoor 2 1 German Words Fahrzeug AutoZug 2 1 Spanish Words vehículo autotren 2 1 Italian Words veicolo autotreno 2 1 Dutch Words voertuig autotrein 2 1 Wordnet familie

27 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Van EuroWordNet naar Global WordNet  Global Wordnet Association:  Bi-annual conference: India (2002), Czech (2004), Korea (2006), Hungary (2008)‏,....  Op dit moment zijn er wordnets voor meer dan 40 talen, waaronder: Arabic, Bantu, Basque,...., Chinese, Bulgarian, Estonian, Hebrew,...., Icelandic, Japanese, Kannada, Korean, Latvian, Latin,....Nepali, Persian, Romanian, Sanskrit, Tamil, Thai, Turkish,.... Zulu  Veel talen genetisch en typologisch ongerelateerd  Woorden verankerd aan elkaar en alle wordnets aan het Engels

28 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007  Many-to-many relaties  Dutch: versiersel near_synonym versiering  English: decoration.  Gaps in het Engelse WordNet:  genuine, cultural gaps: onbekend in de Engelse cultuur:  Dutch: klunen, to walk on skates over land from one frozen water to the other  pragmatic gaps: het concept is bekend maar niet uitgedrukt door een gelexicaliseerde uitdrukking in het Engels:  Dutch: kunstproduct = artifact substance artifact object  Dutch: koffiewater, theewater = water for making coffee or tea  CONCLUSIE: lexicon van een taal is geen goed uitgangspunt omdat de relaties tussen woorden en uitdrukkingen te complex zijn en te taalspecifiek Engels als Inter-Lingual Index

29 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Nadelen van het model  Constructie is niet uniform  Dekking verschilt  Veel van de kennis is dubbel  Geen duidelijke scheiding wereldkennis en talige kennis  Complexe en obscure equivalentie relaties als gevolg van de linguïstische verschillen tussen Engels en andere talen

30 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Inter-Lingual Ontology Device Object TransportDevice English Words vehicle cartrain Czech Words dopravní prostředník autovlak 2 1 French Words véhicule voituretrain 2 1 Estonian Words liiklusvahend autokillavoor 2 1 German Words Fahrzeug AutoZug 2 1 Spanish Words vehículo autotren 2 1 Italian Words veicolo autotreno 2 1 Dutch Words voertuig autotrein 2 1 Next step: Global WordNet Grid

31 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Global Wordnet Grid  Formele, kunstmatige ontologie die dient als een universele index van betekenis  De lijst van concepten is niet alleen gebaseerd op de woorden van een enkele taal maar op grond van ontologische observaties:  Lexicalizatie in een taal is niet voldoende reden om een concept op te nemen in de ontologie  Lexicalizatie in alle of veel talen kan voldoende zijn  Concepten gerelateerd in een type hierarchie  Concepten gedefiniëerd met axioma's: Knowledge Interchange Format (KIF) gebaseerd op first order predicate calculus en atomaire elementen

32 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007  Specieke honden in Wordnet:  bokser; mopshond; pekinees; poedel; teckel  pup; reu; teef  straathond; blindengeleidehond; bullebijter; diensthond; gashond; jachthond;lawinehond;schoothond;waakhond  Gebruikt identiteitscriteria om te bepalen wat de dingen in de werkelijkheid zijn, bijv.:  rigiditeit: in wat voor mate zijn eigenschappen waar in alle mogelijke werelden?  Een mens ben je altijd, een student, reiziger kun je tijdelijk zijn.  Je bent of een teckel of een poedel, maar iedere teckel en poedel kan ook een waakhond zijn, of een schoothond. Concepten door ontologische observatie

33 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Ontologie versus wordnet/lexicon  Taalonafhankelijke hiërarchie van (Semi-)rigide types: Canine  PoodleDog; NewfoundlandDog; GermanShepherdDog; Husky  Wordnet:  NAMES for TYPES: {poodle} EN, {poedel} NL, {pudoru} JP  ((instance x Poodle)‏  LABELS for ROLES: {watchdog} EN, {waakhond} NL, {banken} JP  ((instance x Canine) and (role x GuardingProcess))‏

34 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Eigenschappen van de ontologie  Minimaal: termen onderscheiden op grond van essentiële eigenschappen  Compleet: omvat alle distinctieve concepten van alle talen  Accepteert definities in KIF van alle woorden die niet-rigide, niet-essentiele eigenschappen benoemen  Logisch valide: maakt redeneren mogelijk

35 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Ontologie versus Wordnet  Niet toevoegen aan de type hierarchie: {straathond} NL (a dog that lives in the streets)‏  ((instance x Canine) and (habitat x Street))‏  Toevoegen aan de type hierarchie: {klunen} NL (to walk on skates from one frozen body to the next over land)‏ KluunProcess => WalkProcess Axioms: (and (instance x Human) (instance y Walk) (instance z Skates) (wear x z) (instance s1 Skate) (instance s2 Skate) (before s1 y) (before y s2) etc…  Nationale gerechten, gewoontes, spelen,....

36 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Meeste woorden zijn geen typen  {zeewater} NL en {rivierwater} NL vele andere woorden voor water: {theewater} NL (water used for making tea)‏ {koffiewater} NL (water used for making coffee)‏ {bluswater} NL (water used for making extinguishing file)‏  Linguïstische eigenaardigheden:  gender, perspective, aspect, diminutives, politeness, pejoratives, part-of-speech constraints

37 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007  {teacher} EN  ((instance x Human) and (agent x TeachingProcess))‏  {Lehrer} DE  ((instance x Man) and (agent x TeachingProcess))‏  {Lehrerin} DE  ((instance x Woman) and (agent x TeachingProcess))‏ KIF expressies voor markering van geslacht

38 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 KIF expressies voor perspectief sell: subj(x), direct obj(z),indirect obj(y) buy: subj(y), direct obj(z),indirect obj(x) FinancialTransaction  (and (instance e FinancialTransaction) (instance x Human)(instance y Human) (instance z Entity) (source x e) (destination y e) (patient z e)‏ Hetzelfde proces maar een ander perspectief door subject en object realizaties: marry in Russisch 2 wwoorden, apprendre in het Frans voor zowel teach als learn

39 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Voordelen van de Global Wordnet Grid  Gedeelde en uniforme wereldkennis:  universele inferenties  uniforme tekstanalyse en -interpretatie  Meer compacte en minder redundante databases  Duidelijk hoe taal relateert aan kennis:  betere criteria voor de expressie van kennis  betere criteria om variatie te ondervangen

40 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Mogelijkheden voor taaltechnologie

41 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Ontologie Tekst Objecten in werkelijkheid Gedachte Uitdrukking 携帯電話 (keitaidenwa )‏ Kennis & informatie Bruikbaar en effectief gedrag: -redeneer over kennis -verzamel informatie en data -lever nuttige diensten

42 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Synoniemen, Wordnets thesaurus golf club(s) Tiger Woods golf sticks Taaltechnologie: a hole in one! golf clubs Linguistische analyse Golf at the club clubs for golf

43 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 hond waakhond poedel straathond teckel schoothond kortharige teckel langharige teckel Expansie van type naar rollen jachthond Expansie met zuivere hyponymierelaties pup reu teef

44 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 hond waakhond poedel straathond teckel schoothond kortharige teckel langharige teckel Expansie van rol naar types en andere rollen jachthond Expansie met zuivere hyponymierelaties pup reu teef

45 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Automotive ontology: (http://www.ontoprise.de) ‏

46 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Wie gebruikt ontologische kennis?

47 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Dialoog systeem Dialoog Manager • Kan ik u helpen? • Mijn koptelefoon is kapot. • Ik wil een nieuwe kopen. • Wilt u reparatie of producten? • Kunt u meer vertellen over de producten? • Het is voor mijn GSM • Kun je meer details geven? • Het is een Nokia 6110 • Ik heb de volgende accessoires voor u. Bekijk ze eens. Gebruikers Model -Intentie -Satisfaction -Emotie Informatie Staat: -Positief -Negatief -Relaties • Dat is niet wat ik zoek! Vraag Analyse Onderwerps typering Zoek Machine reparatie informatie accessoires producten Website Tekst Analyse Woord mobiel koptelefoon Concept

48 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007  Voorkomt deadlocks (hopeloos vastzitten):  Detecteert vaagheid en ambiguïteit (welke betekenis van band ?)  Detecteert veranderingen van onderwerp  Gebruikt negatieve informatie: “ Geen muziekband, ik zoek fietsbanden! ”  Kan out-of-domain vragen aan (gebruikers weten niet wat het systeem weet):  "We hebben geen hotelkamers maar wel electronische apparaten".  "Nee, we hebben geen portofoons maar wel andere elektronische apparaten zoals mobiele telefoons" Communicatief dialoogsysteem hotelkamer kamer ruimte apparaat mobiele telefoonportofoon voorwerp

49 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Dank u voor uw aandacht

50 Wordnets als autonome taalspecifieke structuren voorwerp {object} lepel {spoon} werktuig{tool} tas {bag} bak {box} blok {block} lichaam {body} Wordnet1.5Dutch Wordnet bag spoon box object natural object (an object occurring naturally) artifact, artefact (a man-made object) instrumentality blockbody container device implement tool instrument

51 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Engels als Inter-Lingual-Index  Wat is een woord en wat is een concept?  Engelse lexicalisatie patronen:  knippen = cut with scissors  snijden = cut with knife  Is ieder woord ook een concept?  fijnstampen; fijnwrijven; fijnknijpen  Is iedere woordcombinatie ook een concept?  kunstmatige producten => artifacts in het Engels  gebruiksvoorwerpen om iets te bevatten => containers in het Engels  CONCLUSIE: lexicon van een taal is geen goed uitgangspunt omdat de relaties tussen woorden en uitdrukkingen te complex zijn en te taalspecifiek

52 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Indexeer concepten i.p.v woorden  Betekenis van een woord in context:  Onderwerp van een document:  Juventus => football  Onderwerp van een paragraaf/zin:  transfer scandal => business, crime  Frase (linguistically-motivated combination of words) :  [wing player] football player in [police cell] jail  [chicken wings] dish  Onderwerp van een vraag:  Can I order chicken wings? => food

53 45ste Lustrum van het Natuur- en Letterkundig Genootschap Physica, 27 Oktober 2007 Effectief maken van woordbetekenis  Irion Technologies maakt slimme taaltechnologische oplossingen:  Kennisontginning: automatisch afleiden van informatie uit teksten  Coöperatieve dialoogsystemen:  Toegang tot informatie en diensten:  ongeacht woordkeuze  ongeacht de structurering van de informatie  eventueel met gebruikmaking van die structurering  Werkt samen met een gebruiker:  Vraagt de gebruiker om hulp, instructies, bevestiging, uitleg


Download ppt "Taal, intelligentie en betekenis Piek Vossen Irion Technologies/Vrije Universiteit Amsterdam 45ste Lustrum van het Natuur- en Letterkundig Genootschap."

Verwante presentaties


Ads door Google