Een communicatief lexicon door het verankeren van woord-betekenissen You don't know what love is ‘til you’ve learned the meaning of the blues (Ray/DePaul, 1941) Piek Vossen, 22 december 2006
Verankering van betekenis van taal: vraag uit de 20ste eeuw, antwoord in de 21ste? Is het mogelijk om betekenis en begrip van taal formeel te definieren?: Willard V.O. Quine: cavagai! Kunnen computers intelligent gedrag vertonen? Alan Turing: Turing test Kunnen computers daadwerkelijk met mensen communiceren? John Searl: Chinese room experiment Oratie, 22 december 2006
Wat betekent een woord als "liefde"? You don't know what love is ‘til you’ve learned the meaning of the blues (Ray/DePaul, 1941) Diagnose van een ziekte: hartkloppingen, rood worden, droge mond, kortademig wegdromen, niet-geconcentreerd, geen eetlust, hang naar muziek … Oratie, 22 december 2006
Wat betekent een woord als "liefde" Betekenis afschuiven op andere woorden: liefde = warme genegenheid, gehechtheid aan een persoon of zaak genegenheid = welwillende gezindheid jegens iem., in sterkere opvatting naderend tot liefde gezindheid = innerlijke houding houding = (fig.) wijze van handelen en optreden, gedrag, manier van handelen (bron: Groot Woordenboek der Nederlandse Taal, 1992) Formele definitie van een relatie: Relatie L tussen x en y: L(x,y): Er is sprake van liefde dan en alleen dan indien er een wereld bestaat met een x en een y waartussen de relatie L waar is Oratie, 22 december 2006
Betekenis is fundamenteel onmogelijk Concept in ons hoofd lief huisdier moet knuffelen goddelijke verschijning aankondiging van de lente konijn met worteltjes en rozemarijn "gavagai" Plato met baard W.V.O.Quine (1964): inscrutability of reference Oratie, 22 december 2006
Heeft het zin om betekenis te verankeren? Verankering vindt meer en meer plaats in de vorm van standaardisering: maten en eenheden: meter, liter, kilo terminologische databanken, juridische definities, contracten internationale samenwerking ontologieën: definitie van de betekenis van concepten in een formeel kennisrepresentatie systeem (1ste orde logica) zodat een computer ermee kan redeneren Oratie, 22 december 2006
Automotive ontology: (http://www.ontoprise.de) Oratie, 22 december 2006
Wie gebruikt ontologische kennis? Oratie, 22 december 2006
Heeft het zin om betekenis te verankeren? Taalgebruik en communicatie is op grote schaal meetbaar: Resultaten 1 - 10 van circa 1.180.000 voor liefde (0,05 sec.) Resultaten 1 - 10 van circa 114.000.000 voor liebe (0,09 sec.) Resultaten 1 - 10 van circa 924.000.000 voor love (0,04 sec.) Resultaten 1 - 10 van circa 81.800.000 voor amour (0,06 sec.) Resultaten 1 - 10 van circa 115.000.000 voor amor (0,07 sec.) Resultaten 1 - 10 van circa 358.000.000 voor 愛 (0,25 sec.) , Kanji, Japans (ai) (bron: http://www.google.nl, 11 november 2006) Oratie, 22 december 2006
Heeft het zin om betekenis te verankeren? Communicatie is een beïnvloedbaar systeem: Mensen zoeken informatie en diensten door het stellen van vragen in natuurlijke taal op Internet; Betekenis van uitdrukkingen en woorden speelt daarbij een rol: animal party; party animal giftig medicijn; medicijn tegen vergiftiging Internet diensten op Java; Java Internet diensten mobiel, gsm, draagbare telefoon Oratie, 22 december 2006
Heeft het zin om betekenis te verankeren? Computers nemen actief deel aan communicatieprocessen: Mensen instrueren computers en computers rapporteren aan mensen: ik zoek een auto met die en die kenmerken voor een bepaalde prijs; Computers verzamelen kennis en informatie uit teksten: aanbod van auto's op de digitale markt; Computers communiceren met elkaar en wisselen daarbij informatie uit: onderhandelen met elkaar over de beste prijs-kwaliteit; Oratie, 22 december 2006
Menselijke dialogen van Alice-bot Oratie, 22 december 2006
Betekenis en begrip fundamenteel onmogelijk maar? Hoe kan communicatie plaatsvinden tussen mensen? Hoe kan communicatie plaatsvinden tussen mensen en computers? Als taal maar effectief is: betekenen=het gewenste effect hebben! Koppelen van taal aan nuttige inhoud! Oratie, 22 december 2006
携帯電話 Teksten Nuttig en effectief gedrag: Gedachte Objecten in werkelijkheid Ontologie Uiting 携帯電話 (keitaidenwa ) Teksten Kennis & informatie Nuttig en effectief gedrag: redeneren over kennis informatie verzamelen diensten leveren en behulpzaam zijn Oratie, 22 december 2006
Verankeren van woordbetekenissen De Global Wordnet Grid: wereldwijd project van de Global Wordnet Association om alle talen in de wereld te verankeren aan een universele concept index; Het Stevin project Cornetto: relatie tussen een Nederlands lexicon en een ontologie; Informatiedialogen en kennisontginning bij Irion Technologies; Oratie, 22 december 2006
Woorden verankerd aan elkaar dier kitten dier man jongen man vrouw kat kitten hond puppie kat meisje jongen meisje hond puppie vrouw Oratie, 22 december 2006
Wordnet = netwerk van semantische relaties tussen woorden chronisch zieke ; langdurig zieke psychisch/geestelijk zieke ρ-PATIENT ISA genezen ρ-CAUSE zieke, patiënt arts behandelen ρ-AGENT ISA ρ-PATIENT STATE kinderarts ρ-PROCEDURE ρ-LOCATION ziekte, stoornis co-ρ- AGENT-PATIENT ISA fysiotherapie medicijnen etc. ziekenhuis, etc. maagaandoening, nieraandoening, keelpijn kind Oratie, 22 december 2006
Wordnet familie Princeton WordNet, (Fellbaum 1998): 115,000 concepten EuroWordNet, (Vossen 1998): 8 talen BalkaNet, (Tufis 2004): 5 talen Global Wordnet Association: alle talen Transport Road Air Water Domains DOLCE SUMO Device Object TransportDevice Czech Words prostředník kabina vlečka 2 1 French Words véhicule voiture train Estonian Words liiklusvahend auto killavoor German Words Fahrzeug Auto Zug Spanish Words vehículo auto tren 2 1 Italian Words veicolo treno Dutch Words voertuig trein 3 English Words vehicle car train 1 2 4 Car … Train Vehicle Inter-Lingual-Index Oratie, 22 december 2006
Global Wordnet talen (> 40) Woordbetekenis van woorden in talen aan elkaar verankerd; Afrikaans; Arabic; Bantu-talen; Basque; Bulgarian; Catalan; Chinese; Czech; Danish; Dutch; English; Estonian; French; German; Greek; Hebrew; Hindi; Hungarian; Icelandic; Italian; Kannada; Korean; Latin; Latvian; Marathi; Moldavian; Norwegian; Oriya; Persian; Portuguese; Brazillian Portuguese; Romanian; Russian ; Sanskrit; Serbian; Slovenian; Spanish; Swedish; Tamil; Thai; Turkish Congressen: India (2002),Tsjechië (2004), Korea (2006), Hongarije (2008) Oratie, 22 december 2006
Engels als Inter-Lingual-Index Angelsaksische invloeden: erg veel honkbal termen Wat is een woord en wat is een concept? Engelse lexicalisatie patronen: knippen = cut with scissors snijden = cut with knife Is ieder woord ook een concept? fijnstampen; fijnwrijven; fijnknijpen Is iedere woordcombinatie ook een concept? kunstmatige producten => artifacts in het Engels gebruiksvoorwerpen om iets te bevatten => containers in het Engels CONCLUSIE: lexicon van een taal is geen goed uitgangspunt omdat de relaties tussen woorden en uitdrukkingen te complex zijn en te taalspecifiek Oratie, 22 december 2006
Global Wordnet Grid: Ontologie als universele index Gebruikt identiteitscriteria om te bepalen wat de dingen in de werkelijkheid zijn, bijv.: rigiditeit: in wat voor mate zijn eigenschappen waar in alle mogelijke werelden? Een mens ben je altijd, een student, reiziger kun je tijdelijk zijn. Je bent of een teckel of een poedel, maar iedere teckel en poedel kan ook een waakhond zijn, of een schoothond. Formele/logische redeneringen in kennisrepresentatie formalisme => denken Taalonafhankelijk Oratie, 22 december 2006
Ontologisering van concepten Taalonafhankelijke hiërarchie van (Semi-)rigide types: Canine => PoodleDog; NewfoundlandDog; DalmatianDog, etc. Wordnet bestaat dan uit namen voor types en woorden voor rollen: naam voor type: poedel (NL) = PoodleDog = poodle (EN) woord voor een rol: waakhond (?x) ð (instance ?x Canine) (instance ?e Guarding) (agent ?x ?e))) Type hiërarchie blijft compact en zuiver Oratie, 22 december 2006
Expansie met zuivere hyponymierelaties hond jachthond pup reu teckel schoothond poedel teef straathond waakhond kortharige teckel langharige teckel Expansie van type naar rollen Oratie, 22 december 2006
Expansie met zuivere hyponymierelaties hond jachthond pup reu teckel schoothond poedel teef straathond waakhond kortharige teckel langharige teckel Expansie van rol naar types en andere rollen Oratie, 22 december 2006
Cornetto (Stevin projekt STE05039) April 2006 – April 2008 Een lexicale database voor het Nederlands; Relatie tussen de talige eigenschappen van woorden en betekenissen; de vormeigenschappen van een woord: woordsoort, syntactische structuur; de wijze waarop een woord combineert met andere woorden: combinatoriek; de semantische plaats/positie die het woord heeft binnen het Nederlandse wordnet; de relatie die het woord heeft met een formele ontologie; Oratie, 22 december 2006
SUMO MILO Referentie Bestand Nederlands Nederlandse Wordnet Verzameling Lexical Units Verzameling Synsets Verzameling Terms & Axioms Lexical Unit form=band, nr=1 Combinatorics - de band speelt - een band vormen - een band treedt op - optreden van een band form=band, nr=2 - lekke band - een band oppompen - de band loopt leeg - volle band SYNSET synonym - form=band - seq_nr=1 relations + muziekgezelschap - popgroep; jazzband Term MusicGroup + Group = HasMembers Cornetto Database SUMO MILO Engelse Wordnet Czech Wordnet German Wordnet Wordnet Domains Korean Wordnet Spanish Wordnet French Wordnet Arabic Wordnet Oratie, 22 december 2006
artiest groep voorwerp middel toestand muziek informatiedrager Combinatoriek in een band spelen een band oprichten de band speelt Combinatoriek de band oppompen een band plakken een lekke band de band springt Combinatoriek de band starten op de band opnemen de band afspelen Combinatoriek een goede/sterke band de banden verbreken een band hebben met iemand artiest groep voorwerp middel toestand muziek informatiedrager gezelschap relatie muzikant lezen schrijven ring muziekgezelschap verhouding geluidsdrager musiceren band#1 band#2 band#3/geluidsband band#5 familieband moederband jazzband popgroep fietsband zwemband autoband bloedband binnenband buitenband cassettebandje Oratie, 22 december 2006
Effectief maken van woordbetekenis Irion Technologies maakt slimme taaltechnologische oplossingen: Kennisontginning: automatisch afleiden van informatie uit teksten Coöperatieve dialoogsystemen: Toegang tot informatie en diensten: ongeacht woordkeuze ongeacht de structurering van de informatie eventueel met gebruikmaking van die structurering Werkt samen met een gebruiker: Vraagt de gebruiker om hulp, instructies, bevestiging, uitleg Oratie, 22 december 2006
Communicatief dialoogsysteem Gebruikt 4 informatielagen: De intentie van de gebruiker: klacht indienen, producten kopen, support, informatie De mate waarin iemand tevreden is (satisfaction rate)? De emotionele staat van de gebruiker; is iemand boos, vrolijk, vriendelijk? De informatie-staat gebaseerd op de inhoudelijke beschrijving die een gebruiker geeft van een informatiebehoefte; Waar is iemand naar op zoek? Oratie, 22 december 2006
Dialoog systeem informatie Vraag Analyse Woord mobiel koptelefoon Concept Onderwerps typering Zoek Machine reparatie informatie accessoires producten Dialoog Manager Gebruikers Model Intentie Satisfaction Emotie Informatie Staat: Positief Negatief Relaties Kan ik u helpen? Mijn koptelefoon is kapot. Wilt u reparatie of producten? Ik wil een nieuwe kopen. Kunt u meer vertellen over de producten? Tekst Analyse Het is voor mijn GSM Kun je meer details geven? Het is een Nokia 6110 Website Ik heb de volgende accessoires voor u. Bekijk ze eens. Dat is niet wat ik zoek! Oratie, 22 december 2006
Communicatief dialoogsysteem Voorkomt deadlocks (hopeloos vastzitten): Detecteert vaagheid en ambiguïteit (welke betekenis van band?) Detecteert veranderingen van onderwerp Gebruikt negatieve informatie: “Geen muziekband, ik zoek fietsbanden!” Kan out-of-domain vragen aan (gebruikers weten niet wat het systeem weet): "We hebben geen hotelkamers maar wel electronische apparaten". "Nee, we hebben geen portofoons maar wel andere elektronische apparaten zoals mobiele telefoons" ruimte voorwerp kamer apparaat hotelkamer mobiele telefoon portofoon Oratie, 22 december 2006
Conclusie Begrip en betekenis fundamenteel onmogelijk maar communicatie is toch effectief; Verankerde woordbetekenissen kunnen effectief gebruikt worden in een interactief communicatiesysteem; Verankeren van de werkelijkheid aan een model in de vorm van een ontologie; Verankeren van woorden aan dezelfde ontologie; Woordbetekenis is geen zaak van woordenboeken maar van standaardisatie en systeemontwerpers; Oratie, 22 december 2006
Woord van dank Willy Martin Lachlan Mackenzie Simon Dik Links, Acquilex, Sift, EuroWordNet, Meaning, Arabic WordNet, Global Wordnet, etc. Lachlan Mackenzie Simon Dik Oratie, 22 december 2006