Aspecten van automatisch vertalen. Resultaten - problemen Steven Krauwer Utrechts instituut voor Linguïstiek UiL OTS.

Slides:



Advertisements
Verwante presentaties
Redekundig ontleden Over waarom, wat en hoe....
Advertisements

Test computertermen: Deze test gaat over de vorige les. Je krijgt steeds een vraag te zien waarop je het juist antwoord moet aanklikken. Is je antwoord.
Grammar Chapter 4 – G1 What en Which.
Sudoku puzzels: hoe los je ze op en hoe maak je ze?
Hoe ruim ik mijn kamer op?
Uitleg bijwoordelijke bepaling (bwb)
Herhaling van hoofdstuk
Beroepsvaardigheden onderdeel van SBC
Geef uw zorgverlener toestemming voor het delen van uw medische gegevens! Informatiefolder gegevensuitwisseling voor zorgconsumenten in Zuid-Holland.
Autisme en Mindmap Thuis en op School
Uitleg meewerkend voorwerp (mv)
naamwoordelijk gezegde
Lees- en Taalproblemen
Grammar Chapter 1-G3 Vragen.
Uitleg lijdend voorwerp (lv)
Woorden en tijd.....
Leesvaardigheid (ook te vinden op LaPlaza)
we are young so let's set the world on fire we can burn brighter than the sun.
Grammatica hst. 1 t/m 3 Woordsoorten Zinsdelen PV H1 WG LW H. 1 NG BNW
Fouten met verwijswoorden
Spaans voor beginners 6 7 Online Spaans leren via de beproefde SuperMemo-methode. U gaat in uw eigen tempo door de cursus, maar wordt wel zeer.
OM EVEN OVER NA TE DENKEN.
TAALPROBLEMEN ODD ONE OUT.
Levensvragen Over geluk…..
HET CURRICULUM VITAE = VISTEKAARTJE NUMMER 2
Taalkunde Grammatica A
Stappenplan ontleden Enkelvoudige zinnen.
Praktische opdracht informatica door : Xandor Spijkers klas: v4c.
Iedereen coach naar Jef Clement.
Lezing door Kick de Wolff
TAALPROBLEMEN ODD ONE OUT. ODD ONE OUT PRINCIPE JE KRIJGT DRIE GRAMMATICALE PROBLEMEN VOORGESCHOTELD IEDER PROBLEEM BESTAAT UIT DRIE ZINNEN TELKENS HOORT.
Persoonlijke en sociale vaardigheden van de commerciële professional
Uitleg bijvoeglijke bepaling (bvb)
Three steps to success Foutloos zinnen vertalen in drie stappen
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
Grammatica Nederlands
OM OVER NA TE DENKEN.
HERHALING ZINSLEER.
Media bekijken op afstand De mogelijkheden boven de €500.
Ik geloof… Dat onze achtergrond en omstandigheden misschien wel van invloed zijn geweest op wie we zijn,maar dat wìj verantwoorde-lijk zijn voor wie we.
Woordenschat en kijk op taal Hoofdstuk 2 en 3
QUIZ hoofdstuk 1.
Uitleg persoonsvorm (pv)
Ordenen van gegevens Inleiding informatiesystemen © Sander Cox.
Superhelden, we kennen ze allemaal
Stage: Basisschool de Klingerberg
Is dit onderzoek belangrijk? Is dit onderzoek onbelangrijk?
Paragraaf twee: verkeerde verwijswoorden
© Copyright 2015 Nicodem & Company – Flexibiliteit van organisaties blijft achter op de markt- en technologische ontwikkelingen / sheet 1 Flexibiliteit.
Module Grammatica K3 zinsontleding.
Woordsoorten benoemen
Module Grammatica K3 zinsontleding.
PERSONEELSMANAGEMENT PPT 8 Onderdeel : communicatie.
Het kwetsbare vertrouwen van ouders in de jgz Justine Pardoen Ouders Online.
Op naar een STER bestuur… Avond 1: De meerwaarde van een Bestuur. Avond 2: Hoe organiseren we een Scouting Vereniging. Avond 3: Vinden, Binden, Boeien.
 Bepaald?  Bepaald:De het  Bepaald: de het  Onbepaald?
Woordjes leren.
Powerpoint presentatie.
Werkwoordelijk gezegde, naamwoordelijk gezegde en de werkwoorden
WERKWOORDELIJK GEZEGDE
Grammatica zinsdelen H1 t/m H6
Centraal Examen Nederlands
Aubid Sarwar 4FD Betalen via Internet Waarom dit onderwerp? Wij kozen dit onderwerp omdat er tegenwoordig veel inkopen via internet gedaan worden en.
Grammatica woordsoorten H1 t/m H6
Meest voorkomende vragen bij examenteksten.
Meest voorkomende vragen bij examenteksten.
Verschil: redekundig en taalkundig ontleden
Grammatica zinsdelen Redekundig ontleden.
Zeeslag Bron: csunplugged.org / csunplugged.nl.
Transcript van de presentatie:

Aspecten van automatisch vertalen. Resultaten - problemen Steven Krauwer Utrechts instituut voor Linguïstiek UiL OTS

Steven Krauwer, Nov 2000 Automatisch Vertalen2 Overzicht De vertaalcomputer Geschiedenis Problemen met oplossingen Vertaalstrategieën Problemen zonder oplossingen Waar staan we, en hoe nu verder?

Steven Krauwer, Nov 2000 Automatisch Vertalen3 De vertaalcomputer Wat we er mee bedoelen Waarom we het eigenlijk doen

Steven Krauwer, Nov 2000 Automatisch Vertalen4 Wat we er mee bedoelen Vertaling door de computer van geschreven tekst (aangeboden via toetsenbord, diskette, netwerk), dus geen gesproken tekst Vertaling van zakelijke of technische teksten en boodschappen, dus geen gedichten of romans

Steven Krauwer, Nov 2000 Automatisch Vertalen5 Waarom we het eigenlijk doen Economisch: drukken van de vertaalkosten Praktisch: verhogen van de snelheid Volume: er is meer werk dan vertalers aankunnen Ideologisch: opheffen van taalbarrières Nieuwsgierigheid: hoe doe je het?

Steven Krauwer, Nov 2000 Automatisch Vertalen6 Geschiedenis 3 Periodes: – : Koude oorlog – : Internationalisatie –1998-????: Internet

Steven Krauwer, Nov 2000 Automatisch Vertalen7 Periode Probleem: –Amerikanen wilden weten wat de Russen deden Technologie: –computers (net uitgevonden) –cryptografie –signaalverwerking Geld: –Pentagon (koude oorlog)

Steven Krauwer, Nov 2000 Automatisch Vertalen8 Periode Resultaat: teleurstellend, culminerend in het "ALPAC Rapport”, waarin geconcludeerd werd dat het op dat moment geen zin had verder te investeren in onderzoek en ontwikkeling op het gebied van automatisch vertalen

Steven Krauwer, Nov 2000 Automatisch Vertalen9 Periode Probleem: –internationalisering (handel, EG) –stijgende loonkosten –gebrek aan vertalers Technologie: –snellere, grotere, goedkopere computers –betere programmeertalen –betere taalkunde Geld: –internationale organisaties (EG) –multinationals

Steven Krauwer, Nov 2000 Automatisch Vertalen10 Periode Ook in Nederland 3 grote projecten met overheidssteun: –Rosetta (Philips) –DLT (BSO) –EUROTRA (EC) Resultaat: –qua output alweer teleurstellend –enorme educatieve impact

Steven Krauwer, Nov 2000 Automatisch Vertalen11 Periode 3: 1998-???? Probleem: –globalisering van handel en industrie –internet –multilingual information society Technologie: –krachtige PCs –hybride aanpakken –internet –deeltaken, specialisatie Geld: –EU, VN, internet- en telecombedrijven

Steven Krauwer, Nov 2000 Automatisch Vertalen12 Problemen met oplossingen Wat helemaal niet moeilijk is Wat wel moeilijk is, maar oplosbaar De taalkunde als redder Tussenstand

Steven Krauwer, Nov 2000 Automatisch Vertalen13 Wat helemaal niet moeilijk is Vreemde lettertekens Schrijven van rechts naar links, of van boven naar beneden Woorden met veel ingewikkelde verbuigingen of vervoegingen Uitzonderingen Grote woordenboeken met veel moeilijke woorden en vaktermen

Steven Krauwer, Nov 2000 Automatisch Vertalen14 Wat wel moeilijk is Bepalen welke zin we eigenlijk aan het vertalen zijn Bepalen hoe de onderdelen van een zin met elkaar samenhangen Bepalen wat de juiste vertaling is

Steven Krauwer, Nov 2000 Automatisch Vertalen15 Vertalen met een woordenboek “Ik was de was weer aan het wassen” –ik (2): "ik", "het ik" –was (zn) (5): “wasproces”, “bijenwas”, "boenwas", "stijging", "wasgoed” was (ww) (7): "zijn”, "kleren schoonmaken”, "de afwas doen”, "erts wassen”, "dieren wassen”, "kaarten schudden”, "groeien" –de (2): "de fiets”, "een gulden de meter” –was (12): zie boven

Steven Krauwer, Nov 2000 Automatisch Vertalen16 Vertalen met een woordenboek (vervolg) –weer (werkwoord) (1): "afweren” weer (zelfst. naamwoord) (4): "hamel”, "weersgesteldheid”, "afweer”, "keerdam” weer (bijwoord) (1): “wederom” –aan: meer dan 10 vertalingen –het: (3): "het huis”, "hij/zij/het”, "appels voor een gulden het stuk" –wassen (12): zie vorige plaatje

Steven Krauwer, Nov 2000 Automatisch Vertalen17 Vertalen met een woordenboek (vervolg) Resultaat: –“Ik was de was weer aan het wassen” –2x12x2x12x6x10x3x12= mogelijkheden Conclusie: –explosie aan keuzemogelijkheden –we weten nog steeds niet welke zin we moeten vertalen

Steven Krauwer, Nov 2000 Automatisch Vertalen18 De taalkunde als redder Niet alle woordopeenvolgingen zijn mogelijk: –ik (pers. vnwd) 2  1 –was (werkwoord) 12  7 –de (lidwoord) 2  1 –was (zelfst. nwd) 12  5 –weer (bijwoord) 6  1 –aan (voorzetsel) 10  5 –het (lidwoord) 3  1 –wassen (werkwoord) 12  6 Nu nog maar 1050 mogelijkheden...

Steven Krauwer, Nov 2000 Automatisch Vertalen19 Nog wat taalkunde... en met nog wat grammatica nog maar 25: –ik was kan hier alleen van zijn komen (niet van schoonmaken of groeien) –de was kan nog steeds 5 betekenissen hebben –aan kan alleen van aan het --- zijn komen –het wassen kan nog op 5 soorten van wassen slaan (maar niet op groeien, omdat daar geen lijdend voorwerp bij kan)

Steven Krauwer, Nov 2000 Automatisch Vertalen20 Nog wat taalkunde er bij We kunnen in het woordenboek nog wat extra informatie toevoegen, zoals: –bij zn: mens, dier, instrument, vloeibaar, delfstof, voertuig, abstract, telbaar,... –bij ww: onderwerp moet mens zijn, lijdend voorwerp vloeibaar, er moet een tijdsbepaling bij, een plaatsbepaling,... –bij voorzetsels: met een zn dat een tijd aanduidt is het een tijdsbepaling, met plaats een plaatsbepaling,... Eigenlijk: verkapte betekenisinformatie

Steven Krauwer, Nov 2000 Automatisch Vertalen21 Ter illustratie Jan kocht bloemen voor –... Marie –... half zeven –... zijn laatste geld –... moederdag –... de ingang van het CS wat voor hier betekent is vast nog wel op te lossen door extra woordenboekinformatie

Steven Krauwer, Nov 2000 Automatisch Vertalen22 Het resultaat Met de extra informatie kunnen we dan de laatste problemen uit de weg ruimen: –was hoort niet tot de categorie serviesgoed, dier, erts of kaartspel –bijenwas behoort niet tot de categorie zaken die je kunt wassen dus we houden nog maar een mogelijkheid over

Steven Krauwer, Nov 2000 Automatisch Vertalen23 Voorlopige conclusie met een woordenboek alleen is het niet mogelijk uit te maken welke zin je feitelijk moet vertalen (te veel mogelijkheden) de grammatica (woordsoorten en zinsdelen) beperkt het aantal problemen en wat betekenisinformatie er bij geeft het laatste zetje

Steven Krauwer, Nov 2000 Automatisch Vertalen24 Tussenstand We hebben nu een (impressionistisch) beeld geschetst van een proces –dat ons in staat stelt vast te stellen wat eigenlijk de zin is die we zouden willen vertalen –dat berust op objectief beschrijfbare kennis (woordenboeken, grammaticaregels) –dat een noodzakelijke eerste stap is op weg naar het vertalen –dat redelijk goed te automatiseren is

Steven Krauwer, Nov 2000 Automatisch Vertalen25 Basisingrediënten van een vertaalsysteem grammaticale regels die zinnen in de brontaal analyseren (analyseregels) regels die vertalen (vertaalregels) regels die zinnen in de doeltaal produceren (syntheseregels) woordenboeken (brontaal, doeltaal, tweetalig) computerprogramma’s die deze kennis toepassen

Steven Krauwer, Nov 2000 Automatisch Vertalen26 Drie strategieën (1) Directe systemen: –analyse-, vertaal- en syntheseregels zitten in elkaar verweven in een regelcomponent, en er zijn geen aanwijsbare tussenstadia –nadeel: erg ingewikkeld, en als je een vertaalsysteem maakt vanuit een taal naar meer talen doe je steeds hetzelfde, maar net even anders

Steven Krauwer, Nov 2000 Automatisch Vertalen27 Drie strategieën (2) Transfer systemen: –analyseer (in termen van een syntactische of semantische abstracte representatie) –vertaal de representatie van de brontaal in een doeltaalrepresentatie –synthetiseer uit de doeltaalrepresentatie de juiste zinnen Voordeel: je doet analyse en synthese meer een keer per taal, maar je hebt wel veel vertaalcomponenten

Steven Krauwer, Nov 2000 Automatisch Vertalen28 Drie strategieën (3) Tussentaalsystemen: –analyse, resulterend in een taalonafhankelijke betekenisrepresentatie –synthetiseer vanuit deze representatie de doeltaaltekst Voordeel: precies 1 analyse- en 1 synthesecomponent per taal Nadeel: niemand weet hoe een goede tussentaal er uit zou moeten zien

Steven Krauwer, Nov 2000 Automatisch Vertalen29 De magische driehoek Taalonafhankelijke tussentaalrepresentatie DoeltaaltekstBrontaaltekst Directe regels Syntheseregels Analyseregels Transferregels = Taalafhankelijke representaties

Steven Krauwer, Nov 2000 Automatisch Vertalen30 Kosten en gebruik van de drie typen Directe systemen (bij 12 talen 12x11 complexe componenten) Transfersystemen ( x11 componenten) Tussentaalsystemen (12+12 componenten) Vroeger meest directe systemen, nu meest transfer

Steven Krauwer, Nov 2000 Automatisch Vertalen31 Problemen zonder oplossingen Ambiguïteit De mismatch tussen de talen Het compromis van het vertalen Robuustheid

Steven Krauwer, Nov 2000 Automatisch Vertalen32 Ambiguïteit Woordambiguïteit Aanhechtingsambiguïteit Relatieambiguïteit Verwijzingsambiguïteit

Steven Krauwer, Nov 2000 Automatisch Vertalen33 Woordambiguïteit Woorden van dezelfde categorie met verschillende betekenis: –was: bijenwas of vuil goed –bank: zitbank of geldbank –paard: rij- gym- of schaakpaard Remedie (niet volledig betrouwbaar): –inperking van het domein (“schaken”) –statistische benaderingen

Steven Krauwer, Nov 2000 Automatisch Vertalen34 Aanhechtingsambiguïteit Welke zinsdelen horen bij elkaar: –Ik keek naar de hond met de verrekijker –De toespraak van de minister van gisteren De toespraak van de minister van verkeer Remedie (niet erg betrouwbaar): –extra informatie in het woordenboek –vaste strategieën (bv altijd aan laatste) –statistische benaderingen

Steven Krauwer, Nov 2000 Automatisch Vertalen35 Relatieambiguïteit Welke relatie onderhouden zinsdelen met elkaar: –Jan kocht bloemen voor Marie –Samengestelde woorden: tarwemeel, vismeel, aardappelmeel, pannenkoekenmeel, kindermeel,... Remedie (matig resultaat): –meer informatie in woordenboek –statistische benaderingen

Steven Krauwer, Nov 2000 Automatisch Vertalen36 Verwijzingsambiguïteiten Waar verwijst (bv) een persoonlijk voornaamwoord naar: –"De politieagenten vuurden op de demonstrerende verpleegsters omdat ze revolutie wilden" –"De politieagenten vuurden op de demonstrerende verpleegsters omdat ze revolutie vreesden"

Steven Krauwer, Nov 2000 Automatisch Vertalen37 Verwijzingsambiguïteiten Of: –(1) De soldaten schoten op de vrouwen. –(2) Ze vielen dood neer. –(2’) Ze ontlaadden hun geweren. Remedie: –binnen de taalkunde: geen –alleen kennis van de wereld helpt

Steven Krauwer, Nov 2000 Automatisch Vertalen38 Kennis van de wereld Probleem: –hoe verzamel je die kennis –hoe leg je die vast –hoe consulteer je die Voor de menselijke vertaler nauwelijks een probleem: –hij beschikt over veel van die kennis –hij weet waar en hoe te zoeken

Steven Krauwer, Nov 2000 Automatisch Vertalen39 De mismatch tussen de talen Talen zeggen niet alles op dezelfde manier: –schimmel / grey horse –runway / landingsbaan, startbaan –ik zwem graag / I like to swim –er werd gedanst / on dansait Remedie: –deels via woordenboek en vertaalregels, maar grote interactie met regelsysteem

Steven Krauwer, Nov 2000 Automatisch Vertalen40 Het compromis van het vertalen De taal verandert, maar wat moet er behouden blijven? –betekenis? boodschap? (on)waarheid? stijl? effect? vaagheid? compactheid? humor? lengte? fouten? discriminatie? Remedie (vrijwel onbruikbaar): –de vertalershandboeken staan er vol mee –maar helaas niet op een manier die zich laat formaliseren in een regelsysteem

Steven Krauwer, Nov 2000 Automatisch Vertalen41 Robuustheid Het vermogen van een systeem om adequaat te reageren op onverwachte input: –onbekende woorden –onbekende grammaticaregels –incorrecte input Remedies (afhankelijk van situatie): –fouten vooraf uitfilteren –interactie met gebruiker –statistisch verantwoord gokken

Steven Krauwer, Nov 2000 Automatisch Vertalen42 Waar staan we nu Huidige vertaalsystemen zijn meestal gebaseerd op woordenboeken, grammaticale kennis, en statistische gegevens om problemen op te lossen De kwaliteit is over het algemeen uiterst matig (minder dan VWO) De grootste doorbraak tot nu toe is het toevoegen van statistische methoden voor het maken van keuzes geweest

Steven Krauwer, Nov 2000 Automatisch Vertalen43 Waar staan we nu Voor state-of-the-art vertaalkwaliteit zie de vertaalfaciliteit van bv de zoekmachine AltaVista: Voor meer voorbeelden zie Kwaliteit goed genoeg om een idee te krijgen waar het over gaat, maar niet voor zakenbrieven of handleidingen

Steven Krauwer, Nov 2000 Automatisch Vertalen44 Waar moeten we naar toe? Is automatisch vertalen mogelijk? –Improductieve vraag Wat willen we eigenlijk? –Simulatie van de menselijke vertaler? Nee! –Taalbarrières doorbreken? Ja! Dan is een betere vraag: –Hoe ver kunnen we daarmee komen? ‘Succes’ krijgt daarmee andere definitie! –Niet aantal vertaalfouten tellen maar succes van de communicatie meten

Steven Krauwer, Nov 2000 Automatisch Vertalen45 Strategieën voor de toekomst Betere integratie van bestaande benaderingen (taalkundig, statistisch, kunstmatige intelligentie) Samenwerking tussen verschillende modaliteiten (taal, spraak en beeld) Verdeel en heers: gespecialiseerde typen systemen voor specifieke toepassingen en gebruikersgroepen

Steven Krauwer, Nov 2000 Automatisch Vertalen46 Voorbeelden van ‘verdeel en heers’ De vertaler wil geen vertaalsysteem, maar een vertaalgeheugen en een goed terminologiesysteem de elektronische toerist wil weten waar een website over gaat de hotelhouder wil het dagelijkse weerbericht in 6 talen op het prikbord hangen

Steven Krauwer, Nov 2000 Automatisch Vertalen47 Slotopmerkingen Automatisch vertalen is moeilijk, en heeft nog een lange weg te gaan Een aantal fundamentele problemen is nog niet opgelost De huidige kennis en technologie maken het echter wel mogelijk veel locale taalbarrières te overbruggen De notie ‘succes’ dient niet uitsluitend gemeten te worden in vertaalfouten