De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Aspecten van automatisch vertalen. Resultaten - problemen Steven Krauwer Utrechts instituut voor Linguïstiek UiL OTS.

Verwante presentaties


Presentatie over: "Aspecten van automatisch vertalen. Resultaten - problemen Steven Krauwer Utrechts instituut voor Linguïstiek UiL OTS."— Transcript van de presentatie:

1 Aspecten van automatisch vertalen. Resultaten - problemen Steven Krauwer Utrechts instituut voor Linguïstiek UiL OTS

2 Steven Krauwer, Nov 2000 Automatisch Vertalen2 Overzicht De vertaalcomputer Geschiedenis Problemen met oplossingen Vertaalstrategieën Problemen zonder oplossingen Waar staan we, en hoe nu verder?

3 Steven Krauwer, Nov 2000 Automatisch Vertalen3 De vertaalcomputer Wat we er mee bedoelen Waarom we het eigenlijk doen

4 Steven Krauwer, Nov 2000 Automatisch Vertalen4 Wat we er mee bedoelen Vertaling door de computer van geschreven tekst (aangeboden via toetsenbord, diskette, netwerk), dus geen gesproken tekst Vertaling van zakelijke of technische teksten en boodschappen, dus geen gedichten of romans

5 Steven Krauwer, Nov 2000 Automatisch Vertalen5 Waarom we het eigenlijk doen Economisch: drukken van de vertaalkosten Praktisch: verhogen van de snelheid Volume: er is meer werk dan vertalers aankunnen Ideologisch: opheffen van taalbarrières Nieuwsgierigheid: hoe doe je het?

6 Steven Krauwer, Nov 2000 Automatisch Vertalen6 Geschiedenis 3 Periodes: –1946-1966: Koude oorlog –1978-1992: Internationalisatie –1998-????: Internet

7 Steven Krauwer, Nov 2000 Automatisch Vertalen7 Periode 1946-1966 Probleem: –Amerikanen wilden weten wat de Russen deden Technologie: –computers (net uitgevonden) –cryptografie –signaalverwerking Geld: –Pentagon (koude oorlog)

8 Steven Krauwer, Nov 2000 Automatisch Vertalen8 Periode 1946-1966 Resultaat: teleurstellend, culminerend in het "ALPAC Rapport”, waarin geconcludeerd werd dat het op dat moment geen zin had verder te investeren in onderzoek en ontwikkeling op het gebied van automatisch vertalen

9 Steven Krauwer, Nov 2000 Automatisch Vertalen9 Periode 1978-1992 Probleem: –internationalisering (handel, EG) –stijgende loonkosten –gebrek aan vertalers Technologie: –snellere, grotere, goedkopere computers –betere programmeertalen –betere taalkunde Geld: –internationale organisaties (EG) –multinationals

10 Steven Krauwer, Nov 2000 Automatisch Vertalen10 Periode 1978-1992 Ook in Nederland 3 grote projecten met overheidssteun: –Rosetta (Philips) –DLT (BSO) –EUROTRA (EC) Resultaat: –qua output alweer teleurstellend –enorme educatieve impact

11 Steven Krauwer, Nov 2000 Automatisch Vertalen11 Periode 3: 1998-???? Probleem: –globalisering van handel en industrie –internet –multilingual information society Technologie: –krachtige PCs –hybride aanpakken –internet –deeltaken, specialisatie Geld: –EU, VN, internet- en telecombedrijven

12 Steven Krauwer, Nov 2000 Automatisch Vertalen12 Problemen met oplossingen Wat helemaal niet moeilijk is Wat wel moeilijk is, maar oplosbaar De taalkunde als redder Tussenstand

13 Steven Krauwer, Nov 2000 Automatisch Vertalen13 Wat helemaal niet moeilijk is Vreemde lettertekens Schrijven van rechts naar links, of van boven naar beneden Woorden met veel ingewikkelde verbuigingen of vervoegingen Uitzonderingen Grote woordenboeken met veel moeilijke woorden en vaktermen

14 Steven Krauwer, Nov 2000 Automatisch Vertalen14 Wat wel moeilijk is Bepalen welke zin we eigenlijk aan het vertalen zijn Bepalen hoe de onderdelen van een zin met elkaar samenhangen Bepalen wat de juiste vertaling is

15 Steven Krauwer, Nov 2000 Automatisch Vertalen15 Vertalen met een woordenboek “Ik was de was weer aan het wassen” –ik (2): "ik", "het ik" –was (zn) (5): “wasproces”, “bijenwas”, "boenwas", "stijging", "wasgoed” was (ww) (7): "zijn”, "kleren schoonmaken”, "de afwas doen”, "erts wassen”, "dieren wassen”, "kaarten schudden”, "groeien" –de (2): "de fiets”, "een gulden de meter” –was (12): zie boven

16 Steven Krauwer, Nov 2000 Automatisch Vertalen16 Vertalen met een woordenboek (vervolg) –weer (werkwoord) (1): "afweren” weer (zelfst. naamwoord) (4): "hamel”, "weersgesteldheid”, "afweer”, "keerdam” weer (bijwoord) (1): “wederom” –aan: meer dan 10 vertalingen –het: (3): "het huis”, "hij/zij/het”, "appels voor een gulden het stuk" –wassen (12): zie vorige plaatje

17 Steven Krauwer, Nov 2000 Automatisch Vertalen17 Vertalen met een woordenboek (vervolg) Resultaat: –“Ik was de was weer aan het wassen” –2x12x2x12x6x10x3x12=1 244 160 mogelijkheden Conclusie: –explosie aan keuzemogelijkheden –we weten nog steeds niet welke zin we moeten vertalen

18 Steven Krauwer, Nov 2000 Automatisch Vertalen18 De taalkunde als redder Niet alle woordopeenvolgingen zijn mogelijk: –ik (pers. vnwd) 2  1 –was (werkwoord) 12  7 –de (lidwoord) 2  1 –was (zelfst. nwd) 12  5 –weer (bijwoord) 6  1 –aan (voorzetsel) 10  5 –het (lidwoord) 3  1 –wassen (werkwoord) 12  6 Nu nog maar 1050 mogelijkheden...

19 Steven Krauwer, Nov 2000 Automatisch Vertalen19 Nog wat taalkunde... en met nog wat grammatica nog maar 25: –ik was kan hier alleen van zijn komen (niet van schoonmaken of groeien) –de was kan nog steeds 5 betekenissen hebben –aan kan alleen van aan het --- zijn komen –het wassen kan nog op 5 soorten van wassen slaan (maar niet op groeien, omdat daar geen lijdend voorwerp bij kan)

20 Steven Krauwer, Nov 2000 Automatisch Vertalen20 Nog wat taalkunde er bij We kunnen in het woordenboek nog wat extra informatie toevoegen, zoals: –bij zn: mens, dier, instrument, vloeibaar, delfstof, voertuig, abstract, telbaar,... –bij ww: onderwerp moet mens zijn, lijdend voorwerp vloeibaar, er moet een tijdsbepaling bij, een plaatsbepaling,... –bij voorzetsels: met een zn dat een tijd aanduidt is het een tijdsbepaling, met plaats een plaatsbepaling,... Eigenlijk: verkapte betekenisinformatie

21 Steven Krauwer, Nov 2000 Automatisch Vertalen21 Ter illustratie Jan kocht bloemen voor –... Marie –... half zeven –... zijn laatste geld –... moederdag –... de ingang van het CS wat voor hier betekent is vast nog wel op te lossen door extra woordenboekinformatie

22 Steven Krauwer, Nov 2000 Automatisch Vertalen22 Het resultaat Met de extra informatie kunnen we dan de laatste problemen uit de weg ruimen: –was hoort niet tot de categorie serviesgoed, dier, erts of kaartspel –bijenwas behoort niet tot de categorie zaken die je kunt wassen dus we houden nog maar een mogelijkheid over

23 Steven Krauwer, Nov 2000 Automatisch Vertalen23 Voorlopige conclusie met een woordenboek alleen is het niet mogelijk uit te maken welke zin je feitelijk moet vertalen (te veel mogelijkheden) de grammatica (woordsoorten en zinsdelen) beperkt het aantal problemen en wat betekenisinformatie er bij geeft het laatste zetje

24 Steven Krauwer, Nov 2000 Automatisch Vertalen24 Tussenstand We hebben nu een (impressionistisch) beeld geschetst van een proces –dat ons in staat stelt vast te stellen wat eigenlijk de zin is die we zouden willen vertalen –dat berust op objectief beschrijfbare kennis (woordenboeken, grammaticaregels) –dat een noodzakelijke eerste stap is op weg naar het vertalen –dat redelijk goed te automatiseren is

25 Steven Krauwer, Nov 2000 Automatisch Vertalen25 Basisingrediënten van een vertaalsysteem grammaticale regels die zinnen in de brontaal analyseren (analyseregels) regels die vertalen (vertaalregels) regels die zinnen in de doeltaal produceren (syntheseregels) woordenboeken (brontaal, doeltaal, tweetalig) computerprogramma’s die deze kennis toepassen

26 Steven Krauwer, Nov 2000 Automatisch Vertalen26 Drie strategieën (1) Directe systemen: –analyse-, vertaal- en syntheseregels zitten in elkaar verweven in een regelcomponent, en er zijn geen aanwijsbare tussenstadia –nadeel: erg ingewikkeld, en als je een vertaalsysteem maakt vanuit een taal naar meer talen doe je steeds hetzelfde, maar net even anders

27 Steven Krauwer, Nov 2000 Automatisch Vertalen27 Drie strategieën (2) Transfer systemen: –analyseer (in termen van een syntactische of semantische abstracte representatie) –vertaal de representatie van de brontaal in een doeltaalrepresentatie –synthetiseer uit de doeltaalrepresentatie de juiste zinnen Voordeel: je doet analyse en synthese meer een keer per taal, maar je hebt wel veel vertaalcomponenten

28 Steven Krauwer, Nov 2000 Automatisch Vertalen28 Drie strategieën (3) Tussentaalsystemen: –analyse, resulterend in een taalonafhankelijke betekenisrepresentatie –synthetiseer vanuit deze representatie de doeltaaltekst Voordeel: precies 1 analyse- en 1 synthesecomponent per taal Nadeel: niemand weet hoe een goede tussentaal er uit zou moeten zien

29 Steven Krauwer, Nov 2000 Automatisch Vertalen29 De magische driehoek Taalonafhankelijke tussentaalrepresentatie DoeltaaltekstBrontaaltekst Directe regels Syntheseregels Analyseregels Transferregels = Taalafhankelijke representaties

30 Steven Krauwer, Nov 2000 Automatisch Vertalen30 Kosten en gebruik van de drie typen Directe systemen (bij 12 talen 12x11 complexe componenten) Transfersystemen (12+12+12x11 componenten) Tussentaalsystemen (12+12 componenten) Vroeger meest directe systemen, nu meest transfer

31 Steven Krauwer, Nov 2000 Automatisch Vertalen31 Problemen zonder oplossingen Ambiguïteit De mismatch tussen de talen Het compromis van het vertalen Robuustheid

32 Steven Krauwer, Nov 2000 Automatisch Vertalen32 Ambiguïteit Woordambiguïteit Aanhechtingsambiguïteit Relatieambiguïteit Verwijzingsambiguïteit

33 Steven Krauwer, Nov 2000 Automatisch Vertalen33 Woordambiguïteit Woorden van dezelfde categorie met verschillende betekenis: –was: bijenwas of vuil goed –bank: zitbank of geldbank –paard: rij- gym- of schaakpaard Remedie (niet volledig betrouwbaar): –inperking van het domein (“schaken”) –statistische benaderingen

34 Steven Krauwer, Nov 2000 Automatisch Vertalen34 Aanhechtingsambiguïteit Welke zinsdelen horen bij elkaar: –Ik keek naar de hond met de verrekijker –De toespraak van de minister van gisteren De toespraak van de minister van verkeer Remedie (niet erg betrouwbaar): –extra informatie in het woordenboek –vaste strategieën (bv altijd aan laatste) –statistische benaderingen

35 Steven Krauwer, Nov 2000 Automatisch Vertalen35 Relatieambiguïteit Welke relatie onderhouden zinsdelen met elkaar: –Jan kocht bloemen voor Marie –Samengestelde woorden: tarwemeel, vismeel, aardappelmeel, pannenkoekenmeel, kindermeel,... Remedie (matig resultaat): –meer informatie in woordenboek –statistische benaderingen

36 Steven Krauwer, Nov 2000 Automatisch Vertalen36 Verwijzingsambiguïteiten Waar verwijst (bv) een persoonlijk voornaamwoord naar: –"De politieagenten vuurden op de demonstrerende verpleegsters omdat ze revolutie wilden" –"De politieagenten vuurden op de demonstrerende verpleegsters omdat ze revolutie vreesden"

37 Steven Krauwer, Nov 2000 Automatisch Vertalen37 Verwijzingsambiguïteiten Of: –(1) De soldaten schoten op de vrouwen. –(2) Ze vielen dood neer. –(2’) Ze ontlaadden hun geweren. Remedie: –binnen de taalkunde: geen –alleen kennis van de wereld helpt

38 Steven Krauwer, Nov 2000 Automatisch Vertalen38 Kennis van de wereld Probleem: –hoe verzamel je die kennis –hoe leg je die vast –hoe consulteer je die Voor de menselijke vertaler nauwelijks een probleem: –hij beschikt over veel van die kennis –hij weet waar en hoe te zoeken

39 Steven Krauwer, Nov 2000 Automatisch Vertalen39 De mismatch tussen de talen Talen zeggen niet alles op dezelfde manier: –schimmel / grey horse –runway / landingsbaan, startbaan –ik zwem graag / I like to swim –er werd gedanst / on dansait Remedie: –deels via woordenboek en vertaalregels, maar grote interactie met regelsysteem

40 Steven Krauwer, Nov 2000 Automatisch Vertalen40 Het compromis van het vertalen De taal verandert, maar wat moet er behouden blijven? –betekenis? boodschap? (on)waarheid? stijl? effect? vaagheid? compactheid? humor? lengte? fouten? discriminatie? Remedie (vrijwel onbruikbaar): –de vertalershandboeken staan er vol mee –maar helaas niet op een manier die zich laat formaliseren in een regelsysteem

41 Steven Krauwer, Nov 2000 Automatisch Vertalen41 Robuustheid Het vermogen van een systeem om adequaat te reageren op onverwachte input: –onbekende woorden –onbekende grammaticaregels –incorrecte input Remedies (afhankelijk van situatie): –fouten vooraf uitfilteren –interactie met gebruiker –statistisch verantwoord gokken

42 Steven Krauwer, Nov 2000 Automatisch Vertalen42 Waar staan we nu Huidige vertaalsystemen zijn meestal gebaseerd op woordenboeken, grammaticale kennis, en statistische gegevens om problemen op te lossen De kwaliteit is over het algemeen uiterst matig (minder dan VWO) De grootste doorbraak tot nu toe is het toevoegen van statistische methoden voor het maken van keuzes geweest

43 Steven Krauwer, Nov 2000 Automatisch Vertalen43 Waar staan we nu Voor state-of-the-art vertaalkwaliteit zie de vertaalfaciliteit van bv de zoekmachine AltaVista: http://www.altavista.com Voor meer voorbeelden zie http://www-sk.let.uu.nl/ond/mt99 Kwaliteit goed genoeg om een idee te krijgen waar het over gaat, maar niet voor zakenbrieven of handleidingen

44 Steven Krauwer, Nov 2000 Automatisch Vertalen44 Waar moeten we naar toe? Is automatisch vertalen mogelijk? –Improductieve vraag Wat willen we eigenlijk? –Simulatie van de menselijke vertaler? Nee! –Taalbarrières doorbreken? Ja! Dan is een betere vraag: –Hoe ver kunnen we daarmee komen? ‘Succes’ krijgt daarmee andere definitie! –Niet aantal vertaalfouten tellen maar succes van de communicatie meten

45 Steven Krauwer, Nov 2000 Automatisch Vertalen45 Strategieën voor de toekomst Betere integratie van bestaande benaderingen (taalkundig, statistisch, kunstmatige intelligentie) Samenwerking tussen verschillende modaliteiten (taal, spraak en beeld) Verdeel en heers: gespecialiseerde typen systemen voor specifieke toepassingen en gebruikersgroepen

46 Steven Krauwer, Nov 2000 Automatisch Vertalen46 Voorbeelden van ‘verdeel en heers’ De vertaler wil geen vertaalsysteem, maar een vertaalgeheugen en een goed terminologiesysteem de elektronische toerist wil weten waar een website over gaat de hotelhouder wil het dagelijkse weerbericht in 6 talen op het prikbord hangen

47 Steven Krauwer, Nov 2000 Automatisch Vertalen47 Slotopmerkingen Automatisch vertalen is moeilijk, en heeft nog een lange weg te gaan Een aantal fundamentele problemen is nog niet opgelost De huidige kennis en technologie maken het echter wel mogelijk veel locale taalbarrières te overbruggen De notie ‘succes’ dient niet uitsluitend gemeten te worden in vertaalfouten


Download ppt "Aspecten van automatisch vertalen. Resultaten - problemen Steven Krauwer Utrechts instituut voor Linguïstiek UiL OTS."

Verwante presentaties


Ads door Google