Automatisch Vertalen SMT Lieve Macken Vakgroep Vertalen, Tolken en Communicatie.

Slides:



Advertisements
Verwante presentaties
Grammar Chapter 4 – G1 What en Which.
Advertisements

Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
PAST SIMPLE (VERLEDEN TIJD)
Voltooid tegenwoordige tijd
De toolkit van NLP:Neuro Linguïstisch Programmeren
Grammar Chapter 4 – G4 Meervoud.
Instructie grammatica
Veelvoorkomende taalfouten 2
Seth Godin: If its broken its broken ! Dennis de Vroet Peter van Gerwen Michel Janse.
Schuldbelijdenis en genadeverkondiging Zingen: Psalm 26: 2, 6
Duidelijk schrijven voor iedereen
STAPPEN OM DE FOUT TE VINDEN.
Grammar Chapter 6 G 1 De Passive.
Les 17 deel 1a Welke Psalm ken jij uit je hoofd?
Instructie grammatica
Sociolinguïstiek Bijeenkomst 3.
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
Interrogative sentences
Hulpwerkwoorden can must may etc.
Dutch Parallel Corpus Multilinguaal & multifunctioneel
LEESVAARDIGHEID Tips & Tricks.
Grammar Chapter 3 – G1 If en When.
Grammar Chapter 6 G 4 Any, every, no + samenstellingen.
Lots of, a lot of, much, many little, few
Grammar Chapter 6 G 3 Some en Any. Some en Any In klas 1 heb je al iets over some en any geleerd, nl dat beide woorden te maken hebben met een onbepaalde.
Grammar Chapter 4 – G2 If + past simple. Je wist al dat je voor het woordje als in het Engels if kunt gebuiken. We gaan hier even mee verder. Het kan.
Woordvolgorde met woorden van tijd
Grammar Chapter 3 – G2 Meervoud. Meervoud Je weet al hoe je woorden in het Engels in het meervoud zet, nl: Je weet al hoe je woorden in het Engels in.
From computer power and human reason. Joseph Weizenbaum.
Hoofdstuk 15 Product ontwikkeling Srednja šola Zagorje.
Deltion College Engels A2 Lezen [Edu/002]/subvaardigheid ‘koken’….!
Gebiedende wijs 1.Cross Victoria Street. 2.Sit still, please. 3.Read the article on this page. 4.Watch out! Als je tegen iemand wilt zeggen dat hij/zij.
The Passive Voice de lijdende vorm.
Woorden als or, and, but, when, because, so en since gebruiken we om twee zinsdelen te koppelen. Voorbeeld in het Nederlands: De dvd was erg duur maar.
Question-tags toch? is het niet? nietwaar? hè? is het wel?
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Hans BennisMeertens Instituut (KNAW)
English and IPC How to teach content through English.
Inleiding in de statistiek voor de gedragswetenschappen
Ik heb meer nodig. Mattheüs 5: 6 Zalig die hongeren en dorsten naar de gerechtigheid,
Monday, 30 March 2015 maandag 30 maart 2015 Leonard Cohen is still on stage This must be a miracle at his age I’m sure that you like this song Enjoy.
Gatenteksten: tactiek Skimmen Line of thought vinden Om het gat heen lezen mbv 3-zinnentruc 1 zin vooraf, 1 erna + zin waarin het gat zit Gat invullen.
In dit winkelcentrum hebben vrouwen de mogelijkheid een echtgenote te kiezen uit verschillende mannen...
Gebroken dimensies in het graan Geknipt uit een presentatie door Aad Goddijn op 3 december 2008 bij het vak Concrete meetkunde.
Kom, ga met ons mee Come, go with us. ‘Wij vertrekken nu naar het land dat de Heer ons beloofd heeft. Ga met ons mee! Je zult het goed hebben bij ons.
Time management Howdoyouset priorities?. Priorities:thingsthatyouthinkare important.
Meer voorlezen, beter in taal
Werkwoordsvormen, voorzetsels en voegwoorden
Adaptatie in de wereld Johan Bogaert. Adaptatie in de wereldJohan Bogaert 28 juni 2010 Wat is klimaatverandering?
| pagina 1/x | Afdeling Communicatie Gezondheidszorg: hoe houden we langdurige zorg betaalbaar? Druk op Esc om terug te keren Press Esc to return.
Grammar – period 2.
Wies Vullings, Wageningen University and Research
De Onvoltooid Verleden Tijd
Zelfvertrouwen en eigen verantwoordelijkheid?
Chapter 4 Going out Grammar Stepping Stones 2 kgt.
Zelfvertrouwen en eigen verantwoordelijkheid?
Woordvolgorde in Engelse bevestigende en vragende zinnen.
Druk op Esc om terug te keren Press Esc to return to normal screen
Werkwijze Hoe zullen we als groep docenten te werk gaan?
Korte vragen aan het eind van de zin
Today: Chapter 2 Discuss SO 2 What to study for your test?
Helpen bij huiswerk en plannen
Amsterdam September 2017, Mirjam van Emden
Video and Radio NU Engels unit 5.1.
NEW INTERFACE UNIT 2 : GRAMMAR
Chapter 3 Who dares? Grammar Stepping Stones 3 havo
Assignment: calling for a meeting about internet use at work
De basisschool in de samenleving van NU!
Chapter 1 Looking back Grammar Stepping Stones 2 t/hv.
Living in the Promised Land Leven in het Beloofde Land
Even voorstellen: ‘Little Inventors’!
Transcript van de presentatie:

Automatisch Vertalen SMT Lieve Macken Vakgroep Vertalen, Tolken en Communicatie

Hoe leert een computer vertalen? Woordenschatverwerving in SMT Vakgroep Vertalen, Tolken en Communicatie

鱼汤 糖醋老 鸭 Vakgroep Vertalen, Tolken en Communicatie yú tāng táng cù lǎo yā

Vakgroep Vertalen, Tolken en Communicatie

Co-occurrence frequency 鸡汤老鸭汤鸡汤老鸭汤 jī tāng lǎo yā tāng chicken soup duck soup 酸辣汤 suān là tānghot and sour soup … 糖醋里肌 táng cù lǐ jīsweet and sour pork 糖醋鱼 táng cù yúsweet and sour fish 红烧鱼 hóng shāo yúfish in soy sauce Vakgroep Vertalen, Tolken en Communicatie

Co-occurrence frequency 鱼汤 = fish soup; 糖醋 = sweet and sour 鸡汤老鸭汤鸡汤老鸭汤 jī tāng lǎo yā tāng chicken soup duck soup 酸辣汤 suān là tānghot and sour soup … 糖醋里肌 táng cù lǐ jīsweet and sour pork 糖醋鱼 táng cù yúsweet and sour fish 红烧鱼 hóng shāo yúfish in soy sauce Vakgroep Vertalen, Tolken en Communicatie

Beredeneerd gokje 糖醋老鸭 = sweet and sour duck 鸡汤老鸭汤鸡汤老鸭汤 jī tāng lǎo yā tāng chicken soup duck soup 酸辣汤 suān là tānghot and sour soup … Vakgroep Vertalen, Tolken en Communicatie

Belangrijke begrippen Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie

Belangrijke begrippen Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie

Belangrijke concepten Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie

Belangrijke concepten Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie

Beperking: enkel “woorden” Ji ding Vakgroep Vertalen, Tolken en Communicatie

Uniforme verdeling Vakgroep Vertalen, Tolken en Communicatie

Na 1 iteratie Vakgroep Vertalen, Tolken en Communicatie

Na 2 iteraties Vakgroep Vertalen, Tolken en Communicatie

Tot convergentie Vakgroep Vertalen, Tolken en Communicatie

Tijd voor dessert? 麻饼 má bǎng Vakgroep Vertalen, Tolken en Communicatie

Tijd voor dessert? 麻饼 má bǎng Vakgroep Vertalen, Tolken en Communicatie

Datagebaseerde methode ‣ Computer leidt alle kennis af uit data ‣ Meer data è meer evidentie è betere kwaliteit ‣ Kwaliteit ~ mate waarin te vertalen teksten lijken op trainingsmateriaal Vakgroep Vertalen, Tolken en Communicatie

Chinees-Nederlands 鸡汤 jī tāngkippensoep 老鸭汤 lǎo yā tāngeendensoep 酸辣汤 suān là tāngzoetzure soep (heet) … 糖醋里肌 táng cù lǐ jīvarkensvlees, zoetzuur 糖醋鱼 táng cù yúvis, zoetzuur 红烧鱼 hóng shāo yúvis in sojasaus Vakgroep Vertalen, Tolken en Communicatie

Betekenis? 鸡 (jī) = chicken Vakgroep Vertalen, Tolken en Communicatie

LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie

LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie

LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie

LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie

Phrase table Vakgroep Vertalen, Tolken en Communicatie

Hoe leert een computer wat correct Engels/Nederlands is? Vakgroep Vertalen, Tolken en Communicatie

Taalmodel I like Chinese… Vakgroep Vertalen, Tolken en Communicatie

Taalmodel I like Chinesefood New Year tea beer. be Vakgroep Vertalen, Tolken en Communicatie

Taalmodel N-gram = sequentie van woorden n-gram van lengte 1 = unigram (woord) n-gram van lengte 2 = bigram n-gram van lengte 3 = trigram Vakgroep Vertalen, Tolken en Communicatie

Taalmodel Bigram: I like Chinese food I like like Chinese Chinese food Vakgroep Vertalen, Tolken en Communicatie

Taalmodel Trigram: I like Chinese food I like Chinese like Chinese food Vakgroep Vertalen, Tolken en Communicatie

Taalmodel Hypothese: Indien een zin veel plausibele n- grammen bevat is het een plausibele (“correcte”) zin “I want Chinese food” “I want food Chinese” “I want Chinese lunch” Vakgroep Vertalen, Tolken en Communicatie

Taalmodel Hypothese: Indien een zin veel plausibele n- grammen bevat is het een plausibele (“goede”) zin Vakgroep Vertalen, Tolken en Communicatie “I want Chinese food”1 “I want food Chinese”3 “I want Chinese lunch”2

Taalmodel N-gram probabiliteit (monolinguale corpora) bigram trigram Vakgroep Vertalen, Tolken en Communicatie

Taalmodel “I want Chinese food” P(want|I) x P(Chinese|want) x P(food|Chinese) “I want food Chinese” P(want|I) x P(food|want) x P(Chinese|food) “I want Chinese lunch” P(want|I) x P(Chinese|want) x P(lunch|Chinese) Vakgroep Vertalen, Tolken en Communicatie

Taalmodel: bi-gram probabiliteiten I want Chinese food P(want|I) x P(Chinese|want) x P(food|Chinese) = 0.32 x x 0.56 = Vakgroep Vertalen, Tolken en Communicatie

Taalmodel: bi-gram probabiliteiten I want food Chinese P(want|I) x P(food|want) x P(Chinese|food) = 0.32 x x 0 = 0 Vakgroep Vertalen, Tolken en Communicatie

Taalmodel: bi-gram probabiliteiten I want Chinese lunch P(want|I) x P(Chinese|want) x P(lunch|Chinese) = 0.32 x x = Vakgroep Vertalen, Tolken en Communicatie

Taalmodel “I want Chinese food” “I want Chinese lunch” “I want food Chinese”03 Vakgroep Vertalen, Tolken en Communicatie

thatthat rulesmustmustbeadhered to dat dat deze regels die deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd acht moeten worden genomen thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd Vakgroep Vertalen, Tolken en Communicatie

thatthat rulesmustmustbeadhered to dat dat deze regels diedie deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd acht moeten worden genomen thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd moeten Vakgroep Vertalen, Tolken en Communicatie

thatthat rulesmustmustbeadhered to dat dat deze regels die deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd acht moeten worden genomen Vakgroep Vertalen, Tolken en Communicatie

thatthat rulesmustmustbeadhered to dat dat deze regels die deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd acht moeten worden genomen thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd moeten worden gerespecteerd Vakgroep Vertalen, Tolken en Communicatie

Vertaalmodel Vakgroep Vertalen, Tolken en Communicatie Hogere probabiliteit voor zinnen met dezelfde betekenis Probabiliteiten op basis van bilinguale corpora Taalmodel Hogere probabiliteit voor grammaticaal correcte zinnen Probabiliteiten op basis van monolinguale corpora Decoder Maakt gebruik van taal- en vertaalmodel Zoekt naar combinatie van frases met hoogste probabiliteit

Typische SMT fouten Woorden ontbreken (scheidbare werkwoorden) women return home with vrouwen [keren] terug naar huis met … Verkeerde woordbetekenis Episodes of personal violence could increase Afleveringen van persoonlijk geweld zouden … Vakgroep Vertalen, Tolken en Communicatie

Typische SMT fouten Woordvolgorde (geen inversie) … omdat het merk is minder bekend Gebrek aan congruentie Emissies van schepen zal worden gemonitord Nederlandse samenstellingen de windenergie sector in Europa Vakgroep Vertalen, Tolken en Communicatie

SMT-kwaliteit Eeuwenlang hebben bestonden [included] Chinese huishoudens uit vele generaties inbegrepen, en Chinese ouderen konden rekenen op hun kinderen de zorg voor om voor hen te zorgen [caring for them] als ze groeiden broos zwakker werden [as they grew frail]. Vakgroep Vertalen, Tolken en Communicatie

Referenties Andy Way and Mary Hearne (2011) On the Role of Translations in State-of-the-Art Statistical Machine Translation. Language and Linguistics Compass 5:227—248 Philipp Koehn (2010) Statistical Machine Translation. Cambridge University Press Szymon Klocek (2015) What’s behind it? Vakgroep Vertalen, Tolken en Communicatie