Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdChristiana Sasbrink Laatst gewijzigd meer dan 8 jaar geleden
1
Automatisch Vertalen SMT Lieve Macken Vakgroep Vertalen, Tolken en Communicatie
6
Hoe leert een computer vertalen? Woordenschatverwerving in SMT Vakgroep Vertalen, Tolken en Communicatie
7
鱼汤 糖醋老 鸭 Vakgroep Vertalen, Tolken en Communicatie yú tāng táng cù lǎo yā
8
Vakgroep Vertalen, Tolken en Communicatie
13
Co-occurrence frequency 鸡汤老鸭汤鸡汤老鸭汤 jī tāng lǎo yā tāng chicken soup duck soup 酸辣汤 suān là tānghot and sour soup … 糖醋里肌 táng cù lǐ jīsweet and sour pork 糖醋鱼 táng cù yúsweet and sour fish 红烧鱼 hóng shāo yúfish in soy sauce Vakgroep Vertalen, Tolken en Communicatie
14
Co-occurrence frequency 鱼汤 = fish soup; 糖醋 = sweet and sour 鸡汤老鸭汤鸡汤老鸭汤 jī tāng lǎo yā tāng chicken soup duck soup 酸辣汤 suān là tānghot and sour soup … 糖醋里肌 táng cù lǐ jīsweet and sour pork 糖醋鱼 táng cù yúsweet and sour fish 红烧鱼 hóng shāo yúfish in soy sauce Vakgroep Vertalen, Tolken en Communicatie
15
Beredeneerd gokje 糖醋老鸭 = sweet and sour duck 鸡汤老鸭汤鸡汤老鸭汤 jī tāng lǎo yā tāng chicken soup duck soup 酸辣汤 suān là tānghot and sour soup … Vakgroep Vertalen, Tolken en Communicatie
17
Belangrijke begrippen Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie
18
Belangrijke begrippen Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie
19
Belangrijke concepten Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie
20
Belangrijke concepten Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie
21
Beperking: enkel “woorden” Ji ding Vakgroep Vertalen, Tolken en Communicatie
22
Uniforme verdeling Vakgroep Vertalen, Tolken en Communicatie
23
Na 1 iteratie Vakgroep Vertalen, Tolken en Communicatie
24
Na 2 iteraties Vakgroep Vertalen, Tolken en Communicatie
25
Tot convergentie Vakgroep Vertalen, Tolken en Communicatie
26
Tijd voor dessert? 麻饼 má bǎng Vakgroep Vertalen, Tolken en Communicatie
27
Tijd voor dessert? 麻饼 má bǎng Vakgroep Vertalen, Tolken en Communicatie
28
Datagebaseerde methode ‣ Computer leidt alle kennis af uit data ‣ Meer data è meer evidentie è betere kwaliteit ‣ Kwaliteit ~ mate waarin te vertalen teksten lijken op trainingsmateriaal Vakgroep Vertalen, Tolken en Communicatie
29
Chinees-Nederlands 鸡汤 jī tāngkippensoep 老鸭汤 lǎo yā tāngeendensoep 酸辣汤 suān là tāngzoetzure soep (heet) … 糖醋里肌 táng cù lǐ jīvarkensvlees, zoetzuur 糖醋鱼 táng cù yúvis, zoetzuur 红烧鱼 hóng shāo yúvis in sojasaus Vakgroep Vertalen, Tolken en Communicatie
30
Betekenis? 鸡 (jī) = chicken Vakgroep Vertalen, Tolken en Communicatie
32
LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie
33
LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie
34
LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie
35
LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie
36
Phrase table Vakgroep Vertalen, Tolken en Communicatie
40
Hoe leert een computer wat correct Engels/Nederlands is? Vakgroep Vertalen, Tolken en Communicatie
41
Taalmodel I like Chinese… Vakgroep Vertalen, Tolken en Communicatie
42
Taalmodel I like Chinesefood New Year tea beer. be Vakgroep Vertalen, Tolken en Communicatie
43
Taalmodel N-gram = sequentie van woorden n-gram van lengte 1 = unigram (woord) n-gram van lengte 2 = bigram n-gram van lengte 3 = trigram Vakgroep Vertalen, Tolken en Communicatie
44
Taalmodel Bigram: I like Chinese food I like like Chinese Chinese food Vakgroep Vertalen, Tolken en Communicatie
45
Taalmodel Trigram: I like Chinese food I like Chinese like Chinese food Vakgroep Vertalen, Tolken en Communicatie
46
Taalmodel Hypothese: Indien een zin veel plausibele n- grammen bevat is het een plausibele (“correcte”) zin “I want Chinese food” “I want food Chinese” “I want Chinese lunch” Vakgroep Vertalen, Tolken en Communicatie
47
Taalmodel Hypothese: Indien een zin veel plausibele n- grammen bevat is het een plausibele (“goede”) zin Vakgroep Vertalen, Tolken en Communicatie “I want Chinese food”1 “I want food Chinese”3 “I want Chinese lunch”2
48
Taalmodel N-gram probabiliteit (monolinguale corpora) bigram trigram Vakgroep Vertalen, Tolken en Communicatie
49
Taalmodel “I want Chinese food” P(want|I) x P(Chinese|want) x P(food|Chinese) “I want food Chinese” P(want|I) x P(food|want) x P(Chinese|food) “I want Chinese lunch” P(want|I) x P(Chinese|want) x P(lunch|Chinese) Vakgroep Vertalen, Tolken en Communicatie
50
Taalmodel: bi-gram probabiliteiten I want Chinese food P(want|I) x P(Chinese|want) x P(food|Chinese) = 0.32 x 0.0049 x 0.56 = 0.0008781 Vakgroep Vertalen, Tolken en Communicatie
51
Taalmodel: bi-gram probabiliteiten I want food Chinese P(want|I) x P(food|want) x P(Chinese|food) = 0.32 x 0.0066 x 0 = 0 Vakgroep Vertalen, Tolken en Communicatie
52
Taalmodel: bi-gram probabiliteiten I want Chinese lunch P(want|I) x P(Chinese|want) x P(lunch|Chinese) = 0.32 x 0.0049 x 0.0047 = 0.0000074 Vakgroep Vertalen, Tolken en Communicatie
53
Taalmodel “I want Chinese food” 0.00087811 “I want Chinese lunch”0.00000742 “I want food Chinese”03 Vakgroep Vertalen, Tolken en Communicatie
56
thatthat rulesmustmustbeadhered to dat dat deze regels die deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd acht moeten worden genomen thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd Vakgroep Vertalen, Tolken en Communicatie
57
thatthat rulesmustmustbeadhered to dat dat deze regels diedie deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd acht moeten worden genomen thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd moeten Vakgroep Vertalen, Tolken en Communicatie
58
thatthat rulesmustmustbeadhered to dat dat deze regels die deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd acht moeten worden genomen Vakgroep Vertalen, Tolken en Communicatie
59
thatthat rulesmustmustbeadhered to dat dat deze regels die deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd acht moeten worden genomen thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd moeten worden gerespecteerd Vakgroep Vertalen, Tolken en Communicatie
60
Vertaalmodel Vakgroep Vertalen, Tolken en Communicatie Hogere probabiliteit voor zinnen met dezelfde betekenis Probabiliteiten op basis van bilinguale corpora Taalmodel Hogere probabiliteit voor grammaticaal correcte zinnen Probabiliteiten op basis van monolinguale corpora Decoder Maakt gebruik van taal- en vertaalmodel Zoekt naar combinatie van frases met hoogste probabiliteit
61
Typische SMT fouten Woorden ontbreken (scheidbare werkwoorden) women return home with vrouwen [keren] terug naar huis met … Verkeerde woordbetekenis Episodes of personal violence could increase Afleveringen van persoonlijk geweld zouden … Vakgroep Vertalen, Tolken en Communicatie
62
Typische SMT fouten Woordvolgorde (geen inversie) … omdat het merk is minder bekend Gebrek aan congruentie Emissies van schepen zal worden gemonitord Nederlandse samenstellingen de windenergie sector in Europa Vakgroep Vertalen, Tolken en Communicatie
63
SMT-kwaliteit Eeuwenlang hebben bestonden [included] Chinese huishoudens uit vele generaties inbegrepen, en Chinese ouderen konden rekenen op hun kinderen de zorg voor om voor hen te zorgen [caring for them] als ze groeiden broos zwakker werden [as they grew frail]. Vakgroep Vertalen, Tolken en Communicatie
64
Referenties Andy Way and Mary Hearne (2011) On the Role of Translations in State-of-the-Art Statistical Machine Translation. Language and Linguistics Compass 5:227—248 Philipp Koehn (2010) Statistical Machine Translation. Cambridge University Press Szymon Klocek (2015) MT@EC. What’s behind it? Vakgroep Vertalen, Tolken en Communicatie
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.