De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Automatisch Vertalen SMT Lieve Macken Vakgroep Vertalen, Tolken en Communicatie.

Verwante presentaties


Presentatie over: "Automatisch Vertalen SMT Lieve Macken Vakgroep Vertalen, Tolken en Communicatie."— Transcript van de presentatie:

1 Automatisch Vertalen SMT Lieve Macken Vakgroep Vertalen, Tolken en Communicatie

2

3

4

5

6 Hoe leert een computer vertalen? Woordenschatverwerving in SMT Vakgroep Vertalen, Tolken en Communicatie

7 鱼汤 糖醋老 鸭 Vakgroep Vertalen, Tolken en Communicatie yú tāng táng cù lǎo yā

8 Vakgroep Vertalen, Tolken en Communicatie

9

10

11

12

13 Co-occurrence frequency 鸡汤老鸭汤鸡汤老鸭汤 jī tāng lǎo yā tāng chicken soup duck soup 酸辣汤 suān là tānghot and sour soup … 糖醋里肌 táng cù lǐ jīsweet and sour pork 糖醋鱼 táng cù yúsweet and sour fish 红烧鱼 hóng shāo yúfish in soy sauce Vakgroep Vertalen, Tolken en Communicatie

14 Co-occurrence frequency 鱼汤 = fish soup; 糖醋 = sweet and sour 鸡汤老鸭汤鸡汤老鸭汤 jī tāng lǎo yā tāng chicken soup duck soup 酸辣汤 suān là tānghot and sour soup … 糖醋里肌 táng cù lǐ jīsweet and sour pork 糖醋鱼 táng cù yúsweet and sour fish 红烧鱼 hóng shāo yúfish in soy sauce Vakgroep Vertalen, Tolken en Communicatie

15 Beredeneerd gokje 糖醋老鸭 = sweet and sour duck 鸡汤老鸭汤鸡汤老鸭汤 jī tāng lǎo yā tāng chicken soup duck soup 酸辣汤 suān là tānghot and sour soup … Vakgroep Vertalen, Tolken en Communicatie

16

17 Belangrijke begrippen Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie

18 Belangrijke begrippen Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie

19 Belangrijke concepten Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie

20 Belangrijke concepten Voorwaardelijkekans: P(a|b) waarde tussen 0 en 1 Vakgroep Vertalen, Tolken en Communicatie

21 Beperking: enkel “woorden” Ji ding Vakgroep Vertalen, Tolken en Communicatie

22 Uniforme verdeling Vakgroep Vertalen, Tolken en Communicatie

23 Na 1 iteratie Vakgroep Vertalen, Tolken en Communicatie

24 Na 2 iteraties Vakgroep Vertalen, Tolken en Communicatie

25 Tot convergentie Vakgroep Vertalen, Tolken en Communicatie

26 Tijd voor dessert? 麻饼 má bǎng Vakgroep Vertalen, Tolken en Communicatie

27 Tijd voor dessert? 麻饼 má bǎng Vakgroep Vertalen, Tolken en Communicatie

28 Datagebaseerde methode ‣ Computer leidt alle kennis af uit data ‣ Meer data è meer evidentie è betere kwaliteit ‣ Kwaliteit ~ mate waarin te vertalen teksten lijken op trainingsmateriaal Vakgroep Vertalen, Tolken en Communicatie

29 Chinees-Nederlands 鸡汤 jī tāngkippensoep 老鸭汤 lǎo yā tāngeendensoep 酸辣汤 suān là tāngzoetzure soep (heet) … 糖醋里肌 táng cù lǐ jīvarkensvlees, zoetzuur 糖醋鱼 táng cù yúvis, zoetzuur 红烧鱼 hóng shāo yúvis in sojasaus Vakgroep Vertalen, Tolken en Communicatie

30 Betekenis? 鸡 (jī) = chicken Vakgroep Vertalen, Tolken en Communicatie

31

32 LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie

33 LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie

34 LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie

35 LeLePhrgnments Vakgroep Vertalen, Tolken en Communicatie

36 Phrase table Vakgroep Vertalen, Tolken en Communicatie

37

38

39

40 Hoe leert een computer wat correct Engels/Nederlands is? Vakgroep Vertalen, Tolken en Communicatie

41 Taalmodel I like Chinese… Vakgroep Vertalen, Tolken en Communicatie

42 Taalmodel I like Chinesefood New Year tea beer. be Vakgroep Vertalen, Tolken en Communicatie

43 Taalmodel N-gram = sequentie van woorden n-gram van lengte 1 = unigram (woord) n-gram van lengte 2 = bigram n-gram van lengte 3 = trigram Vakgroep Vertalen, Tolken en Communicatie

44 Taalmodel Bigram: I like Chinese food I like like Chinese Chinese food Vakgroep Vertalen, Tolken en Communicatie

45 Taalmodel Trigram: I like Chinese food I like Chinese like Chinese food Vakgroep Vertalen, Tolken en Communicatie

46 Taalmodel Hypothese: Indien een zin veel plausibele n- grammen bevat is het een plausibele (“correcte”) zin “I want Chinese food” “I want food Chinese” “I want Chinese lunch” Vakgroep Vertalen, Tolken en Communicatie

47 Taalmodel Hypothese: Indien een zin veel plausibele n- grammen bevat is het een plausibele (“goede”) zin Vakgroep Vertalen, Tolken en Communicatie “I want Chinese food”1 “I want food Chinese”3 “I want Chinese lunch”2

48 Taalmodel N-gram probabiliteit (monolinguale corpora) bigram trigram Vakgroep Vertalen, Tolken en Communicatie

49 Taalmodel “I want Chinese food” P(want|I) x P(Chinese|want) x P(food|Chinese) “I want food Chinese” P(want|I) x P(food|want) x P(Chinese|food) “I want Chinese lunch” P(want|I) x P(Chinese|want) x P(lunch|Chinese) Vakgroep Vertalen, Tolken en Communicatie

50 Taalmodel: bi-gram probabiliteiten I want Chinese food P(want|I) x P(Chinese|want) x P(food|Chinese) = 0.32 x x 0.56 = Vakgroep Vertalen, Tolken en Communicatie

51 Taalmodel: bi-gram probabiliteiten I want food Chinese P(want|I) x P(food|want) x P(Chinese|food) = 0.32 x x 0 = 0 Vakgroep Vertalen, Tolken en Communicatie

52 Taalmodel: bi-gram probabiliteiten I want Chinese lunch P(want|I) x P(Chinese|want) x P(lunch|Chinese) = 0.32 x x = Vakgroep Vertalen, Tolken en Communicatie

53 Taalmodel “I want Chinese food” “I want Chinese lunch” “I want food Chinese”03 Vakgroep Vertalen, Tolken en Communicatie

54

55

56 thatthat rulesmustmustbeadhered to dat dat deze regels die deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd acht moeten worden genomen thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd Vakgroep Vertalen, Tolken en Communicatie

57 thatthat rulesmustmustbeadhered to dat dat deze regels diedie deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd acht moeten worden genomen thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd moeten Vakgroep Vertalen, Tolken en Communicatie

58 thatthat rulesmustmustbeadhered to dat dat deze regels die deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd acht moeten worden genomen Vakgroep Vertalen, Tolken en Communicatie

59 thatthat rulesmustmustbeadhered to dat dat deze regels die deze deze regels regelsmoetzijn wordt voldaan gehechtnaar worden nageleefd acht moeten worden genomen thesethese deze voorschriften moet worden gerespecteerd dienen te worden nageleefd moeten worden gerespecteerd Vakgroep Vertalen, Tolken en Communicatie

60 Vertaalmodel Vakgroep Vertalen, Tolken en Communicatie Hogere probabiliteit voor zinnen met dezelfde betekenis Probabiliteiten op basis van bilinguale corpora Taalmodel Hogere probabiliteit voor grammaticaal correcte zinnen Probabiliteiten op basis van monolinguale corpora Decoder Maakt gebruik van taal- en vertaalmodel Zoekt naar combinatie van frases met hoogste probabiliteit

61 Typische SMT fouten Woorden ontbreken (scheidbare werkwoorden) women return home with vrouwen [keren] terug naar huis met … Verkeerde woordbetekenis Episodes of personal violence could increase Afleveringen van persoonlijk geweld zouden … Vakgroep Vertalen, Tolken en Communicatie

62 Typische SMT fouten Woordvolgorde (geen inversie) … omdat het merk is minder bekend Gebrek aan congruentie Emissies van schepen zal worden gemonitord Nederlandse samenstellingen de windenergie sector in Europa Vakgroep Vertalen, Tolken en Communicatie

63 SMT-kwaliteit Eeuwenlang hebben bestonden [included] Chinese huishoudens uit vele generaties inbegrepen, en Chinese ouderen konden rekenen op hun kinderen de zorg voor om voor hen te zorgen [caring for them] als ze groeiden broos zwakker werden [as they grew frail]. Vakgroep Vertalen, Tolken en Communicatie

64 Referenties Andy Way and Mary Hearne (2011) On the Role of Translations in State-of-the-Art Statistical Machine Translation. Language and Linguistics Compass 5:227—248 Philipp Koehn (2010) Statistical Machine Translation. Cambridge University Press Szymon Klocek (2015) What’s behind it? Vakgroep Vertalen, Tolken en Communicatie


Download ppt "Automatisch Vertalen SMT Lieve Macken Vakgroep Vertalen, Tolken en Communicatie."

Verwante presentaties


Ads door Google