De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too! Henk van den Heuvel.

Verwante presentaties


Presentatie over: "Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too! Henk van den Heuvel."— Transcript van de presentatie:

1 Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too! Henk van den Heuvel

2 Autonomata Too Het project Opvolger van Autonomata (2005-2007) Gesubsidieerd in de 3e open call van STEVIN Toepassingsgericht project Start: 1 februari 2008 Einde: 1 februari 2010

3 Henk van den Heuvel Autonomata Too AUTONOMATA Too CLST, Radboud Universiteit Nijmegen (coordinator): Henk van den Heuvel ELIS, Universiteit van Gent: Jean-Pierre Martens Nuance: Bart d’Hoore TeleAtlas: Luc Peirlinckx, Luc Mortier UiL-OTS: Gerrit Bloothooft Hetzelfde consortium als in Autonomata

4 Henk van den Heuvel Autonomata Too Doelen van het project ASR van POIs verbeteren Bouwen van demo-applicatie om proof of concept te laten zien

5 Henk van den Heuvel Autonomata Too Achtergrond van het project Wat zijn de specifieke problemen met ASR van namen? G2Ps voor gewone woorden werken niet goed voor namen vanwege: –Gefossilizeerde spellingen –Buitenlandse origine van namen Allerlei (inter)culturele verschijnselen veroorzaken veel varianten in de uitspraak van namen (fonemen / woordklemtoon): –NL/VL-sprekers die NL/VL namen uitspreken –NL/VL-sprekers die buitenlandse namen uitspreken –Anderstaligen die NL/VL namen uitspreken Wat zijn de resultaten van Autonomata (I)? 1.P2P leersoftware en specifieke P2Ps om G2P-omzetting te verbeteren 2.Corpus met gesproken namen → Autonomata, Transfer Of Output

6 Henk van den Heuvel Autonomata Too Autonomata, Transfer Of Output Demonstrator: Horeca in twee steden Andere typen namen dan in Autonomata (nl. POIs): –P2P leersoftware om verbeterde foneemtranscripties te maken Re ë le uitspraken in herkenner: –D.m.v. modellering van patronen die worden gevonden in het namencorpus Inachtneming van interculturele aspecten: –Varianten binnen de Nederlandse foneemset –Varianten buiten de Nederlandse foneemset

7 Henk van den Heuvel Autonomata Too Overzicht werkpakketten WP1 (TeleAtlas): Dataselectie –Fon getranscribeerde straatnamen voor UK en FR –Fon. getranscribeerde POI entries NL, VL, UK en FR WP2 (Nuance): ASR & prototype WP3 (ELIS): Uitbreidingen Autonomata –G2Ps voor Engels, Frans & Duits –Aanpassingen Autonomata G2P toolbox WP4 (CLST): Selectie mono-linguale uitspraakvarianten –Onderzoek naar P2Ps voor uitspraakvarianten van namen WP5 (ELIS): Selectie multi-linguale uitspraakvarianten –Als WP4 maar met ac.modellen buitenlandse fonemen WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator

8 Henk van den Heuvel Autonomata Too Deze presentatie WP1 (TeleAtlas): Dataselectie –Fon getranscribeerde straatnamen voor UK en FR –Fon. getranscribeerde POI entries NL, VL, UK en FR WP2 (Nuance): ASR & prototype WP3 (ELIS): Uitbreidingen Autonomata –G2Ps voor Engels, Frans & Duits –Aanpassingen Autonomata G2P toolbox WP4 (CLST): Selectie mono-linguale uitspraakvarianten –Onderzoek naar P2Ps voor uitspraakvarianten van namen WP5 (ELIS): Selectie multi-linguale uitspraakvarianten –Als WP4 maar met ac.modellen buitenlandse fonemen WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator

9 Henk van den Heuvel Autonomata Too Aandachtspunten in project: Re ë le uitspraken in herkenner : –D.m.v. modellering van patronen die worden gevonden in het namencorpus Inachtneming van interculturele aspecten : –Varianten binnen de Nederlandse foneemset –Varianten buiten de Nederlandse foneemset Doelen voor nu: P2Ps trainen die beschikbare transcripties zo dicht mogelijk bij werkelijke uitspraken brengen Uitgaande van het Autonomata namencorpus –Zowel train- als testmateriaal –CGN-transcripties Voor het Nederlandse deel van het corpus Onderzoek van P2Ps: 1.Die werken op G2P-transcripties 2.Die werken op voorbeeldtranscripties (kanonieke transcripties) Uitgesplitst naar taalorigine van sprekers en van namen Henk van den Heuvel

10 Autonomata Too Autonomata namencorpus 120 Dutch (50% females) 60 natives15 West Dutch 15 Transitional region 15 Northern 15 Southern 60 non- natives 20 English 20 Turkish 20 Moroccan 120 Flemish (50% females) 60 natives15 Antwerp & Brabant 15 East-Flemish 15 West-Flemish 15 Limburg 60 non- natives 20 English 20 French 20 Moroccan Materiaal: 2500 namen per regio (NL / VL) Opgesplitst in 10 lijsten van 250 namen Elke lijst bestaat uit: 25% voornamen 25% achternamen 35% straatnamen 15% plaatsnamen Fonetisch getranscribeerd: 1.Kanoniek (voorbeeld) 2.Auditief geverifieerd

11 Henk van den Heuvel Autonomata Too Systeemarchitectuur ELIS G2P-P2P tandem initial phonemic transcription initial phonemic transcription orthography general purpose g2p converter p2p converter final phonemic transcription final phonemic transcription automatically learned stochastic correction rules

12 Henk van den Heuvel Autonomata Too Omvang datasets Henk van den Heuvel TrainTest NLspk NLnames49202280 NLspk BLnames25011159 BLspk NLnames48002399 BLspk BLnames24401220 NLspk NL-geonames32001600 BLspk NL-geonames32001600

13 Henk van den Heuvel Autonomata Too P2Ps: G2P-output → aud.geverif.transcripties Henk van den Heuvel Phoneme symbols only NLspk NLnames BLspk NLnames NLspk BLnames BLspk BLnames Subs (%) 3.69.713.817.7 Dels (%) 1.14.82.55.7 Ins (%) 1.11.82.33.0 PER (%) 5.816.318.626.3 P2P: WER (%) 39.272.883.992.5 G2P: WER1 (%) 51.878.492.595.3 WIR (%) 21.424.043.146.6 rWIR (=WIR/WER1) 41.330.646.648.9 Duidelijke verbetering door P2P (maakte 4 varianten per naam) Grootste verbetering voor BLnamen WER blijft hoog

14 Henk van den Heuvel Autonomata Too P2Ps: G2P-output → aud.geverif.transcripties Henk van den Heuvel Geo names Phonemes only NLspk & NLnames BLspk & NLnames NLspk & BLnames BLspk & BLname Subs (%)3.39.1 Dels (%)1.14.7 Ins (%)1.11.9 PER (%)5.415.7 WER (%)35.169.1 WER150.876.4 WIR (%)24.226.9 rWIR47.635.2 Resultaten zijn beter dan voor gecombineerde naamsoorten Invloed taalachtergrond naam is belangrijker dan naamsoort

15 Henk van den Heuvel Autonomata Too Uitsplitsing naar taalorigine Trainingsmateriaal in gearceerd gebied is te gering Henk van den Heuvel #records train/dev. corpus#records test corpus Spr/naamNLENTUMANLENTUMA NL4920943 6152280437 285 EN1560299 322840161 138 TU1560299 322840161 138 MA1680195 210719105 90

16 Henk van den Heuvel Autonomata Too P2Ps: G2P-output → Auditief geverifieerde transcripties Henk van den Heuvel 1. Uitsplitsing namen naar taal heeft zin: BL slechter dan apart 2. Uitsplitsing sprekers naar taal heeft zin: BL slechter dan apart 3.Effect 1 > Effect 2 4. Beste resultaten voor EN-namen: systematischer door meer kennis Spr/naamNLENTUMABL NLWER39.275.184.482.583.9 WER151.992.290.995.192.5 WIR21.463.653.152.343.1 rWIR41.369.058.455.046.6 BL spr van NL namenBLSpr:ENTUMABL WER59.976.279.772.8 WER169.682.084.578.4 WIR26.328.232.724.0 rWIR37.834.438.730.6

17 Henk van den Heuvel Autonomata Too P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties Henk van den Heuvel 1. Referentie (WER1) is G2P-transcriptie 2.De P2P-transcripties zijn beter dan de vorige (vanaf G2P getraind); het zijn de beste tot nu toe. Vb-trans zijn beter uitgangspunt om P2Ps te trainen dan G2P-outputs Spr/naamNLENTUMABL NLWER32.747.181.283.267.2 WER151.992.290.895.192.4 WIR25.773.245.842.556.0 rWIR49.679.450.444.660.6 BL spr van NL namen BLSpr:ENTUMABL WER55.675.679.170.3 WER169.582.084.478.4 WIR28.029.328.529.6 rWIR40.235.733.837.8

18 Henk van den Heuvel Autonomata Too P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties Henk van den Heuvel 1.Dezelfde P2Ps, maar referentie (WER1) is nu de voorbeeld-transcriptie 2.T.o.v. G2P-ref zijn de verbeteringen kleiner (logisch) 3.De WERs zijn nog steeds >75% voor BLspr en BLnamen (behalve Engels) 4.Bij Engels zit verbetering vnl. in voorbeeldtranscripties zelf Spr/naamNLENTUMABL NLWER32.747.181.283.267.2 WER143.151.390.687.074.9 WIR17.512.441.033.331.2 rWIR40.624.145.238.341.7 BL spr van NL namenBLSpr:ENTUMABL WER55.675.679.1 WER161.978.982.8 WIR19.321.124.2 rWIR31.226.729.2

19 Henk van den Heuvel Autonomata Too Vervolgonderzoek Henk van den Heuvel 1.P2Ps trainen voor het Vlaamse deel van het corpus 2.Engelse G2P als uitgangspunt voor Engelse namen nemen 3.P2Ps gebruiken om uitspraakvarianten van POIs te maken 4.Selectie uitspraakvarianten voor herkenner 1.Alle 4 varianten opnemen in lexicon? 2.Reductiestrategieen?


Download ppt "Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too! Henk van den Heuvel."

Verwante presentaties


Ads door Google