Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too! Henk van den Heuvel.

Slides:



Advertisements
Verwante presentaties
H20:Voorraadwaardering
Advertisements

Gebruikerscommissie Rebecca Verhofstede
Standaard-bewerkingen
havo A Samenvatting Hoofdstuk 10
NEDERLANDS WOORD BEELD IN & IN Klik met de muis
1 Resultaten marktonderzoek RPM Zeist, 16 januari 2002 Door: Olga van Veenendaal, medew. Rothkrans Projectmanagement.
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Uitgaven aan zorg per financieringsbron / /Hoofdstuk 2 Zorg in perspectief /pagina 1.
Presentatie voor de Vlaamse Club Pattaya Op 1 februari 2012.
GfK PS Retail NLGfK Supermarktkengetallen juli 2014 GfK Supermarktkengetallen Antwoord op deze vragen vindt u op: bij “GfK Publicaties”
Global e-Society Complex België - Regio Vlaanderen e-Regio Provincie Limburg Stad Hasselt Percelen.
TETRA valorisatieproject IWT Realisatie van een raamwerk voor automatische personeelsplanning Tweede gebruikerscommissie
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
Kulturhus De Bijenkorf Borne
Procedure 100% decentraal
De EU en meertaligheid. Een beetje achtergrond De EU telt 23 officiële talen. Waarom zoveel? » Vanaf het begin opgenomen in de verdragen: lijst van officiële.
Uitreiking Speurwerkprijs Noor van Andel 25 juni 2007 Harrie van den Akker 1 Een Delftse kijk op warmtewisselaars Harrie van den Akker Afdeling Multi-Scale.
CFES Stimulering en Sturing van Innovatie Willem Pieterson, PhD May 26th, 2009.
Quizmasters: Sanne Bijlsma Gemeente Zundert Fons Merken Wonen Limburg
Nooit meer onnodig groen? Luuk Misdom, IT&T
NBB-B cursus Utrecht 2008.
Aanpassing van linguïstische modules voor ondertiteling Beschrijving en Evaluatie van de huidige zinsreductiesoftware.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 4 mei 2004 Modellering van spontane spraak Jacques Duchateau
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 11 mei 2001.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 22 oktober 2003 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Gebruikerscommissie 4 mei 2004 Patrick Wambacq.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 22 november 2001.
S1S1 S2S2 S3S3 WP2 OOV woorden in herkenners WP2.2 Betrouwbaarheidsmaten Jacques Duchateau ESAT – PSI - Spraakgroep.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 28 oktober 2002.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 9 april 2003.
Statistische Taalmodellen voor Spontane Spraak
WP1 Segmentatie in homogene delen Objectieven voor eerste 6 maanden –Analyse van literatuur Philips, LIMSI, BBN, HTK, IBM, Eurecom –Realisatie van basissysteem.
CLARIN: een introductie Ineke Schuurman Coördinator CLARIN-Vlaanderen.
FOD VOLKSGEZONDHEID, VEILIGHEID VAN DE VOEDSELKETEN EN LEEFMILIEU 1 Kwaliteit en Patiëntveiligheid in de Belgische ziekenhuizen anno 2008 Rapportage over.
Regelmaat in getallen … … …
Regelmaat in getallen (1).
Oefeningen F-toetsen ANOVA.
Professionele ontwikkeling
Seminarie 1: Pythagoreïsche drietallen
Dutch Parallel Corpus Een multilinguaal & multifunctioneel corpus Accenta 2007 Donderdag 20 september.
AMobe 3de Gebruikerscommissie KaHo Sint-Lieven - Gent.
Ministerie van de Vlaamse Gemeenschap Afdeling HRM BUE Middenkader 2005 Een eerste verkenning van de resultaten.
Inkomen les t/m Begrippen Welvaart de mate waarin mensen in hun behoeften kunnen voorzien.
GfK PS Retail NLGfK Supermarktkengetallen augustus 2014 GfK Supermarktkengetallen Antwoord op deze vragen vindt u op: bij “GfK Publicaties”
Brussel nader onderzocht
Schagen 6 maart Wat is het probleem? Wat is de analyse? Wat is de oplossing?
Persconferentie.
Uitspraak trainen met een computer: is dat mogelijk? Ambra Neri Catia Cucchiarini, Helmer Strik Radboud Universiteit Nijmegen, CLST.
Cijfers Zorg en Gezondheid
Een Module over Model Checking voor het VWO Frits Vaandrager1, David Jansen1 & Els Koopmans2 1Radboud Universiteit Nijmegen 2Olympus College Arnhem.
Standaard-bewerkingen
EFS Seminar Discriminatie van pensioen- en beleggingsfondsen
Personeelsvergadering 155 geldige formulieren GEMIDDELDE TEMPEATUUR: 6,55.
Effecten van visualisatie van participatie tijdens CSCL
350€ WC -1.1 Huurprijzen excl. 50€ vaste kosten 350€ WC € WC € WC € WC € WC €
De Hoge Kleij - Klanttevredenheidsonderzoek
INFOSESSIE CLUBBEGELEIDING Gent 2 december Inleiding door dhr Philippe Mees, voorzitter VLG vzw -Verwelkoming -Uitgangspunt: -Tevredenheidsenquête.
1 BUE: de eerste cijfers Gijs Martens HRM Netwerk 22/02/02.
Tussenstand 19 mei 2011 De laatste hordes. Overzicht Stand van zaken werkpakketten Wat blijft er nog te doen Stadia van implementatie Vragen.
Samen-bouwen … over paneelbouw en de rest!
Centrummaten en Boxplot
Zo zit dat met uw pensioen!
Gezondheid oudere migranten in Utrecht (selectie)
Openbaar je talent Service public, talent particulier.
Personeelsbeleid tav grensarbeiders Eurocadres & Unizo Seminarie, 4 Oktober 2007 L. Coppin & T. Vandenbrande 1 Personeelsbeleid ten aanzien van grensarbeiders.
1 BUE Middenkader 2004 Een eerste verkenning van de resultaten.
Hoe is Zanzu.nl te gebruiken?
Transcript van de presentatie:

Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too! Henk van den Heuvel

Autonomata Too Het project Opvolger van Autonomata ( ) Gesubsidieerd in de 3e open call van STEVIN Toepassingsgericht project Start: 1 februari 2008 Einde: 1 februari 2010

Henk van den Heuvel Autonomata Too AUTONOMATA Too CLST, Radboud Universiteit Nijmegen (coordinator): Henk van den Heuvel ELIS, Universiteit van Gent: Jean-Pierre Martens Nuance: Bart d’Hoore TeleAtlas: Luc Peirlinckx, Luc Mortier UiL-OTS: Gerrit Bloothooft Hetzelfde consortium als in Autonomata

Henk van den Heuvel Autonomata Too Doelen van het project ASR van POIs verbeteren Bouwen van demo-applicatie om proof of concept te laten zien

Henk van den Heuvel Autonomata Too Achtergrond van het project Wat zijn de specifieke problemen met ASR van namen? G2Ps voor gewone woorden werken niet goed voor namen vanwege: –Gefossilizeerde spellingen –Buitenlandse origine van namen Allerlei (inter)culturele verschijnselen veroorzaken veel varianten in de uitspraak van namen (fonemen / woordklemtoon): –NL/VL-sprekers die NL/VL namen uitspreken –NL/VL-sprekers die buitenlandse namen uitspreken –Anderstaligen die NL/VL namen uitspreken Wat zijn de resultaten van Autonomata (I)? 1.P2P leersoftware en specifieke P2Ps om G2P-omzetting te verbeteren 2.Corpus met gesproken namen → Autonomata, Transfer Of Output

Henk van den Heuvel Autonomata Too Autonomata, Transfer Of Output Demonstrator: Horeca in twee steden Andere typen namen dan in Autonomata (nl. POIs): –P2P leersoftware om verbeterde foneemtranscripties te maken Re ë le uitspraken in herkenner: –D.m.v. modellering van patronen die worden gevonden in het namencorpus Inachtneming van interculturele aspecten: –Varianten binnen de Nederlandse foneemset –Varianten buiten de Nederlandse foneemset

Henk van den Heuvel Autonomata Too Overzicht werkpakketten WP1 (TeleAtlas): Dataselectie –Fon getranscribeerde straatnamen voor UK en FR –Fon. getranscribeerde POI entries NL, VL, UK en FR WP2 (Nuance): ASR & prototype WP3 (ELIS): Uitbreidingen Autonomata –G2Ps voor Engels, Frans & Duits –Aanpassingen Autonomata G2P toolbox WP4 (CLST): Selectie mono-linguale uitspraakvarianten –Onderzoek naar P2Ps voor uitspraakvarianten van namen WP5 (ELIS): Selectie multi-linguale uitspraakvarianten –Als WP4 maar met ac.modellen buitenlandse fonemen WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator

Henk van den Heuvel Autonomata Too Deze presentatie WP1 (TeleAtlas): Dataselectie –Fon getranscribeerde straatnamen voor UK en FR –Fon. getranscribeerde POI entries NL, VL, UK en FR WP2 (Nuance): ASR & prototype WP3 (ELIS): Uitbreidingen Autonomata –G2Ps voor Engels, Frans & Duits –Aanpassingen Autonomata G2P toolbox WP4 (CLST): Selectie mono-linguale uitspraakvarianten –Onderzoek naar P2Ps voor uitspraakvarianten van namen WP5 (ELIS): Selectie multi-linguale uitspraakvarianten –Als WP4 maar met ac.modellen buitenlandse fonemen WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator

Henk van den Heuvel Autonomata Too Aandachtspunten in project: Re ë le uitspraken in herkenner : –D.m.v. modellering van patronen die worden gevonden in het namencorpus Inachtneming van interculturele aspecten : –Varianten binnen de Nederlandse foneemset –Varianten buiten de Nederlandse foneemset Doelen voor nu: P2Ps trainen die beschikbare transcripties zo dicht mogelijk bij werkelijke uitspraken brengen Uitgaande van het Autonomata namencorpus –Zowel train- als testmateriaal –CGN-transcripties Voor het Nederlandse deel van het corpus Onderzoek van P2Ps: 1.Die werken op G2P-transcripties 2.Die werken op voorbeeldtranscripties (kanonieke transcripties) Uitgesplitst naar taalorigine van sprekers en van namen Henk van den Heuvel

Autonomata Too Autonomata namencorpus 120 Dutch (50% females) 60 natives15 West Dutch 15 Transitional region 15 Northern 15 Southern 60 non- natives 20 English 20 Turkish 20 Moroccan 120 Flemish (50% females) 60 natives15 Antwerp & Brabant 15 East-Flemish 15 West-Flemish 15 Limburg 60 non- natives 20 English 20 French 20 Moroccan Materiaal: 2500 namen per regio (NL / VL) Opgesplitst in 10 lijsten van 250 namen Elke lijst bestaat uit: 25% voornamen 25% achternamen 35% straatnamen 15% plaatsnamen Fonetisch getranscribeerd: 1.Kanoniek (voorbeeld) 2.Auditief geverifieerd

Henk van den Heuvel Autonomata Too Systeemarchitectuur ELIS G2P-P2P tandem initial phonemic transcription initial phonemic transcription orthography general purpose g2p converter p2p converter final phonemic transcription final phonemic transcription automatically learned stochastic correction rules

Henk van den Heuvel Autonomata Too Omvang datasets Henk van den Heuvel TrainTest NLspk NLnames NLspk BLnames BLspk NLnames BLspk BLnames NLspk NL-geonames BLspk NL-geonames

Henk van den Heuvel Autonomata Too P2Ps: G2P-output → aud.geverif.transcripties Henk van den Heuvel Phoneme symbols only NLspk NLnames BLspk NLnames NLspk BLnames BLspk BLnames Subs (%) Dels (%) Ins (%) PER (%) P2P: WER (%) G2P: WER1 (%) WIR (%) rWIR (=WIR/WER1) Duidelijke verbetering door P2P (maakte 4 varianten per naam) Grootste verbetering voor BLnamen WER blijft hoog

Henk van den Heuvel Autonomata Too P2Ps: G2P-output → aud.geverif.transcripties Henk van den Heuvel Geo names Phonemes only NLspk & NLnames BLspk & NLnames NLspk & BLnames BLspk & BLname Subs (%) Dels (%) Ins (%) PER (%) WER (%) WER WIR (%) rWIR Resultaten zijn beter dan voor gecombineerde naamsoorten Invloed taalachtergrond naam is belangrijker dan naamsoort

Henk van den Heuvel Autonomata Too Uitsplitsing naar taalorigine Trainingsmateriaal in gearceerd gebied is te gering Henk van den Heuvel #records train/dev. corpus#records test corpus Spr/naamNLENTUMANLENTUMA NL EN TU MA

Henk van den Heuvel Autonomata Too P2Ps: G2P-output → Auditief geverifieerde transcripties Henk van den Heuvel 1. Uitsplitsing namen naar taal heeft zin: BL slechter dan apart 2. Uitsplitsing sprekers naar taal heeft zin: BL slechter dan apart 3.Effect 1 > Effect 2 4. Beste resultaten voor EN-namen: systematischer door meer kennis Spr/naamNLENTUMABL NLWER WER WIR rWIR BL spr van NL namenBLSpr:ENTUMABL WER WER WIR rWIR

Henk van den Heuvel Autonomata Too P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties Henk van den Heuvel 1. Referentie (WER1) is G2P-transcriptie 2.De P2P-transcripties zijn beter dan de vorige (vanaf G2P getraind); het zijn de beste tot nu toe. Vb-trans zijn beter uitgangspunt om P2Ps te trainen dan G2P-outputs Spr/naamNLENTUMABL NLWER WER WIR rWIR BL spr van NL namen BLSpr:ENTUMABL WER WER WIR rWIR

Henk van den Heuvel Autonomata Too P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties Henk van den Heuvel 1.Dezelfde P2Ps, maar referentie (WER1) is nu de voorbeeld-transcriptie 2.T.o.v. G2P-ref zijn de verbeteringen kleiner (logisch) 3.De WERs zijn nog steeds >75% voor BLspr en BLnamen (behalve Engels) 4.Bij Engels zit verbetering vnl. in voorbeeldtranscripties zelf Spr/naamNLENTUMABL NLWER WER WIR rWIR BL spr van NL namenBLSpr:ENTUMABL WER WER WIR rWIR

Henk van den Heuvel Autonomata Too Vervolgonderzoek Henk van den Heuvel 1.P2Ps trainen voor het Vlaamse deel van het corpus 2.Engelse G2P als uitgangspunt voor Engelse namen nemen 3.P2Ps gebruiken om uitspraakvarianten van POIs te maken 4.Selectie uitspraakvarianten voor herkenner 1.Alle 4 varianten opnemen in lexicon? 2.Reductiestrategieen?