De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

S1S1 S2S2 S3S3 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau K.U.Leuven - ESAT/PSI - Spraakgroep.

Verwante presentaties


Presentatie over: "S1S1 S2S2 S3S3 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau K.U.Leuven - ESAT/PSI - Spraakgroep."— Transcript van de presentatie:

1 S1S1 S2S2 S3S3 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau K.U.Leuven - ESAT/PSI - Spraakgroep

2 S1S1 S2S2 S3S3 9 April 2003K.U.Leuven – ESAT/PSI - Spraakgroep Doelstelling Doel: statistische taalmodellenDoel: statistische taalmodellen voor spontane spraak voor spontane spraak behandelen van haperingen behandelen van haperingen Toegepast op spraakherkenningToegepast op spraakherkenning Statistisch model : N-gramStatistisch model : N-gram oplossing 1: een model per spraakmode oplossing 1: een model per spraakmode oplossing 2: bijkomende vrijheidsgraden voor het N-gram (cf. Markov model) oplossing 2: bijkomende vrijheidsgraden voor het N-gram (cf. Markov model)

3 S1S1 S2S2 S3S3 9 April 2003K.U.Leuven – ESAT/PSI - Spraakgroep Probleemstelling Beschikbaarheid van traindataBeschikbaarheid van traindata geschreven tekst, vb. kranten: 300M woorden geschreven tekst, vb. kranten: 300M woorden spontane spraak, vb. Switchboard: 3M woorden spontane spraak, vb. Switchboard: 3M woorden HaperingenHaperingen geschreven tekst: typisch goed gevormde zinnen geschreven tekst: typisch goed gevormde zinnen spontane spraak: haperingen maken de context bij het N-gram minder uniform spontane spraak: haperingen maken de context bij het N-gram minder uniform

4 S1S1 S2S2 S3S3 9 April 2003K.U.Leuven – ESAT/PSI - Spraakgroep Baseline herkenners Voor het Engels: SwitchboardVoor het Engels: Switchboard telefoonspraak (8 kHz) telefoonspraak (8 kHz) benchmark: ter vergelijking benchmark: ter vergelijking baseline ontwikkeld in de voorbije periode baseline ontwikkeld in de voorbije periode Voor het Nederlands: CGNVoor het Nederlands: CGN face-to-face (16 kHz) face-to-face (16 kHz) gebruik in systeem voor ondertiteling gebruik in systeem voor ondertiteling vertraging beschikbaarheid data CGN vertraging beschikbaarheid data CGN voorlopig enkel herkenner voor voorgelezen spraak voorlopig enkel herkenner voor voorgelezen spraak

5 S1S1 S2S2 S3S3 9 April 2003K.U.Leuven – ESAT/PSI - Spraakgroep Switchboard: de data Trainen van de modellenTrainen van de modellen data 1995: workshop JHU data 1995: workshop JHU  65 uur akoestische data  2M woorden voor het taalmodel  akoestische segmentatie, geen afgebroken woorden data 2002: transcripties ISIP data 2002: transcripties ISIP  310 uur akoestische data  3M woorden voor het taalmodel  segmentatie per zin, met afgebroken woorden Benchmark test: HUB5 eval 2001Benchmark test: HUB5 eval 2001 akoestische data: via LDC akoestische data: via LDC referentietranscripties: via ftp van nist.gov referentietranscripties: via ftp van nist.gov

6 S1S1 S2S2 S3S3 9 April 2003K.U.Leuven – ESAT/PSI - Spraakgroep Switchboard: benchmark resultaten CUATTBBNIBMSRIJHUISIPESAT CMSXXXXXXXX LDAOXXXOOOX VTLNXXXXXXXO MLLRXXXXXXOO 310uXXXXXXXO/X cw-cdX???OXOX MMIEXXOXXOOO LM+XXXXXXXO/X RoverXXXXXXOO WER19.8%20.3%20.5%21.9%23.3%26.2%35.6%?

7 S1S1 S2S2 S3S3 9 April 2003K.U.Leuven – ESAT/PSI - Spraakgroep Stap 1 : JHU data context-onafhankelijk : 56.4% (WER)context-onafhankelijk : 56.4% (WER) context-afhankelijk : 39.9%context-afhankelijk : 39.9% ook positie-afhankelijk : 38.6%ook positie-afhankelijk : 38.6% decorrelatie op niveau gaussianen : 38.6%decorrelatie op niveau gaussianen : 38.6% 60k gaussianen ipv 20k : 36.2%60k gaussianen ipv 20k : 36.2%

8 S1S1 S2S2 S3S3 9 April 2003K.U.Leuven – ESAT/PSI - Spraakgroep Stap 2 : suggesties andere systemen CMS : (1) niet adaptief, (2) gegeven PEM-filesCMS : (1) niet adaptief, (2) gegeven PEM-files adaptief, zonder PEM : 36.2% adaptief, zonder PEM : 36.2% niet adaptief, zonder PEM : 35.5% niet adaptief, zonder PEM : 35.5% adaptief, gegeven PEM : 35.7% adaptief, gegeven PEM : 35.7% niet adaptief, gegeven PEM : 35.5% niet adaptief, gegeven PEM : 35.5% keuze MEL-banden (met versnelde training)keuze MEL-banden (met versnelde training) 0 tot 17 : 37.3% 0 tot 18 : 36.5% 0 tot 17 : 37.3% 0 tot 18 : 36.5% 1 tot 17 : 36.9% 1 tot 18 : 36.3% 1 tot 17 : 36.9% 1 tot 18 : 36.3% 125Hz tot 3800Hz : 36.5% 125Hz tot 3800Hz : 36.5% instellen aantal features: 25 vs. 39instellen aantal features: 25 vs tot 17 : 36.9% vs. 34.9% 1 tot 17 : 36.9% vs. 34.9% 125Hz tot 3800Hz : 36.5% vs. 34.3% 125Hz tot 3800Hz : 36.5% vs. 34.3%

9 S1S1 S2S2 S3S3 9 April 2003K.U.Leuven – ESAT/PSI - Spraakgroep Stap 3 : ISIP transcripties akoestische modellen: 310 uur dataakoestische modellen: 310 uur data 65 uur data (JHU) : 34.3% 65 uur data (JHU) : 34.3% 310 uur data (ISIP) : 32.5% 310 uur data (ISIP) : 32.5% aantal parameters (gaussianen) gelijkgehouden aantal parameters (gaussianen) gelijkgehouden taalmodel (3-gram): 3M woorden ipv 2Mtaalmodel (3-gram): 3M woorden ipv 2M JHU akoestische modellen : 33.8% JHU akoestische modellen : 33.8% ISIP akoestische modellen : 32.1% ISIP akoestische modellen : 32.1%

10 S1S1 S2S2 S3S3 9 April 2003K.U.Leuven – ESAT/PSI - Spraakgroep Conclusies, verder werk Switchboard: ontwikkelde baseline laat toe het gewenste onderzoek te doenSwitchboard: ontwikkelde baseline laat toe het gewenste onderzoek te doen CGN: vertraging beschikbaarheid CGN levert geen wezenlijke problemenCGN: vertraging beschikbaarheid CGN levert geen wezenlijke problemen Volgende periode: ontwikkeling modules om het spontane taalmodel te verbeterenVolgende periode: ontwikkeling modules om het spontane taalmodel te verbeteren Eerste, nog beperkte experimenten werden al uitgevoerd en voorgesteld op CLIN-02Eerste, nog beperkte experimenten werden al uitgevoerd en voorgesteld op CLIN-02 Integratie met detector voor haperingenIntegratie met detector voor haperingen


Download ppt "S1S1 S2S2 S3S3 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau K.U.Leuven - ESAT/PSI - Spraakgroep."

Verwante presentaties


Ads door Google