Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau K.U.Leuven - ESAT/PSI - Spraakgroep
Doelstelling Doel: statistische taalmodellen voor spontane spraak behandelen van haperingen Toegepast op spraakherkenning Statistisch model : N-gram oplossing 1: een model per spraakmode oplossing 2: bijkomende vrijheidsgraden voor het N-gram (cf. Markov model) K.U.Leuven – ESAT/PSI - Spraakgroep 9 April 2003
Probleemstelling Beschikbaarheid van traindata Haperingen geschreven tekst, vb. kranten: 300M woorden spontane spraak, vb. Switchboard: 3M woorden Haperingen geschreven tekst: typisch goed gevormde zinnen spontane spraak: haperingen maken de context bij het N-gram minder uniform K.U.Leuven – ESAT/PSI - Spraakgroep 9 April 2003
Baseline herkenners Voor het Engels: Switchboard telefoonspraak (8 kHz) benchmark: ter vergelijking baseline ontwikkeld in de voorbije periode Voor het Nederlands: CGN face-to-face (16 kHz) gebruik in systeem voor ondertiteling vertraging beschikbaarheid data CGN voorlopig enkel herkenner voor voorgelezen spraak K.U.Leuven – ESAT/PSI - Spraakgroep 9 April 2003
Switchboard: de data Trainen van de modellen data 1995: workshop JHU 65 uur akoestische data 2M woorden voor het taalmodel akoestische segmentatie, geen afgebroken woorden data 2002: transcripties ISIP 310 uur akoestische data 3M woorden voor het taalmodel segmentatie per zin, met afgebroken woorden Benchmark test: HUB5 eval 2001 akoestische data: via LDC referentietranscripties: via ftp van nist.gov K.U.Leuven – ESAT/PSI - Spraakgroep 9 April 2003
Switchboard: benchmark resultaten CU ATT BBN IBM SRI JHU ISIP ESAT CMS X LDA O VTLN MLLR 310u O/X cw-cd ? MMIE LM+ Rover WER 19.8% 20.3% 20.5% 21.9% 23.3% 26.2% 35.6% K.U.Leuven – ESAT/PSI - Spraakgroep 9 April 2003
Stap 1 : JHU data context-onafhankelijk : 56.4% (WER) context-afhankelijk : 39.9% ook positie-afhankelijk : 38.6% decorrelatie op niveau gaussianen : 38.6% 60k gaussianen ipv 20k : 36.2% K.U.Leuven – ESAT/PSI - Spraakgroep 9 April 2003
Stap 2 : suggesties andere systemen CMS : (1) niet adaptief, (2) gegeven PEM-files adaptief, zonder PEM : 36.2% niet adaptief, zonder PEM : 35.5% adaptief, gegeven PEM : 35.7% niet adaptief, gegeven PEM : 35.5% keuze MEL-banden (met versnelde training) 0 tot 17 : 37.3% 0 tot 18 : 36.5% 1 tot 17 : 36.9% 1 tot 18 : 36.3% 125Hz tot 3800Hz : 36.5% instellen aantal features: 25 vs. 39 1 tot 17 : 36.9% vs. 34.9% 125Hz tot 3800Hz : 36.5% vs. 34.3% K.U.Leuven – ESAT/PSI - Spraakgroep 9 April 2003
Stap 3 : ISIP transcripties akoestische modellen: 310 uur data 65 uur data (JHU) : 34.3% 310 uur data (ISIP) : 32.5% aantal parameters (gaussianen) gelijkgehouden taalmodel (3-gram): 3M woorden ipv 2M JHU akoestische modellen : 33.8% ISIP akoestische modellen : 32.1% K.U.Leuven – ESAT/PSI - Spraakgroep 9 April 2003
Conclusies, verder werk Switchboard: ontwikkelde baseline laat toe het gewenste onderzoek te doen CGN: vertraging beschikbaarheid CGN levert geen wezenlijke problemen Volgende periode: ontwikkeling modules om het spontane taalmodel te verbeteren Eerste, nog beperkte experimenten werden al uitgevoerd en voorgesteld op CLIN-02 Integratie met detector voor haperingen K.U.Leuven – ESAT/PSI - Spraakgroep 9 April 2003