Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 4 mei 2004 Modellering van spontane spraak Jacques Duchateau
Modellering van spontane spraak - Jacques Duchateau 2 Overzicht van WP 3, deel ESAT laatste 2 jaar van het ATraNoS-project 4 delen van een half jaar –1e half jaar: ontwikkeling baseline herkenners Engels, gebaseerd op Switchboard Nederlands, gebaseerd op CGN –2e half jaar: software-ontwikkeling LM –3e half jaar: experimenten LM –4e half jaar: integratie met WP 3, deel ELIS
Modellering van spontane spraak - Jacques Duchateau 3 Update planning WP 3, deel ESAT 1e half jaar: –ontwikkeling baseline Engels 2e half jaar: –software (1-pass) + experimenten LM 3e half jaar: –ontwikkeling baseline Nederlands –software (2-pass, grafen) + experimenten LM 4e half jaar: –integratie met WP 3, deel ELIS –extra LM modellering
Modellering van spontane spraak - Jacques Duchateau 4 Baseline herkenner Nederlands (1) CGN train:oudtrain:nieuwtest:nieuwstest:broadc comp-f V V comp-g V comp-i V V comp-j V V comp-k V V comp-l V V comp-m V comp-n V comp-o V minuten%tussenw %OOV perpl. test:nieuws % 3.1% 192 test:broadc % 3.5% 255
Modellering van spontane spraak - Jacques Duchateau 5 Baseline herkenner Nederlands (2) kenmerken herkenner –akoestische modellen: 40 uur data –taalmodel: krantenartikels (30M woorden) –tussenwerpsels (vb uh) met unigram prob. conversie modellen probleemloos resultaten herkenner train: oud train: nieuw test: nieuws 16.1% 15.9% test: broadcast 46.5% 37.7%
Modellering van spontane spraak - Jacques Duchateau 6 Spontaan LM: probleemstelling beschikbaarheid van traindata –geschreven tekst, vb kranten: 300M woorden –spontane spraak, vb Switchboard: 3M woorden probleem gebruik geschreven tekst voor spontaan LM –stilistisch verschillend –haperingen
Modellering van spontane spraak - Jacques Duchateau 7 Haperingen: oplossing 3 opties: hapering blijft in context / hapering verwijderd / keuze aan herkenner vb. herhaling: ‘Dat is wat wat ik denk’
Modellering van spontane spraak - Jacques Duchateau 8 Haperingen: experimenten experimenten met Switchboard resultaten –herhaling: significante verbetering bij keuze aan herkenner: 36.7% vs 35.1% WER –aarzeling: niet significant slechter –herstarten zin (geconditioneerd op aarzeling): niet significant slechter mogelijk oorzaak verschillend gedrag: zwakke akoestische detectie aarzeling
Modellering van spontane spraak - Jacques Duchateau 9 Conclusies, verder werk baseline Nederlands beschikbaar oplossing haperingen werkt voor herhaling verbetering voor andere haperingen: integratie aarzeling-detector ELIS nodig extra: gebruik geschreven tekst omdat dit het effect van de hapering-modellering kan versterken