ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid? Jean-Pierre Martens Catherine Middag Frederik Stouten
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Situering: het SPACE project SPACE = SPeech Algorithms for Clinical and Educational applications –doel: ontwikkelen van spraaktechnologie voor detecteren van leesfouten, genereren van auditieve feedback, synchroon meelezen, … in een leesleeromgeving objectief karakteriseren van pathologische spraak –technologieontwikkelaars (ESAT, ELIS, ETRO) –technologiegebruikers (ORTHO, COM) –looptijd: 1/3/2005 – 28/2/2009
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Objectieve karakterisering Doelstellingen objectieve maten voor kwaliteit van articulatie ontwikkelen betrouwbaarheid meten door deze maten te correleren met subjectieve beoordelingen (gouden standaard) Aanpak hypothese: verstaanbaarheid is goede globale indicator van kwaliteit van articulatie (tenminste: als rol van taalkundige context + geheugen beperkt blijft) eerst proberen verstaanbaarheid te voorspellen daarna pas individuele eigenschappen van articulatie
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Nood aan subjectieve data M1: impressionistisch oordeel over verstaanbaarheid –steeds zelfde tekstpassage laten scoren door luisteraar indruk van verstaanbaarheid (op 5-puntenschaal) indruk steeds gekleurd door taalkundig context + geheugen –vergt weinig inspanningen van luisteraar –matige overeenstemming tussen luisteraars veel luisteraars om spreiding te doen dalen M2: meten van % correct herkende woorden, fonemen, … –taalkundige context beperken door CVC, nonsenswoorden, … –geheugeneffect beperken door random lijsten te gebruiken –vergt meer inspanningen van luisteraar –goede overeenstemming tussen luisteraars vergt slechts 1 luisteraar –wel voldoende items om spreiding te doen dalen
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie van Erlangen Spraakmateriaal –lopende spraak (fonetisch rijke passage) –steeds zelfde passage van 108 woorden Proefpersonen –41 pathologische sprekers –allemaal dezelfde pathologie (TE) Subjectieve scores (gouden standaard) –impressionistische oordelen (5-puntenschaal: slecht.. goed) –gemiddelden van 5 luisteraars –betrouwbaarheid: Pearson = 0.8 tussen 1 beoordelaar en gemiddelde van 4 andere
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie van Erlangen Objectieve karakterisering –passage door lopende spraakherkenner sturen –percent correct herkende woorden meten Spraakherkenner –akoestische modellen zijn Hidden Markov Modellen (HMMs) –getraind op lopende spraak van veel normale sprekers (Verbmobil corpus) –polyfoonmodellen (fonemen in context) –cognitieve component in objectieve scores gereduceerd door gebruik van unigram taalmodel
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie van Erlangen Goede correlatie tussen objectieve en subjectieve scores (Pearson = 0.78) Lijkt zeer goed resultaat, maar … Slechts 1 pathologie Regressie bepaald op testdata 5-voudige kruisvalidatie Pearson = 0.71
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie van Erlangen Goede correlatie tussen objectieve en subjectieve scores (Pearson = 0.79) Lijkt zeer goed resultaat, maar … Slechts 1 pathologie Lineair model bepaald op testdata 5-voudige kruisvalidatie Pearson = 0.71
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie binnen SPACE Spraakmateriaal –materiaal uit NSVO-test (De Bodt et al, 2006) –50 CVC woorden (in isolatie) per proefpersoon –normale woorden + uitspreekbare nonsenswoorden (b.v. nuis) –3 lijsten die testen op eerste, tweede of derde foneem Proefpersonen –nu reeds 211 sprekers (we mikken op 250) –51 normale (controlegroep) –7 pathologieën: dysartrie (60), gehoorgestoord (42), laryngectomie (37), cleft (11), dysfonie (7), articulatiestoornis (2), glossectomie (1)
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent NSVO (De Bodt et al, 2006) top 1. dop 2. nuis 3.
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie binnen SPACE Subjectieve scores (gouden standaard) –percent correct herkende fonemen –zeer betrouwbaar (Pearson = 0.9 tussen 2 luisteraars) Objectieve karakterisering –verschillende types spraakmodellen –verschillende methodes voor gebruik van modellen
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Spraakmodellen Gemeenschappelijk –statistische modellen voor fonetische eenheden –automatisch getraind op veel lopende spraak van ‘normale’ sprekers (CGN, CoGeN corpora) –berekenen hoe goed akoestische vectoren bij die eenheden passen –akoestische vectoren zijn MFCCs Trifoonmodellen (TM) (ESAT) –fonetische eenheden zijn trifonen (fonemen in linker + rechter context, kleine 1000 modellen) –Hidden Markov Modellen (HMMs) –getraind op CGN (gelezen spraak, 300K woorden)
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Spraakmodellen Gemeenschappelijk –statistische modellen voor fonetische eenheden –automatisch getraind op veel lopende spraak van ‘normale’ sprekers (CGN, CoGeN corpora) –berekenen hoe goed akoestische vectoren bij die eenheden passen –akoestische vectoren zijn MFCCs Articulatiemodellen (AM) (ELIS) –fonetische eenheden zijn foneemcomponenten (40-tal) –component = deel met ‘vaste’ articulatorische kenmerken –Artificiële Neurale Netwerken (ANNs) mappen MFCCs eerst naar articulatorische kenmerken (25 kenmerken) articulatiemodellen –getraind op CoGeN (gelezen spraak, 50K woorden)
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Modes voor gebruik van modellen Herkenningsmode (H) top 1. dop 2. nuis 3. spraak- herkenner
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Modes voor gebruik van modellen Herkenningsmode (H) –geef spraakherkenner zelfde opties als luisteraar Objectieve score –tel aantal keer (in %) dat spraakherkenner correct was WAC (word accuracy) IJking –lineaire model voor mapping van WAC op subjectieve score
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Modes voor gebruik van modellen Verificatiemode (V) –correct woord gekend verondersteld –leid daaruit sequentie van fonetische eenheden af (fonemen of foneemcomponenten) –gebruik spraakmodellen om spraak in fonetische eenheden te segmenteren Objectieve score –gemiddelde log likelihood (LL) scores voor fonemen of voor articulatorische kenmerken –resultaat = LL-scores –selectie van optimale subset daarvan –beste lineaire model (in die subruimte) voor subjectieve score
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Evaluatie van resultaten Vergelijken van objectieve en subjectieve scores –Pearson correlatie Training en validatie –proefpersonen in 5 sets verdelen (behoud populaties!) –lineair model trainen op 4 sets en evalueren op vijfde –dit 5 maal herhalen tot alle proefpersonen getest zijn –alle resultaten voorstellen op 1 grafiek
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Resultaten: TM+H Pearson = 0.71 Vooral slechte resultaten voor slechte stemmen Nog ver van correlatie gemeten tussen mense- lijke beoordelaars Idee om log p(x|correct) – log p(x|beste ander) te gebruiken helpt niet!
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Resultaten: TM+V Selecteer 10 LL-scores Pearson = 0.77 Reeds minder problemen voor slechte stemmen V duidelijk beter dan H
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Resultaten: AM+V Selecteer 12 LL-scores Pearson = 0.74 AM nog niet zo goed als FM (vooral slechter bij slechte stemmen) Verbeteren door context te gebruiken bij berekening LL-scores AM wel rechtstreeks te interpreteren
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Conclusies Reeds redelijk goede correlatie tussen subjectieve en objectieve verstaanbaarheid mogelijk Meer onderzoek nodig om te komen tot correlaties die deze tussen menselijke beoordelaars benaderen Van zodra dit kan met articulatiemodellen is er ook uitzicht op krijgen van gedetailleerde feedback over articulatie