ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid? Jean-Pierre Martens Catherine.

Slides:



Advertisements
Verwante presentaties
Statistische uitspraken over onbekende populatiegemiddelden
Advertisements

Dag van de Fonetiek, 17 december 1999, Utrecht ? Verbetering van door het gebruik van in de automatische spraakherkenning Jacques Koreman & Attilio Erriquez.
Spraakverstaanbaarheid
Individuele factoren die bewustwording, behoeften en participatie in professionele ontwikkelingsactiviteiten beïnvloeden: Een model op drie niveaus over.
Ontwikkeling en validatie van het GRIF reminder systeem R. Winkens 2, J. van Wersch 3, P. Pop 2 en A. Hasman 1 1 Universiteit Maastricht i.s.m. 2 T&DC.
1 Neemt de kennis van onze studenten toe? Een analyse van de kennisgroei op basis van VGT scores Marieke van Onna & Samantha Bouwmeester.
Welbevinden bij kinderen met CI
28 januari 2009 Auditieve mogelijkheden en taalontwikkeling bij kinderen met CI op de langere termijn Margreet Langereis Anneke Vermeulen.
Presteren ijverige studenten beter? De complexe relatie tussen
Het collaboratief spelen van een educatieve game
Tevredenheidsonderzoek 2007
Kwaliteit van meetinstrumenten
Resultaten enquête tuchtwet
Hok Kwan Kan Primary supervisor: dr. Katrien Antonio
Monitoring en Benchmarking Maarten Zemann & Arie Uyttenbroek 1 april 2009.
Auditieve verwerking van spraaksignalen psychofysisch en fysiologisch onderzoek: hoe reconstrueren we de boodschap van de spreker uit het spraaksignaal?
Inleiding in de statistiek voor de gedragswetenschappen Met ondersteuning van SPSS Guido Valkeneers.
Hoofdstuk 6: Controle structuren
Cleft & Spraakverstaanbaarheid
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 4 mei 2004 Modellering van spontane spraak Jacques Duchateau
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 11 mei 2001.
S1S1 S2S2 S3S3 22 november 2001K.U.Leuven-ESAT/PSI Spraak WP2 Detectie en behandeling van OOV woorden l OOV woorden detecteren door betrouwbaarheid van.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 22 oktober 2003 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau
WP1 Segmentatie in homogene delen Objectieven voor eerste 12 maanden –Analyse van literatuur (LIMSI, Philips,…) –Realisatie van basissysteem voor spraak/niet-spraak.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 22 november 2001.
S1S1 S2S2 S3S3 WP2 OOV woorden in herkenners WP2.2 Betrouwbaarheidsmaten Jacques Duchateau ESAT – PSI - Spraakgroep.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 28 oktober 2002.
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS WP1 : Segmentatie van audiofiles in homogene delen Johan Depoorter Jean-Pierre Martens ELIS-DSSP.
Statistische Taalmodellen voor Spontane Spraak
WP1 Segmentatie in homogene delen Objectieven voor eerste 6 maanden –Analyse van literatuur Philips, LIMSI, BBN, HTK, IBM, Eurecom –Realisatie van basissysteem.
CLARIN: een introductie Ineke Schuurman Coördinator CLARIN-Vlaanderen.
Cultuur Patiëntveiligheid in Belgische ziekenhuizen
1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen (II) College 6.
Visibility-based Probabilistic Roadmaps for Motion Planning Tim Schlechter 13 februari 2003.
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
Spraaksynthese.
Hoofdstuk 6 Het voorspellen van prestaties Deel 2: Vermogenvoorspellingen op architectuurniveau Prof. dr. ir. Dirk Stroobandt Academiejaar
Meervoudige lineaire regressie
Oefeningen F-toetsen ANOVA.
Een fundamentele inleiding in de inductieve statistiek
Neurale Netwerken Kunstmatige Intelligentie Rijksuniversiteit Groningen April 2005.
Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde.
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Evaluatie Van Interactieve Software Systemen
Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005.
Prioriteiten op het spoor komen. Zelf aan de slag ONZE KIJK OP ONZE SCHOOL stap 1: Maak een webschema met als startvraag: Waar zijn we allemaal mee bezig?
Ministerie van de Vlaamse Gemeenschap Afdeling HRM BUE Middenkader 2005 Een eerste verkenning van de resultaten.
The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.
Uitspraak trainen met een computer: is dat mogelijk? Ambra Neri Catia Cucchiarini, Helmer Strik Radboud Universiteit Nijmegen, CLST.
Evaluatie examens LBB 2009 Vragenlijst en examenbespreking Deelnemers Groene leertraject.
Terugkomdag Ortho16 nov 2001 Leesproblemen voorspellen: Mogelijk of Onmogelijk? Wenselijk of Onwenselijk? dr. Anna M. T. Bosman KU Nijmegen, Orthopedagogiek:
HISPARCWOUDSCHOTEN 2006NAHSA Tellen van Random gebeurtenissen Hoe nauwkeurig is een meting?
Betrouwbaarheid.
Arboteam 13 oktober 2009 Karen de Groot Agis en stressmanagement.
1 BUE: de eerste cijfers Gijs Martens HRM Netwerk 22/02/02.
Inleiding in de statistiek voor de gedragswetenschappen
Hoofdstuk X Het correlatievraagstuk & SPSS toepassing
The ethical decision making of men and women executives in international business situations Valentine & Rittenburg (2007). Journal of Business Ethics,
Ontwikkeling van aanbevelingsalgoritmen voor online social games Jan Heuninck.
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1)
Baarde en de goede Hoofdstuk 11: Data-analyse
Statistiek: Argumentatiemiddel bij pedagogische vragen
Op weg naar een design for all? UNIVERSEEL ONTWERP IN DE KLAS 1.
Geeft de MDRD formule een betere benadering van de glomerulaire filtratiesnelheid dan de formule van Cockcroft-Gault? Rikkert Jonkheijm AIOS Erasmus MC.
Problemen in de interactie en communicatie bij kinderen met een aan autisme verwante stoornis. M. Serra & R.B. Minderaa.
1 juli 2009 Evalueren van papers Workshop Fabienne De Ryck Mariet Vriens.
Transcript van de presentatie:

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid? Jean-Pierre Martens Catherine Middag Frederik Stouten

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Situering: het SPACE project SPACE = SPeech Algorithms for Clinical and Educational applications –doel: ontwikkelen van spraaktechnologie voor detecteren van leesfouten, genereren van auditieve feedback, synchroon meelezen, … in een leesleeromgeving objectief karakteriseren van pathologische spraak –technologieontwikkelaars (ESAT, ELIS, ETRO) –technologiegebruikers (ORTHO, COM) –looptijd: 1/3/2005 – 28/2/2009

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Objectieve karakterisering Doelstellingen objectieve maten voor kwaliteit van articulatie ontwikkelen betrouwbaarheid meten door deze maten te correleren met subjectieve beoordelingen (gouden standaard) Aanpak hypothese: verstaanbaarheid is goede globale indicator van kwaliteit van articulatie (tenminste: als rol van taalkundige context + geheugen beperkt blijft) eerst proberen verstaanbaarheid te voorspellen daarna pas individuele eigenschappen van articulatie

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Nood aan subjectieve data M1: impressionistisch oordeel over verstaanbaarheid –steeds zelfde tekstpassage laten scoren door luisteraar  indruk van verstaanbaarheid (op 5-puntenschaal)  indruk steeds gekleurd door taalkundig context + geheugen –vergt weinig inspanningen van luisteraar –matige overeenstemming tussen luisteraars  veel luisteraars om spreiding te doen dalen M2: meten van % correct herkende woorden, fonemen, … –taalkundige context beperken door CVC, nonsenswoorden, … –geheugeneffect beperken door random lijsten te gebruiken –vergt meer inspanningen van luisteraar –goede overeenstemming tussen luisteraars  vergt slechts 1 luisteraar –wel voldoende items om spreiding te doen dalen

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie van Erlangen Spraakmateriaal –lopende spraak (fonetisch rijke passage) –steeds zelfde passage van 108 woorden Proefpersonen –41 pathologische sprekers –allemaal dezelfde pathologie (TE) Subjectieve scores (gouden standaard) –impressionistische oordelen (5-puntenschaal: slecht.. goed) –gemiddelden van 5 luisteraars –betrouwbaarheid: Pearson = 0.8 tussen 1 beoordelaar en gemiddelde van 4 andere

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie van Erlangen Objectieve karakterisering –passage door lopende spraakherkenner sturen –percent correct herkende woorden meten Spraakherkenner –akoestische modellen zijn Hidden Markov Modellen (HMMs) –getraind op lopende spraak van veel normale sprekers (Verbmobil corpus) –polyfoonmodellen (fonemen in context) –cognitieve component in objectieve scores gereduceerd door gebruik van unigram taalmodel

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie van Erlangen Goede correlatie tussen objectieve en subjectieve scores (Pearson = 0.78) Lijkt zeer goed resultaat, maar … Slechts 1 pathologie Regressie bepaald op testdata 5-voudige kruisvalidatie  Pearson = 0.71

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie van Erlangen Goede correlatie tussen objectieve en subjectieve scores (Pearson = 0.79) Lijkt zeer goed resultaat, maar … Slechts 1 pathologie Lineair model bepaald op testdata 5-voudige kruisvalidatie  Pearson = 0.71

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie binnen SPACE Spraakmateriaal –materiaal uit NSVO-test (De Bodt et al, 2006) –50 CVC woorden (in isolatie) per proefpersoon –normale woorden + uitspreekbare nonsenswoorden (b.v. nuis) –3 lijsten die testen op eerste, tweede of derde foneem Proefpersonen –nu reeds 211 sprekers (we mikken op 250) –51 normale (controlegroep) –7 pathologieën: dysartrie (60), gehoorgestoord (42), laryngectomie (37), cleft (11), dysfonie (7), articulatiestoornis (2), glossectomie (1)

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent NSVO (De Bodt et al, 2006) top 1. dop 2. nuis 3.

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Studie binnen SPACE Subjectieve scores (gouden standaard) –percent correct herkende fonemen –zeer betrouwbaar (Pearson = 0.9 tussen 2 luisteraars) Objectieve karakterisering –verschillende types spraakmodellen –verschillende methodes voor gebruik van modellen

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Spraakmodellen Gemeenschappelijk –statistische modellen voor fonetische eenheden –automatisch getraind op veel lopende spraak van ‘normale’ sprekers (CGN, CoGeN corpora) –berekenen hoe goed akoestische vectoren bij die eenheden passen –akoestische vectoren zijn MFCCs Trifoonmodellen (TM) (ESAT) –fonetische eenheden zijn trifonen (fonemen in linker + rechter context, kleine 1000 modellen) –Hidden Markov Modellen (HMMs) –getraind op CGN (gelezen spraak, 300K woorden)

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Spraakmodellen Gemeenschappelijk –statistische modellen voor fonetische eenheden –automatisch getraind op veel lopende spraak van ‘normale’ sprekers (CGN, CoGeN corpora) –berekenen hoe goed akoestische vectoren bij die eenheden passen –akoestische vectoren zijn MFCCs Articulatiemodellen (AM) (ELIS) –fonetische eenheden zijn foneemcomponenten (40-tal) –component = deel met ‘vaste’ articulatorische kenmerken –Artificiële Neurale Netwerken (ANNs) mappen MFCCs eerst naar articulatorische kenmerken (25 kenmerken)  articulatiemodellen –getraind op CoGeN (gelezen spraak, 50K woorden)

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Modes voor gebruik van modellen Herkenningsmode (H) top 1. dop 2. nuis 3. spraak- herkenner

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Modes voor gebruik van modellen Herkenningsmode (H) –geef spraakherkenner zelfde opties als luisteraar Objectieve score –tel aantal keer (in %) dat spraakherkenner correct was  WAC (word accuracy) IJking –lineaire model voor mapping van WAC op subjectieve score

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Modes voor gebruik van modellen Verificatiemode (V) –correct woord gekend verondersteld –leid daaruit sequentie van fonetische eenheden af (fonemen of foneemcomponenten) –gebruik spraakmodellen om spraak in fonetische eenheden te segmenteren Objectieve score –gemiddelde log likelihood (LL) scores voor fonemen of voor articulatorische kenmerken –resultaat = LL-scores –selectie van optimale subset daarvan –beste lineaire model (in die subruimte) voor subjectieve score

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Evaluatie van resultaten Vergelijken van objectieve en subjectieve scores –Pearson correlatie Training en validatie –proefpersonen in 5 sets verdelen (behoud populaties!) –lineair model trainen op 4 sets en evalueren op vijfde –dit 5 maal herhalen tot alle proefpersonen getest zijn –alle resultaten voorstellen op 1 grafiek

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Resultaten: TM+H Pearson = 0.71 Vooral slechte resultaten voor slechte stemmen Nog ver van correlatie gemeten tussen mense- lijke beoordelaars Idee om log p(x|correct) – log p(x|beste ander) te gebruiken helpt niet!

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Resultaten: TM+V Selecteer 10 LL-scores Pearson = 0.77 Reeds minder problemen voor slechte stemmen V duidelijk beter dan H

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Resultaten: AM+V Selecteer 12 LL-scores Pearson = 0.74 AM nog niet zo goed als FM (vooral slechter bij slechte stemmen) Verbeteren door context te gebruiken bij berekening LL-scores AM wel rechtstreeks te interpreteren

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Conclusies Reeds redelijk goede correlatie tussen subjectieve en objectieve verstaanbaarheid mogelijk Meer onderzoek nodig om te komen tot correlaties die deze tussen menselijke beoordelaars benaderen Van zodra dit kan met articulatiemodellen is er ook uitzicht op krijgen van gedetailleerde feedback over articulatie