Dag van de Fonetiek, 17 december 1999, Utrecht ? Verbetering van door het gebruik van in de automatische spraakherkenning Jacques Koreman & Attilio Erriquez Universität des Saarlandes, Saarbrücken
Dag van de Fonetiek, 17 december 1999, Utrecht Overzicht •Identificatie van medeklinkers: coarticulatie als bron van informatie •Impliciet gebruik door HMM’s voor gegeneraliseerde trifonen •Doelmatige signaalverwerking moet informatie beter kunnen aanspreken: aanpassing systeemarchitectuur •Problemen: waarom medeklinkers niet beter herkend worden •Oplossing: nog meer fonetische kennis (?)
Dag van de Fonetiek, 17 december 1999, Utrecht Coarticulatie in ASR Coarticulatie als bron van variatie: random variatie: deze wordt doorgaans in probabilistische modellen beschreven d.m.v. normaalverdelingen (voorbeeld: kleine verschillen in interarticulatorische timing) betekenisvolle variatie = informatie: voorbeeld: i.p.v. monofoonmodellen (a) worden (gegeneraliseerde) trifonen (b) gebruikt in de hidden Markov modellering a) “dag” = d0 d a x b) “dag” = d0 d alv_a_vel x (gegeneralis. naar plaats)
Dag van de Fonetiek, 17 december 1999, Utrecht Transities en locus Klinkertransities bevatten informatie over de naburige medeklinker: de formanttransities “wijzen” naar de locus, die van de articulatieplaats van de consonant afhangt. Delattre, P., A. Liberman, F. Cooper (1955). “ Acoustic loci and transitional cues for consonants,” JASA 27(4),
Consonantidentifikatie en transities Het gebruik van klinkertransities (35 ms).... consonant hidden Markov modellering BASELINE Trans VC - C - Trans CV MFCC’s + energie + delta parameters C lexicon taalmodel
Consonantidentifikatie en transities Het gebruik van klinkertransities (35 ms) verbetert de herkenning van medeklinkers.
Dag van de Fonetiek, 17 december 1999, Utrecht Random en betekenisvolle variatie De inputparameters voor hidden Markov modellering in het voorgaande experiment zijn niet optimaal, immers: •Voor de “steady states” van de medeklinkers bestaan de delta parameters slechts uit random variatie. Alleen de MFCC’s en energie zijn belangrijk voor de identificatie van de consonant. •Voor de klinkertransities geldt het omgekeerde, want de deltaparameters weerspiegelen hier de spectrale verandering, terwijl de MFCC’s en de energie minder belangrijk zijn.
Dag van de Fonetiek, 17 december 1999, Utrecht Het selectief gebruik van informatie Om informatie in het signaal selectiever te gebruiken, werden twee Kohonennetten getraind: •statisch Kohonennet Dit Kohonennet moet “steady states” optimaal modelleren en wordt met MFCC’s en energie getraind. •dynamisch Kohonennet Dit Kohonenet moet klinkertransities optimaal modelleren en wordt ook met deltaparameters getraind.
Dag van de Fonetiek, 17 december 1999, Utrecht Systeemarchitectuur MFCC’s + energie + delta parameters consonant hidden Markov modellering lexicon taalmodel dynamisch Kohonennet ww fonetische kenmerken MFCC’s + energie statisch Kohonennet fonetische kenmerken
Dag van de Fonetiek, 17 december 1999, Utrecht Het kenmerk [onset] In de Kohonennetten worden de akoestische parameters op fonetische kenmerken afgebeeld (vgl. voordracht Helmer Strik). Bovendien wordt in het dynamische Kohonennet een kenmerk [onset] getraind, dat voor VC-transities de waarde -1 en voor CV-transities de waarde 1 heeft. Voor de consonanten heeft het kenmerk [onset] de waarde nul. MFCC’s + energie + delta parameters dynamisch Kohonennet fonetische kenmerken MFCC’s + energie statisch Kohonennet fonetische kenmerken
Dag van de Fonetiek, 17 december 1999, Utrecht Gewichting met het kenmerk [onset] Het relatieve gewicht van de output van de twee Kohonen- netten in de hidden Markov modellering (“stream weights” in HTK, maar per frame instelbaar) is afhankelijk van de absolute [onset]-waarde: ww fonetische kenmerken Naarmate de absolute [onset]-waarde hoger is weegt de outputvector van het dynamische Kohonennet zwaarder en de outputvector van het statische Kohonennet minder zwaar.
Dag van de Fonetiek, 17 december 1999, Utrecht Resultaten De relatieve weging van informatie in de “steady states” en in de transities blijkt geen effekt op de consonantidentificatie te hebben. Het simpel concateneren van de outputvectoren van de twee Kohonennetten (“no weighting”) heeft hetzelfde effekt. (Resultaten zonder akoestisch-fonetische mapping: C = 15.83%; POA = 44.78%)
Dag van de Fonetiek, 17 december 1999, Utrecht Why oh why oh why? (Eyore) •Transities worden niet goed getraind: door het gebruik van een vaste transitieduur van 35 ms. wordt soms slechts een deel van de transitie en soms ook en deel van de “steady state” gebruikt voor het trainen van transitiemodellen. Hetzelfde probleem speelt bij de herkenning. •De fonetische kenmerken worden niet goed getraind in het dynamische Kohonennetwerk. Reden: de transities verlopen over meerdere filterbanden, zodat de gedurende transities verschillende MFCC’s veranderen. Het gebrek aan homogene veranderingen in de MFCC’s zorgt ervoor dat geen stabiele fonotopische kaart ontstaat. De fonotopische kaart is dan niet geschikt om de akoestische parameters op fonetische kenmerken af te beelden.
Dag van de Fonetiek, 17 december 1999, Utrecht Het bewijs? Voorbeeld: E. “number”; [onset] goed getraind, [labial] niet.
Dag van de Fonetiek, 17 december 1999, Utrecht ? Conclusie: nog meer fonetische kennis Als het gebrek aan homogeniteit in de inputdata een slechte fonotopische organisatie van het dynamische Kohonennet veroorzaakt, kan deze misschien verbeterd worden door sterker fonetisch georienteerde inputdata, zoals deltawaarden voor de formanten (i.h.b. F2) of lineaire regressiewaarden. Deze zijn in de transities homogener dan delta MFCC’s.
Dag van de Fonetiek, 17 december 1999, Utrecht - EINDE -