Spraaksynthese met MBROLA difoonsynthese
Difoonsynthese Als ingrediënten opgeven: Fonemen Toonhoogte Duren
MBROLA procedure Nodig: MBROLA difoonset Stuurgegevens in .pho fil fonemen, toonhoogtes, duren MBROLA maakt .wav file $mbrola mbrola/nl2/nl2 woord.pho woord.wav
MBROLA difoonset Welke difonen precies? Een woordenreeks opnemen waarin alle difonen voorkomen Hoe bereik je stabiliteit in kwaliteit? Met of zonder klemtoon? Segmenteren van difonen
Difoonaansluitingen pa ka ta Dit zijn meestal zes verschillende opnamen, maar dat geeft spectrale verschillen bij de aansluiting: pa – ap, pa – ak, pa – at ka – ap, ka – ak, ka – at ta – ap, ta – ak, ta – at ap ak at
Manipulatie Difoonbouwstenen zijn opgenomen met bepaalde toonhoogten en duren. Hoe kun je die veranderen zonder het timbre van de fonemen te veranderen? Scheiden van stembron en stemfilter, met parametrisatie Golfvorm manipulatie
Scheiden van stembron en stemfilter Model van stemgeving stembron + 5 formantfilters Bereken elke 10 ms de beste benadering van stembron en van de 5 formantfilters Alles in parameters, ook toonhoogte en duur Pas toonhoogte en duur aan Resynthetiseer
Golfvorm manipulatie (PSOLA) Elke stemperiode markeren Per stemperiode een weging uitvoeren zodat aparte stukjes ontstaan die samen de totale golfvorm maken De stukjes in elkaar schuiven geeft een hogere toonhoogte, uit elkaar een lagere Stukjes verdubbelen vergroot de duur, stukjes weghalen verkort Pitch Synchronous OverLap Add method
PSOLA toonhoogtemanipulatie
MBROLA synthese – duur (ms) – toonhoogte (Hz) – % ; Utterance: "Hallo!“ _ 100 100 120 h 96 A 48 l 76 5 100 75 120 o 224 25 85 _ 100 40 70 percentages
MBROLA minivorm Startstilte (100 ms) en begintoonhoogte Fonemen met duren Eindstilte (100 ms) en eindtoonhoogte Alles met <cr> ertussen Met FSA macro!
Hoe kom je aan de waarden Duren: zie website (startwaarden) Toonhoogte: woordklemtoon monosyllabische woorden midden op klinker, bv F0-begin = 120 F0-klemtoon = 150 (50%) F0-einde = 70 Hz