De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak.

Verwante presentaties


Presentatie over: "ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak."— Transcript van de presentatie:

1 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak

2 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Overzicht Doel van werkpakket 3 - detectie van haperingen in spontane spraak - methoden om deze te behandelen in ASR. In deze presentatie - bespreking detectieresultaten - nieuwe features - korte demo - herkenningstesten op CGN-data - toekomstplannen

3 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Inleiding Vorige periode –identificatie van de verschillende prosodische en akoestische features per spraaksegment. stabiel interval, stilteduur voor/na, graad v. stabiliteit,... –klassificatie met GMM en MLP. GMM = “filter” : elimineer segmenten die zeker geen FP zijn MLP : finaal onderscheid tussen segmenten. Huidige periode –verdere verbeteringen van het systeem –evaluatie op nieuwe testset –vergelijking met bestaande methodes

4 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Betere stiltedetectie. Indien log energie 3 dB onder threshold → pas threshold aan Over een periode van 3 seconden geen stilte gevonden → threshold = het kleinste minimum over die 3 sec. Keer terug naar positie van minimum om verder stiltes te zoeken Stilte : log-energie minder dan 3 dB boven threshold. t 3 sec E(dB) sil Adaptieve threshold

5 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Betere stiltedetectie. Volgens deze methode : E[SilVoor | FP] = 12.6, E[SilNa |FP]= 18.4, E[Sil|NFP] = 9.1 82 % van de FP’s heeft nu een stilte voor of na (vroeger 75 %) stilte voor geen stilte voor stilte na11897731962 geen stilte na7005931293 188913663255

6 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Detectieresultaten Supervised training THRRec.(%)Prec.(%) 0.290.172.9 0.382.379.5 0.474.183.7 Embedded training THRRec.(%)Prec.(%) 0.878.079.4 0.9574.382.5 0.9871.984.0 Voor FP’s 0.15 sec : Rec. = 72.4 ; prec. = 77.7 Systeem is niet in staat korte FP’s te detecteren.

7 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Vergelijking met literatuur Eigen methode –rec. = 75 % en prec. = 85 % Methode van M. Gabrea, D. O’Shaughnessy –in hun paper : rec. > 90% en prec > 90% –rec. = 60.5 % en prec. = 65.5 % Methode van M. Goto, K. Itou, S. Hayamizu –rec. = 84.9 % en prec. = 91.5 % –Japans spraakcorpus, gecompliceerde front-end

8 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Demo We luisteren naar de demo … oorspronkelijke audio demodemo : 26 gedetecteerde segmenten, waarvan sommige naburig zijn. gefilterde audio Data niet uit CGN, afkomstig van “Workshop Doctoreren”. Real-time = nuttig voor ESAT Input : wave bestand (signaalverwerking ook online). Artikel in Proc. of IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) 2003

9 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Onderzoek van bijkomende kenmerken. Literatuur vermeldt pitch als kenmerk: nog niet gebruikt Pitch beschikbaar via het oormodel Eerste kenmerk : relatieve pitchligging (RPL) Verhouding pitch van segment t.o.v. gemiddelde pitch van N aanliggende segmenten FP’s hebben (gemiddeld genomen) een lagere RPL : E[RPL | FP] = 0.96 E[RPL | NFP] = 1.00 N = 7

10 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Onderzoek van bijkomende kenmerken. Pitchregressiecoëficiënt (PRC) E[PRC | FP] = -0.24 Hz/cs genormeerd op gemiddelde NFP-segmenten vertonen een grotere variantie op de PRC, maar hebben ongeveer zelfde gem. waarde f (Hz) t (10 ms)

11 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Onderzoek van bijkomende kenmerken. Laatste pitch-kenmerk: pitchmodulatie variantie (PMV) Tegengesteld aan verwachtingen: FP’s gemiddeld een grotere PMV f(Hz) t (10 ms) Geen grote verbetering verwacht, nog te doen

12 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Gevulde pauzes en ASR Reacties van ASR op FP’s –Herkennen als uh:uh → uh –Herkennen als functiewoord:uh → uit –Omliggende woorden verkeerd : uh de → nut duiden Mogelijke remedies –FP weglaten in de input –Kans van FP vergroten op basis van detectie –Negeren van uh in de context van taalmodel Voorbeeld … ik ga naar de | uh | markt … P(markt | naar, de) is de goede LM-probabiliteit maar, P(markt | de, *) wordt gebruikt

13 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Gevulde pauzes en ASR Reacties van ASR op FP’s –Herkennen als uh:uh → uh –Herkennen als functiewoord:uh → uit –Omliggende woorden verkeerd : uh de → nut duiden Mogelijke remedies –FP weglaten in de input –Kans van FP vergroten op basis van detectie –Negeren van uh in de context van taalmodel Voorbeeld … ik ga naar de | uh | markt … P(markt | naar, de) is de goede LM-probabiliteit maar, P(markt | de, *) wordt gebruikt

14 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Baseline systeem Evaluatiestrategie –Enkel foutieve inhoudswoorden bekijken Experiment 1 –oorspronkelijk lexicon (40k woorden) –FP-rate = 5.9 % –WER = 55.77 % Experiment 2 –toevoegen van /uh[m]/ aan lexicon –toevoegen van OOV-woorden aan lexicon –WER = 51.29 % [H = 4130, D = 545, S = 2420, I = 674]

15 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Systemen met weglating van FP’s Cheating experiment –Weglaten van manueel gelabelde FP’s –WER = 47.57 % ; R.I. = 7.32 % –1.25 inhoudswoord verbeterd per FP Echt experiment –Weglaten van gedetecteerde FP’s –WER = 49.46 % ; R.I. = 3.64 % –0.62 inhoudswoord verbeterd per FP

16 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Enkele voorbeelden Insertiefout en substitutiefout opgeheven REF: … heel veel ambiance |uh| zeker honderden mensen staan …(!) BAS: … heel veel albion zou zeker honderden mensen staan … REF:... heel veel ambiance zeker honderden mensen staan … DEF:... heel veel ambiance zeker honderden mensen staan … Substitutiefout opgeheven, maar insertiefout niet REF: … en |uh| de winnares van het jaar daarvoor … BAS: … en nut duiden winnares van het jaar daarvoor … REF: … en de winnares van het jaar daarvoor … DET: … en naar de winnares van het jaar daarvoor …(lengtered.)

17 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Enkele voorbeelden Substitutiefout omwille van klankverlenging REF: … de gezondheidstoestand … BAS: … deuren gezondheidstoestand … REF: … de gezondheidstoestand … DET: … de gezondheidstoestand … Insertiefout opgeheven REF: … een |uh| internationale wedstrijd … BAS: … een uit internationale wedstrijd … REF: … een internationale wedstrijd … DET: … een internationale wedstrijd …

18 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Conclusie FP detectie kan nog beter Detectie van andere disfluencies –herhalingen –woordafbrekingen –FP’s startpunt bij detectie (dikwijls combinatie) Overleg met ESAT over integratie in ASR


Download ppt "ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak."

Verwante presentaties


Ads door Google