Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdChristina Hendriks Laatst gewijzigd meer dan 10 jaar geleden
2
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 1 Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak.
3
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 2 Soorten haperingen. spontane spraak bevat verschillende haperingen. gevulde pauzes = [uh,uhm,mm-hu] = meest voorkomend abnormale klankverlengingen afbrekingen (*a) herhalingen Detectie gevulde pauzes gewenst. fv600228fv400089 Gevulde pauzes7440 Woordverlengingen416 Woordafbrekingen262 Enkelv. herhalingen157 Dubbele herhalingen01
4
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 3 Voorgestelde strategie Binnenkomende spraak segmenteren op basis van een differentiefunctie voor de 12 MFCC’s + c(0). Voor elk segment enkele “features” berekenen -tijdsduur -spectrale stabiliteit -stilteduur voor/na gevulde pauze Classificatie van de segmenten
5
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 4 Segmentatie. Aanduiden van maxima in de differentiefunctie Gevulde pauze gekenmerkt door weinig verschil in de resp. MFCC parameters. FP
6
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 5 Kenmerken : tijdsduur FP FP’s zijn typisch langer dan de andere gevonden segmenten. Vergelijking tijdsduur FP-segmenten vs. NFP-segmenten. E[L FP] = 25,12, E[L NFP] = 10,79
7
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 6 Kenmerken : spectrale stabiliteit. FP’s vertonen een gemiddeld langer “stabiel interval”. => definitie D buur = (d i,i-1 + d i,i+1 ) / 2 (d = Euclidische afstand) => definitie D stab = min(d buur ), voor alle i in FP. Stabiel interval gedefiniëerd als interval in FP waarbinnen d i,index_dstab < T
8
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 7 Kenmerken : stilteduur voor/na FP Systeem van stilteherkenning : drempelenergie bijhouden. => als gedurende 3 sec geen stilte gevonden, keer dan 2 sec terug en stel drempel = min. energie in buffer. Volgens deze methode vond men : stilte voor geen stilte voor stilte na 7847891573 geen stilte na 7617251486 154515143059 FP => 75 % stilte voor of na NFP => 40 % meevolgen aanpassen
9
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 8 Kenmerken : stilteduur voor/na FP. Vergelijking stilteduur FP en NFP => weinig verschil in tijdsduur Aanwezigheid van stilte wèl indicator. Stilteduur voor FP vs. NFPStilteduur na FP vs. NFP
10
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 9 Kenmerken : spectraal zwaartepunt Berekening spectraal zwaartepunt. Uit MFCC’s door IDCT verkrijgt men terug spectrum. Cen_Grav = Deze grootheid is normaal verdeeld. Cen_Grav van FP’s < 16 M = aantal Mel-coeficienten
11
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 10 Detecteren van gevulde pauzes. 33 FP’s op 3059 gezien als stilte ( = blijkbaar te stil uitgesproken) Een FP bestaat soms uit 2 of meer segmenten : slechts 1 segment krijgt label FP ( voorkomen dat korte segmentjes FP zouden zijn). 2992100521304 FP(=1)NFP(=0)Test 2727369698 372425 FP(=1)NFP(=0)Training = 216 700 frames = 3 840 600 frames = 10u 40min 06sec
12
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 11 Classificatie van gevulde pauzes (1)GMM-classificatie. 12 kenmerken [+ 12 MFCC’s ] likelihoods omgevormd tot a posteriors decisie op P * (FP|x) > f P * (NFP|x) (2) MLP-classificatie. 24 features,1 verborgen laag datafiltering op basis van GMM posteriors decisie op P(FP|x) > THR 12 features (64/8 mix) 24 features (32/4 mix) f = 0.0001P = 14,03 % R = 83,16% P = 13,08 % R = 90,91% f = 0.001P = 18,11 % R = 77,44 % P = 18,85% R = 86,86% f = 0.01P = 24,20% R = 69,02% P = 28,37% R = 81,48% f=1P = 53,03% R = 35,35% P = 46,85% R = 60,26% f = 10P = 66,28 % R = 19,19 % P = 52,28 % R = 50,16 % P = precisie, R = recall
13
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 12 Classificatie van gevulde pauzes Combinatie GMM 12 + MLP 24 geeft beste resultaten cijfers enkel gebaseerd op de labels (FP/NFP) parameter = THR parameter = f
14
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 13 Schijnbare performantie. precisie en recall. precisie = 100 / 129 = 77,5 % recall = 100 / 299 = 33,4 % Mààr : niet elk vals alarm is er ook één ! « verborgen » gevulde pauzes niet als [uh,uhm] geannoteerd Vaak segment dat het label niet kreeg (2 per FP) Voorbeeld 1. 1274,83 – 1275,32 Met context. Voorbeeld2. 15,69 – 16,22 Met context. Voorbeeld3. 684,32 – 684,97 Met context. … een beetje … … genre … …te…te… = herhaling
15
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 14 Echte performantie. Eigenlijk maar 3 echte valse alarmen ==> Precisie = 126 / 129 = 97,6 % Dus : lager THR om hogere recall te bekomen Bijkomende haperingen gevonden ==> vooral verlengingen van de eind–n, eind-m, etc. Voorbeeld 1. 505,19 – 505,60 Met context. …sociaal assistent gestudeerd in… met als vak… Precisie = 239 / 250 = 95,6 % Recall = 160 / 299 = 53,5 % (recall rate voor geannoteerde FP’s)
16
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 15 Resultaten en toekomstplannen Naast gevulde pauzes ook veel klankverlengingen met zelfde functie Probleem : niet aangeduid in CGN Dus : nood aan ingebedde trainingsmethode Gebruik in ASR : weglaten van frames (FP’s), minder belang geven aan frames (verlengingen) onderscheid nodig alvorens aan te wenden in ESAT-ASR
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.