Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdTessa Bogaert Laatst gewijzigd meer dan 10 jaar geleden
1
WP1 Segmentatie in homogene delen Objectieven voor eerste 6 maanden –Analyse van literatuur Philips, LIMSI, BBN, HTK, IBM, Eurecom –Realisatie van basissysteem Spraak / niet-spraaksegmentatie Segmentatie spraak volgens omstandigheden (achtergrond, bandbreedte) Detectie van sprekerbeurten, maar nog geen sprekerclustering Tegen maand 12: evaluatie op BN en CGN ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
2
WP1 Algemene opzet Stap 1: eliminatie van niet-spraak –evaluatie: hoeveel spraak is verloren gegaan? Stap 2: segmentatie van spraakfragmenten –sprekerbeurten –veranderingen akoestische condities Stap 3: clustering van segmenten –vooral sprekerclustering Stap 4: classificatie van segmenten –gender en akoestische condities ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
3
WP1 Stap 1: eliminatie van niet-spraak Trainen van GMMs –3 GMMs voor spraak (zuivere spraak, spraak in muziek (BN), spraak in andere ruis) –2 GMMs voor achtergrond (muziek (BN), andere) Combinatie van GMM-scores tot segmenten –HMMs in parallel plaatsen –inter-model kost invoeren –grensposities verfijnen Eliminatie van niet-spraak –enkel lange segmenten (>1 seconde) elimineren ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
4
WP1 Experimenten op CGN Gevolgde procedure –problemen: chunk-grenzen, weinig niet-spraak (NS), geen spraak-in-ruis-aanduiding –slechts 2 GMMs: een S-GMM en een NS-GMM –S-GMM: getraind op centrale delen van S-chunks –NS-GMM: getraind op alle frames van NS-chunks –HMMs met minimale lengte (200 ms) per segment Resultaten –clean: 97% NS-frames OK, 15% NS in spraak –alles: 90% NS-frames OK, 18% NS in spraak ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
5
WP1 Experimenten op BN Gevolgde procedure –training van 5 GMMs (HTK) –training in 2 stappen: selectie van frames op basis van beschikbare labeling verbetering op basis van forced alignment met HMMs + GMM-labels (e.g. selectie van stiltes in spraak) –a priori negatie van lange niet-getranscribeerde fragmenten op basis van beschikbare labels Resultaten –nog niet beschikbaar (na terugkeer van Jan) ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
6
WP1 Stap 2: Segmentatie van spraak LIMSI,Philips: agglomeratieve clustering –initialisatie: grenzen bij spectrale veranderingen –LL-verlies bij wegnemen van een grens of een model (=classificatie) –extra kost voor aantal grenzen, aantal modellen –minimale segmentduur IBM, Philips (>98), Eurecom: BIC (Bayesian Information Criterion) –gemotiveerde kost voor modelcomplexiteit –werkt van links-naar-rechts (real-time) ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
7
WP1 Segmentatie op basis van BIC Basisprincipes –zoek naar eerste grens in (T b,T b +D) (D>1 seconde) –is 1 gaussiaans model voor (T b, T b +D) slechter dan 2 : 1 voor (T b,T b +t) en 1 voor (T b +t,T b +D)? BIC(t) = LLR(t) - c. (#pars/model). logD – t met BIC(t)>0 grens gevonden, herstart daar. –geen t met BIC(t)>0 verhoog D en herbegin Aandachtspunten –t niet te dicht bij 0 of D (onnauwkeurige modelpars) –veel rekentijd (vaak herbeginnen) ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
8
WP1 Segmentatie op basis van BIC ELIS-strategie (zie ook Eurecom) –definieer afstandsmaat D(t) op basis van vaste vensters (duur Tv) aan weerszijden van t –selecteer significante maxima (>Dmin) in D(t) als mogelijke grenzen –gebruik maxima voor selectie van grens en voor verlenging van vensterlengte D in BIC Vrije parameters –Tv, Dmin en c (zie vorige slide) ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
9
WP1 Evaluatie van segmentatie Nood aan standaard evaluatieprocedure –iedereen doet het anders –resultaten moeilijk te vergelijken Beschikbare segmentinformatie dezelfde –segmenten met (Tb,Te) –segmentattributen: spreker ID(s), bandbreedte, achtergrond (muziek/overige) –segmenten kunnen overlappen –segmenten dekken niet de gehele file (bij BN!!) ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
10
WP1 ELIS-evaluatieprocedure Stap 1: omvorming van segmentinformatie –sequentie van aaneensluitende delen –selectie van grenzen volgens behoefte Stap 2: dynamische alignatie van grenzen –grensweglating indien te groot tijdsverschil –pas nu eliminatie van te korte segmenten (<Tmin) Stap 3: evaluatie van alignaties –Receiver Operation Curves (ROC) –Details over grensafwijkingen, deleties/inserties ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
11
WP1 Evaluatieresultaten in globo ROC (Receiver Operation Curve) –recall: hoeveel procent van de te vinden grenzen werden er gedetecteerd? –precision: hoeveel procent van de gedetecteerde grenzen waren eigenlijk te vinden grenzen? ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
12
WP1 Detectie van sprekerveranderingen ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
13
WP1 Samenvatting en conclusies Basissegmentatiesysteem –GMM-trainingsprocedure is klaar –integratie van GMMs in HMM-topologie is klaar –BIC-algoritme is klaar –Integratie van beide delen in 1 systeem is lopende Evaluatie –evaluatieprogramma is klaar –eerste verkennende testen op CGN en BN zijn er Prognose: in lijn tegen T0+12 ATRANOS gebruikersgroep, 11 mei 2001 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.