Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdJuliaan Smet Laatst gewijzigd meer dan 10 jaar geleden
1
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS WP1 : Segmentatie van audiofiles in homogene delen Johan Depoorter Jean-Pierre Martens ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent
2
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Stand van zaken op T18 Spraak/niet-spraak (SNS) segmentatie –werkend systeem gebaseerd op HTK –op BN97eval: 70% niet-spraak gevonden, 0.5% spraak verloren Segmentatie van spraakfragmenten –spreker, achtergrond, bandbreedte (studio/telefoon) –werkt in continue mode –op BN97eval: 70% grenzen gevonden, 30% grenzen tussengevoegd
3
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Werkzaamheden in T18-T24 Nieuw SNS-segmentatiesysteem Systeem voor sprekerclustering –spraakfragmenten van zelfde spreker krijgen zelfde label –maar: label nog niet verder gekarakteriseerd (gender, single- of multi-spreker) Deliverable T12 bijgewerkt (deel van T36) Gestart met onderzoek naar nieuwe algoritmes –betere on-line sprekerclustering (klaar) –gebruik van prosodische kenmerken (op stapel)
4
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Nieuw SNS segmentatiesysteem Oud systeem –gebaseerd op HTK –werkte off-line: eerst file opladen en dan verwerken –kon BN97eval niet in zijn geheel verwerken Nieuw systeem –gebaseerd op eigen software –continue mode: geforceerde decisie in Viterbi-search –wanneer: als logp(pad2) < logp(pad1) - logP –geen (getrainde) transitieprobabiliteiten meer Resultaten (BN97eval) –werkt nog iets beter dan oud systeem
5
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Sprekerclustering Drie on-line algoritmes onderzocht –eenvoudig on-line algoritme –on-line algoritme van IBM –on-line algoritme van ELIS Evaluatie op BN97eval –totale clusterzuiverheid (P tot ) –gemiddelde clusterzuiverheid (P gem ) –aantal gegenereerde clusters N gc –ideale clustering: P itot, P igem, N ic (afh. van segmentatie)
6
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Sprekerclusteringalgoritmes I Eenvoudig on-line algoritme –clustering na segmentatie (spraakfragment <30s) –werk segment (S) per segment af bepaal minimale BIC(S,C) (over alle C) BIC(C,S) < 0 : voeg S bij C BIC(C,S) > 0 : voeg S toe aan cluster set Evaluatie –P tot = 94.2%, P gem = 86.9% bij N gc / N ic = 189 / 118 –resultaten afhankelijk van segmentatie –iets beter als aantal segmenten niet te groot is (doel van segmentatie in het oog houden)
7
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Sprekerclusteringalgoritmes II On-line algoritme van IBM –clustering na segmentatie (spraakfragment <30s) –minimale BIC(S,X): S=segment, X = cluster/segment – BIC < 0 : S en X samengevoegd – BIC > 0 : S (X=cl) of X en S (X=s) bij clusterset –herhaal dit tot alle segmenten verwerkt zijn Evaluatie –even snel als eenvoudig algoritme –P tot = 94.2%, P gem = 88.5% bij N gc / N ic = 181 / 118 –vooral betere P gem bij laag aantal clusters
8
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Sprekerclusteringalgoritmes III On-line algoritme van ELIS –clustering na segmentatie (spraakfragment <30s) –twee nieuwe principes P1: zoek eerst naar nieuwe clusters alvorens segmenten bij bestaande clusters te voegen P2: beperk de grootte van de clusters
9
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Sprekerclusteringalgoritmes III On-line algoritme van ELIS, versie 1 –per S : d s als minimale BIC(C,S) (over alle C) –bepaal S met grootste d s (d sM ) en kleinste d s (d sm ) –d sM > 0 : voeg S met d sM toe als nieuwe cluster –d sM < 0 : voeg S met d sm toe aan dichtste C –herhaal dit tot alle segmenten verwerkt zijn
10
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Sprekerclusteringalgoritmes III On-line algoritme van ELIS, versie 2 –BIC algoritme werkt best indien er een zekere balans is tussen #frames in vergeleken objecten –Dus: beperk grootte van de clusters –Hoe: door samenvoegen van S bij C te verhinderen indien C reeds voldoende frames (>100..200) bevat
11
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Sprekerclusteringalgoritmes III Evaluatie van IBM –P tot = 94.2%, P gem = 88.5% bij N gc / N ic = 181 / 118 –P tot = 91.3%, P gem = 86.5% bij N gc / N ic = 138 / 118 Evaluatie van ELIS, versie 1 –P tot = 94.3%, P gem = 88.5% bij N gc / N ic = 180 / 118 –P tot = 92.2%, P gem = 86.1% bij N gc / N ic = 142 / 118 Evaluatie van ELIS, versie 2 –P tot = 94.9%, P gem = 88.4% bij N gc / N ic = 181 / 118 –P tot = 92.0%, P gem = 88.1% bij N gc / N ic = 137 / 118
12
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Vergelijking van IBM en ELIS
13
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Vergelijking van IBM en ELIS
14
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS Geplande werkzaamheden in T24-T30 Onderzoek naar nut van prosodie –introductie van prosodie: extractie, voorstelling –prosodie voor segmentatie (ook voor SNS?) –prosodie voor clustering –prosodie voor single/multi-spreker en gender Onderzoek naar detectie van haperingen –frequenties van voorkomen opsporen (CGN) –annotatie van haperingen (CGN, prosodiecorpus) –identificatie van akoestische kenmerken –ontwikkelen van detector (probabilistisch)
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.