presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 1 Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak.

Slides:



Advertisements
Verwante presentaties
KWALITEITSZORG november 2012
Advertisements

Stilstaan bij parkeren Dat houdt ons in beweging
Voorrangsregels bij rekenen (2)
‘SMS’ Studeren met Succes deel 1
M3F-MATEN - Tijd en Snelheid
Wat was toen het grootste het grootste probleem van de van de FOD?
NEDERLANDS WOORD BEELD IN & IN Klik met de muis
1 Resultaten marktonderzoek RPM Zeist, 16 januari 2002 Door: Olga van Veenendaal, medew. Rothkrans Projectmanagement.
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Uitgaven aan zorg per financieringsbron / /Hoofdstuk 2 Zorg in perspectief /pagina 1.
Duurzaamheid en kosten
Global e-Society Complex België - Regio Vlaanderen e-Regio Provincie Limburg Stad Hasselt Percelen.
M3F-MATEN - Tijd en Snelheid
 Deel 1: Introductie / presentatie  DVD  Presentatie enquête  Ervaringen gemeente  Pauze  Deel 2 Discussie in kleinere groepen  Discussies in lokalen.
Ronde (Sport & Spel) Quiz Night !
Natuurlijke Werkloosheid en de Phillipscurve
Kb.1 Ik leer op een goede manier optellen en aftrekken
Goed advies kost geld Financiële ondersteuning Wmo-adviesraden Monster 27 januari 2009.
Nooit meer onnodig groen? Luuk Misdom, IT&T
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 4 mei 2004 Modellering van spontane spraak Jacques Duchateau
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 22 oktober 2003 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak.
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS WP1 : Segmentatie van audiofiles in homogene delen Johan Depoorter Jean-Pierre Martens ELIS-DSSP.
Statistische Taalmodellen voor Spontane Spraak
WP1 Segmentatie in homogene delen Objectieven voor eerste 6 maanden –Analyse van literatuur Philips, LIMSI, BBN, HTK, IBM, Eurecom –Realisatie van basissysteem.
FOD VOLKSGEZONDHEID, VEILIGHEID VAN DE VOEDSELKETEN EN LEEFMILIEU 1 Kwaliteit en Patiëntveiligheid in de Belgische ziekenhuizen anno 2008 Rapportage over.
Elke 7 seconden een nieuw getal
Lineaire functies Lineaire functie
Regelmaat in getallen … … …
Regelmaat in getallen (1).
1 het type x² = getal 2 ontbinden in factoren 3 de abc-formule
1 introductie 3'46” …………… normaal hart hond 1'41” ……..
Oefeningen F-toetsen ANOVA.
Van Gulden naar EUR…!! Ik vond een prijslijst van 2000 en vergeleek……..
Wat levert de tweede pensioenpijler op voor het personeelslid? 1 Enkele simulaties op basis van de weddeschaal B1-B3.
In dit vakje zie je hoeveel je moet betalen. Uit de volgende drie vakjes kan je dan kiezen. Er is er telkens maar eentje juist. Ken je het juiste antwoord,
Werken aan Intergenerationele Samenwerking en Expertise.
Breuken-Vereenvoudigen
Seminarie 1: Pythagoreïsche drietallen
De FFT spectrumanalyzer
Ministerie van de Vlaamse Gemeenschap Afdeling HRM BUE Middenkader 2005 Een eerste verkenning van de resultaten.
Inkomen les 14 Begrippen & 65 t/m Begrippen Primaire sector Bedrijven die zaken aan de natuur onttrekken (landbouw, jacht, bosbouw, visserij)
1 © GfK 2012 | Supermarktkengetallen | GFK SUPERMARKTKENGETALLEN ‘Hoe ontwikkelt het aantal kassabonnen zich?’ ‘Wat is de omzet van de supermarkten.
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
ribwis1 Toegepaste wiskunde – Differentieren Lesweek 7
Toegepaste mechanica voor studenten differentiatie Constructie
Een bakje kwark kost € 1,27. Hoeveel kosten vijf bakjes? 5 x € 1,27 = 5 x € 1,00 = € 5,00 5 x € 0,20 = € 1,00 5 x € 0,07 = € 0, € 6,35 Een.
SAMENWERKING WO EN HBO BIJ AANSLUITINGSONDERZOEK V0-HO Rob Andeweg DAIR 7 en 8 november 2007.
EFS Seminar Discriminatie van pensioen- en beleggingsfondsen
Deel 2. Hoofdrekenend aftrekken
Hoe gaat dit spel te werk?! Klik op het antwoord dat juist is. Klik op de pijl om door te gaan!
Eerst even wat uitleg. Klik op het juiste antwoord als je het weet.
A H M F K EB C x 85 Korte zijde bij C 2 e secties volte 14 m en op afstand komen ( 0,5 rijbaan)
ZijActief Koningslust 10 jaar Truusje Trap
Op reis naar een dierentuin
ECHT ONGELOOFLIJK. Lees alle getallen. langzaam en rij voor rij
FHI branches Trendonderzoek & Recessie-enquête.
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 5.
Opleiding CMS website Gent Bart Nelis Gent: #239/ docentengang Brussel: /naast bibliotheek
STIMULANS KWALITEITSZORG juni 2014.
De financiële functie: Integrale bedrijfsanalyse©
Centrummaten en Boxplot
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
1 Week /03/ is gestart in mineur De voorspellingen van alle groten der aarden dat de beurzen zouden stijgen is omgekeerd uitgedraaid.
Gezondheid oudere migranten in Utrecht (selectie)
Transcript van de presentatie:

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 1 Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak.

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 2 Soorten haperingen. spontane spraak bevat verschillende haperingen. gevulde pauzes = [uh,uhm,mm-hu] = meest voorkomend abnormale klankverlengingen afbrekingen (*a) herhalingen  Detectie gevulde pauzes gewenst. fv600228fv Gevulde pauzes7440 Woordverlengingen416 Woordafbrekingen262 Enkelv. herhalingen157 Dubbele herhalingen01

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 3 Voorgestelde strategie Binnenkomende spraak segmenteren op basis van een differentiefunctie voor de 12 MFCC’s + c(0). Voor elk segment enkele “features” berekenen -tijdsduur -spectrale stabiliteit -stilteduur voor/na gevulde pauze Classificatie van de segmenten

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 4 Segmentatie. Aanduiden van maxima in de differentiefunctie Gevulde pauze gekenmerkt door weinig verschil in de resp. MFCC parameters. FP

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 5 Kenmerken : tijdsduur FP FP’s zijn typisch langer dan de andere gevonden segmenten. Vergelijking tijdsduur FP-segmenten vs. NFP-segmenten. E[L FP] = 25,12, E[L NFP] = 10,79

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 6 Kenmerken : spectrale stabiliteit. FP’s vertonen een gemiddeld langer “stabiel interval”. => definitie D buur = (d i,i-1 + d i,i+1 ) / 2 (d = Euclidische afstand) => definitie D stab = min(d buur ), voor alle i in FP. Stabiel interval gedefiniëerd als interval in FP waarbinnen d i,index_dstab < T

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 7 Kenmerken : stilteduur voor/na FP Systeem van stilteherkenning : drempelenergie bijhouden. => als gedurende 3 sec geen stilte gevonden, keer dan 2 sec terug en stel drempel = min. energie in buffer. Volgens deze methode vond men : stilte voor geen stilte voor stilte na geen stilte na FP => 75 % stilte voor of na NFP => 40 % meevolgen aanpassen

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 8 Kenmerken : stilteduur voor/na FP. Vergelijking stilteduur FP en NFP => weinig verschil in tijdsduur Aanwezigheid van stilte wèl indicator. Stilteduur voor FP vs. NFPStilteduur na FP vs. NFP

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 9 Kenmerken : spectraal zwaartepunt Berekening spectraal zwaartepunt. Uit MFCC’s door IDCT verkrijgt men terug spectrum. Cen_Grav = Deze grootheid is normaal verdeeld. Cen_Grav van FP’s < 16 M = aantal Mel-coeficienten

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 10 Detecteren van gevulde pauzes. 33 FP’s op 3059 gezien als stilte ( = blijkbaar te stil uitgesproken) Een FP bestaat soms uit 2 of meer segmenten : slechts 1 segment krijgt label FP ( voorkomen dat korte segmentjes FP zouden zijn) FP(=1)NFP(=0)Test FP(=1)NFP(=0)Training = frames = frames = 10u 40min 06sec

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 11 Classificatie van gevulde pauzes (1)GMM-classificatie. 12 kenmerken [+ 12 MFCC’s ] likelihoods omgevormd tot a posteriors decisie op P * (FP|x) > f P * (NFP|x) (2) MLP-classificatie. 24 features,1 verborgen laag datafiltering op basis van GMM posteriors decisie op P(FP|x) > THR 12 features (64/8 mix) 24 features (32/4 mix) f = P = 14,03 % R = 83,16% P = 13,08 % R = 90,91% f = 0.001P = 18,11 % R = 77,44 % P = 18,85% R = 86,86% f = 0.01P = 24,20% R = 69,02% P = 28,37% R = 81,48% f=1P = 53,03% R = 35,35% P = 46,85% R = 60,26% f = 10P = 66,28 % R = 19,19 % P = 52,28 % R = 50,16 % P = precisie, R = recall

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 12 Classificatie van gevulde pauzes Combinatie GMM 12 + MLP 24 geeft beste resultaten cijfers enkel gebaseerd op de labels (FP/NFP) parameter = THR parameter = f

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 13 Schijnbare performantie. precisie en recall. precisie = 100 / 129 = 77,5 % recall = 100 / 299 = 33,4 % Mààr : niet elk vals alarm is er ook één ! « verborgen » gevulde pauzes niet als [uh,uhm] geannoteerd Vaak segment dat het label niet kreeg (2 per FP) Voorbeeld ,83 – 1275,32 Met context. Voorbeeld2. 15,69 – 16,22 Met context. Voorbeeld3. 684,32 – 684,97 Met context. … een beetje … … genre … …te…te… = herhaling

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 14 Echte performantie. Eigenlijk maar 3 echte valse alarmen ==> Precisie = 126 / 129 = 97,6 % Dus : lager THR om hogere recall te bekomen Bijkomende haperingen gevonden ==> vooral verlengingen van de eind–n, eind-m, etc. Voorbeeld ,19 – 505,60 Met context. …sociaal assistent gestudeerd in… met als vak… Precisie = 239 / 250 = 95,6 % Recall = 160 / 299 = 53,5 % (recall rate voor geannoteerde FP’s)

presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 15 Resultaten en toekomstplannen Naast gevulde pauzes ook veel klankverlengingen met zelfde functie Probleem : niet aangeduid in CGN Dus : nood aan ingebedde trainingsmethode Gebruik in ASR : weglaten van frames (FP’s), minder belang geven aan frames (verlengingen) onderscheid nodig alvorens aan te wenden in ESAT-ASR