Dag van de Fonetiek, 17 december 1999, Utrecht ? Verbetering van door het gebruik van in de automatische spraakherkenning Jacques Koreman & Attilio Erriquez.

Slides:



Advertisements
Verwante presentaties
Elektromagnetische inductie
Advertisements

Klimaatrobuustere modellering van evapotranspiratie
1 19 jan Urk. 2 de context van 2Korinthe 3  Paulus reageert op beschuldigingen dat hij onbevoegd zou zijn (3:1,2);  Paulus plaatst zijn Evangelie.
Rekenen in groep 1 t/m 4 De doorgaande lijn.
Differentie vergelijkingen differentie vergelijkingen
Business mapping Business model canvas.
CHEMISCH EVENWICHT.
in de transitie naar een
Elektriciteit 1 Les 13 Condensatorschakelingen, opstapeling van elektrostatische energie en diëlektrica.
Opdrachttaak kennissystemen:
vwo A/C Samenvatting Hoofdstuk 6
Slimmer Organiseren voorbij “Het Nieuwe Werken”. Slimmer organiseren Een flexibiliserende arbeidsmarkt en moderne communicatiestructuren levert vragen.
Beeldkwaliteitsbestekken de oplossing?
© BeSite B.V www.besite.nl Feit: In 2007 is 58% van de organisaties goed vindbaar op internet, terwijl in 2006 slechts 32% goed vindbaar.
Preek: Jaap de Schipper.
Elektromagnetische inductie
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid? Jean-Pierre Martens Catherine.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 4 mei 2004 Modellering van spontane spraak Jacques Duchateau
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 22 oktober 2003 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau
Statistische Taalmodellen voor Spontane Spraak
WP1 Segmentatie in homogene delen Objectieven voor eerste 6 maanden –Analyse van literatuur Philips, LIMSI, BBN, HTK, IBM, Eurecom –Realisatie van basissysteem.
Het stem-tijd continuum
Visibility-based Probabilistic Roadmaps for Motion Planning Tim Schlechter 13 februari 2003.
Spraaksynthese.
A perceptual interference account of acquisition difficulties for non-native phonemes Paul Iverson, Patricia K. Kuhl, Reiko Akahane- Yamada, Eugen Diesch,
Sturen en bijsturen van handelingen
8C120 Inleiding Meten en Modelleren 8C120 Prof.dr.ir. Bart ter Haar Romeny Faculteit Biomedische Technologie Biomedische Beeld Analyse
Neurale Netwerken Kunstmatige Intelligentie Rijksuniversiteit Groningen April 2005.
BiO-M Wiskundig Modelleren BiO-M Wiskundig Modelleren Lineair Programmerings-modellen Hoorcollege 2.
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Akoestische maten voor de automatische beoordeling van verstaanbaarheid in dysartrische spraak een case study Thordis Neger.
Ruimtegeodesie I Waarnemingssystemen E. Schrama. Inhoud Technieken Instrumentele eigenschappen Fysische begrenzingen Het functie model Parameters schatten.
2.6 Welke stoffen lossen op in water?
PIR sensor.
variabelen vaststellen
Johan Deprez 12de T3-symposium, Oostende, augustus 2009
libel eendagsvlieg metamorfose Grieks: meta morphoo trans formeren gedaante verwisseling.
Zondag 19 mei 2013 Den Haag 1. Op welke dag ontvingen de discipelen de heilige Geest? op de dag van Christus' opstanding op de Pinksterdag andere dag.
Motion planning with complete knowledge using a colored SOM Jules Vleugels, Joost N. Kok, & Mark Overmars Presentatie: Richard Jacobs.
Path planning voor elastische objecten Robin Langerak Planning paths for elastic objects under manipulation constraints LamirauxKavraki.
Overzicht derde college “ruis”
Sparen, Kapitaalaccumulatie, en Productie - De Lange Termijn
Een tijdelijk bestaan. Een tijdelijk bestaan Een tijdelijk bestaan deel 4 Kosmologische tijd Gerard Bodifee Maastricht 2012.
Hoofdstuk 9 Het aansturen van teams
Uitspraak trainen met een computer: is dat mogelijk? Ambra Neri Catia Cucchiarini, Helmer Strik Radboud Universiteit Nijmegen, CLST.
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
Computerarchitectuur
Neurale Netwerken Kunstmatige Intelligentie Rijksuniversiteit Groningen April 2005.
Inhoud presentatie Statistische betrouwbaarheid: belangrijk?
Inhoud Korte inleiding Kwantitatieve- en kwalitatieve krimp Krimp en ruimte Conclusie * Vragen na de presentatie svp.
Wordt de materiële wereld beinvloed als veel mensen hun aandacht op hetzelfde richten? Global Consciousness Experiment Is bewustzijn ‘effectief’? An international.
Martijn van den Heuvel CAI
De beknopte bijzin: Te herkennen aan:
Mindfulness.
Beperken van fysieke belasting bij het hanteren van lasten
Controllers en automatisatie
Verkeersgolven Rini van Dongen 50 jaar,.
Dag van de Fonetiek 18 december 2008 Bea Valkenier & Dicky Gilbers Rijksuniversiteit Groningen PERCEPTIE VAN ONVOLLEDIG SPRAAKSIGNAAL onderzoeksvraag.
Paragraaf 10.4 Leven is regelen.
Datamodellering en –verwerking 8C020 college 6
Computertechniek Hogeschool van Utrecht / Institute for Computer, Communication and Media Technology 1  een MIDI track interpreteren, laten zien en afspelen.
Vervolg C Hogeschool van Utrecht / Institute for Computer, Communication and Media Technology 1 Onderwerpen voor vandaag top-down decompositie Opdrachten:
Instructie Programmeren Task 4 5JJ70. Task 4.1: Iteratief proces Het doel van de opdracht is de uitgangsspanning van een transistor te bepalen met de.
Samenvatting.
Jarna Jelles.  Doel presentatie  Start cijfers  Redenen keuze kunstvoeding  Redenen stoppen borstvoeding  Overeenkomsten, verschillen, verandering.
Taakteam Kennisdeling bij PROF 8 december 2015 Aftrapsessie.
BGT Cartoons GeoBuzz congres 25 & 26 november 2014 Live tekensessie door Willem van Albeslo.
Correctiefactoren bij roeiwedstrijden
Illustratie mogelijke redenen lage ICC’s in multilevel modellen bij de CQI Peter Moorer ARGO Rijksuniversiteit Groningen BV © ARGO – april 2009.
OPENINGSCASE: De flexibele supply-chain van DaimlerChrysler
Transcript van de presentatie:

Dag van de Fonetiek, 17 december 1999, Utrecht ? Verbetering van door het gebruik van in de automatische spraakherkenning Jacques Koreman & Attilio Erriquez Universität des Saarlandes, Saarbrücken

Dag van de Fonetiek, 17 december 1999, Utrecht Overzicht •Identificatie van medeklinkers: coarticulatie als bron van informatie •Impliciet gebruik door HMM’s voor gegeneraliseerde trifonen •Doelmatige signaalverwerking moet informatie beter kunnen aanspreken: aanpassing systeemarchitectuur •Problemen: waarom medeklinkers niet beter herkend worden •Oplossing: nog meer fonetische kennis (?)

Dag van de Fonetiek, 17 december 1999, Utrecht Coarticulatie in ASR Coarticulatie als bron van variatie:  random variatie: deze wordt doorgaans in probabilistische modellen beschreven d.m.v. normaalverdelingen (voorbeeld: kleine verschillen in interarticulatorische timing)  betekenisvolle variatie = informatie: voorbeeld: i.p.v. monofoonmodellen (a) worden (gegeneraliseerde) trifonen (b) gebruikt in de hidden Markov modellering a) “dag” = d0 d a x b) “dag” = d0 d alv_a_vel x (gegeneralis. naar plaats)

Dag van de Fonetiek, 17 december 1999, Utrecht Transities en locus Klinkertransities bevatten informatie over de naburige medeklinker: de formanttransities “wijzen” naar de locus, die van de articulatieplaats van de consonant afhangt. Delattre, P., A. Liberman, F. Cooper (1955). “ Acoustic loci and transitional cues for consonants,” JASA 27(4),

Consonantidentifikatie en transities Het gebruik van klinkertransities (35 ms).... consonant hidden Markov modellering BASELINE Trans VC - C - Trans CV MFCC’s + energie + delta parameters C lexicon taalmodel

Consonantidentifikatie en transities Het gebruik van klinkertransities (35 ms) verbetert de herkenning van medeklinkers.

Dag van de Fonetiek, 17 december 1999, Utrecht Random en betekenisvolle variatie De inputparameters voor hidden Markov modellering in het voorgaande experiment zijn niet optimaal, immers: •Voor de “steady states” van de medeklinkers bestaan de delta parameters slechts uit random variatie. Alleen de MFCC’s en energie zijn belangrijk voor de identificatie van de consonant. •Voor de klinkertransities geldt het omgekeerde, want de deltaparameters weerspiegelen hier de spectrale verandering, terwijl de MFCC’s en de energie minder belangrijk zijn.

Dag van de Fonetiek, 17 december 1999, Utrecht Het selectief gebruik van informatie Om informatie in het signaal selectiever te gebruiken, werden twee Kohonennetten getraind: •statisch Kohonennet Dit Kohonennet moet “steady states” optimaal modelleren en wordt met MFCC’s en energie getraind. •dynamisch Kohonennet Dit Kohonenet moet klinkertransities optimaal modelleren en wordt ook met deltaparameters getraind.

Dag van de Fonetiek, 17 december 1999, Utrecht Systeemarchitectuur MFCC’s + energie + delta parameters consonant hidden Markov modellering lexicon taalmodel dynamisch Kohonennet ww fonetische kenmerken MFCC’s + energie statisch Kohonennet fonetische kenmerken

Dag van de Fonetiek, 17 december 1999, Utrecht Het kenmerk [onset] In de Kohonennetten worden de akoestische parameters op fonetische kenmerken afgebeeld (vgl. voordracht Helmer Strik). Bovendien wordt in het dynamische Kohonennet een kenmerk [onset] getraind, dat voor VC-transities de waarde -1 en voor CV-transities de waarde 1 heeft. Voor de consonanten heeft het kenmerk [onset] de waarde nul. MFCC’s + energie + delta parameters dynamisch Kohonennet fonetische kenmerken MFCC’s + energie statisch Kohonennet fonetische kenmerken

Dag van de Fonetiek, 17 december 1999, Utrecht Gewichting met het kenmerk [onset] Het relatieve gewicht van de output van de twee Kohonen- netten in de hidden Markov modellering (“stream weights” in HTK, maar per frame instelbaar) is afhankelijk van de absolute [onset]-waarde: ww fonetische kenmerken Naarmate de absolute [onset]-waarde hoger is weegt de outputvector van het dynamische Kohonennet zwaarder en de outputvector van het statische Kohonennet minder zwaar.

Dag van de Fonetiek, 17 december 1999, Utrecht Resultaten De relatieve weging van informatie in de “steady states” en in de transities blijkt geen effekt op de consonantidentificatie te hebben. Het simpel concateneren van de outputvectoren van de twee Kohonennetten (“no weighting”) heeft hetzelfde effekt. (Resultaten zonder akoestisch-fonetische mapping: C = 15.83%; POA = 44.78%)

Dag van de Fonetiek, 17 december 1999, Utrecht Why oh why oh why? (Eyore) •Transities worden niet goed getraind: door het gebruik van een vaste transitieduur van 35 ms. wordt soms slechts een deel van de transitie en soms ook en deel van de “steady state” gebruikt voor het trainen van transitiemodellen. Hetzelfde probleem speelt bij de herkenning. •De fonetische kenmerken worden niet goed getraind in het dynamische Kohonennetwerk. Reden: de transities verlopen over meerdere filterbanden, zodat de gedurende transities verschillende MFCC’s veranderen. Het gebrek aan homogene veranderingen in de MFCC’s zorgt ervoor dat geen stabiele fonotopische kaart ontstaat. De fonotopische kaart is dan niet geschikt om de akoestische parameters op fonetische kenmerken af te beelden.

Dag van de Fonetiek, 17 december 1999, Utrecht Het bewijs? Voorbeeld: E. “number”; [onset] goed getraind, [labial] niet.

Dag van de Fonetiek, 17 december 1999, Utrecht ? Conclusie: nog meer fonetische kennis Als het gebrek aan homogeniteit in de inputdata een slechte fonotopische organisatie van het dynamische Kohonennet veroorzaakt, kan deze misschien verbeterd worden door sterker fonetisch georienteerde inputdata, zoals deltawaarden voor de formanten (i.h.b. F2) of lineaire regressiewaarden. Deze zijn in de transities homogener dan delta MFCC’s.

Dag van de Fonetiek, 17 december 1999, Utrecht - EINDE -