Spraaksignaalverwerking

Slides:



Advertisements
Verwante presentaties
Dag van de Fonetiek, 17 december 1999, Utrecht ? Verbetering van door het gebruik van in de automatische spraakherkenning Jacques Koreman & Attilio Erriquez.
Advertisements

College 7: Stemvorming en Geluid
Ook buiten de klas kennismaken met de taal van je ‘buren’!
Module 7 – Hoofdstuk 5 (1) SQL – een begin.
Verbinden met energie Sporen naar de toekomst met GPX op basis van ICT en energie.
- Slechthorendheid - Spraak- /taalstoornissen - Logopedie op De Voorde
Sensorische Informatie Verwerking
Lotgenotencontact.
Hergebruik van taal- en spraakdata in e-health Remco van Veenendaal projectleider TST-Centrale Ehealth4com Nijmegen 3 oktober 2013.
Droge voeten en schoon water Help, er loopt een dijk door mijn tuin! 08 November 2012 Marco Maréchal (Hoofd communicatie HHSK)
Kennisagenda Transport & Logistiek
Toekomst van de e-Infrastructuur
Taal- en spraaktechnologie voor mensen met een leesbeperking
Regionale variatie: Poldernederlands
Taal en cognitie: Optimaliteitstheorie Henriëtte de Swart.
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid? Jean-Pierre Martens Catherine.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
Computationele Taalkunde (taal- en spraaktechnologie)
Fonetiek de studie van spraak (en zang) Gerrit Bloothooft
Fonetiek de studie van spraak (hoofdstuk 4) Gerrit Bloothooft
Spraakakoestiek Gerrit Bloothooft.
Klinkerverstaanbaarheid
Prosodie.
De zangersformant.
Taal met één hand Taal- en spraaktechnologie: groepsproject
Spraaksynthese.
Waarneming.
Spraaksynthese met MBROLA
Gerrit Bloothooft Spraaktechnologie Gerrit Bloothooft
Taalverwerving en taalmoeilijkheden Goele De Brabandere 1 BaTPCc
Natuurlijke Taalverwerking
Natuurlijke taalverwerking week 4
STRUCTUUR, INVARIANTIE, EN TAAL Johan van Benthem Institute for Logic, Language.
College Project Management 1 maart 2002
Akoestische maten voor de automatische beoordeling van verstaanbaarheid in dysartrische spraak een case study Thordis Neger.
PRATEN MET MENS EN MACHINE
DutchSemCor: van SoNaR naar WSD Attila Görög – Vrije Universiteit Amsterdam
AFASIE na CVA.
Dutch Parallel Corpus Multilinguaal & multifunctioneel
Dutch Parallel Corpus Een multilinguaal & multifunctioneel corpus Accenta 2007 Donderdag 20 september.
De eerste presentatie voor Nederlands
Les 5. Resultaat: In de akoestiek staat deze vergelijking bekend als de hoorn- vergelijking van Webster. In ons geval is σ(x) het plaatsafhankelijke doorsnede.
Introductie/Agenda 1 Cor Verbaas 1.Business Analist. 2.Werkzaam bij AEP sinds juni Verantwoordelijk voor de business applicaties binnen AEP. 4.MFGPro.
Joost van Dijk Web Technology
Dag van de Fonetiek20 December Hoe kan ik u van dienst zijn? Spraakgestuurde routeringsapplicaties Diana Binnenpoorte, Christophe Van Bael, Johan.
Ontwikkeling van klinkerruimte: Uitingen dove & horende baby’s
Uitspraak trainen met een computer: is dat mogelijk? Ambra Neri Catia Cucchiarini, Helmer Strik Radboud Universiteit Nijmegen, CLST.
15/12/2011 Dag van de Fonetiek1 Glimlach met een glimlach Hugo Quené Utrecht inst Linguïstiek OTS, Universiteit Utrecht Dag van de Fonetiek,
Spreekvaardigheidstraining
HSR Human speech recognition / Speech processing.
GGD ROTTERDAM-RIJNMOND
Project Text To Speech Wat houdt het text-to-speech project in
PADS4 maakt het eenvoudig om informatie te verspreiden naar een specifiek publiek op de juiste plaats en het juiste moment PADS4 is een professionele oplossing.
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Hans BennisMeertens Instituut (KNAW)
AI Kaleidoscoop Werkcollege 1: AI Overzicht Radu Serban
© Justin Ringeling & Daniël van der Wansem
(Voor)lezen is leuk!.
Fenna van Kesteren Communication and Multimedia Design Afstudeerprofiel Informatie en Interactie Voorstellen.
Taal- en Spraaktechnologie (TST) voor het Nederlands: Status 2015 Jan Odijk (UU) Taalcongres Brussel, 10 oktober
Anton van den Noort1 FOTOSHOWS MAKEN HCC DEVENTER.
Workshop: StemPresentatie Presenteren vanuit stem, adem, klank, houding, expressie. Vergroot de impact van jouw pitch!
Media en Kennistechnologie 19 april 2002NIOC vision on e-mission Media en Kennistechnologie een nieuw ICT-curriculum Erik Jansen Faculteit.
PO Periodieke functies
Project Interculturele Palliatieve Zorg
Opdracht Taakanalyse en stroomschema kopieermachine.
Syntactische Annotatie CHILDES
Spraakherkenning.
Hoe herkennen mensen klanken?
Engels Compenseren strategieën Compenserende strategieën
Transcript van de presentatie:

Spraaksignaalverwerking Louis C.W. Pols Institute of Phonetic Sciences (IFA) Amsterdam Center for Language and Communication (ACLC) Universiteit van Amsterdam TNO-FEL Signaalverwerkingscolloquium, Den Haag 10 okt. 2002

TNO-FEL Signaalverwerkingscolloquium overzicht spraak is een akoestisch signaal (pitch, duur, luidheid, timbre, richting) met een talige, emotionele, en communicatieve functie geproduceerd door sprekers t.b.v. luisteraars, (daarnaast mens-machine communicatie) spectro-temporele analyse (m.b.v. praat) bron-filtermodel oscillogram, spectrogram, spectrum, pitch contour spraakcodering, -synthese, en -herkenning; sprekerherkenning/verificatie; taalherkenning; multimedia; multiling.; dialoog; informatie extractie Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

spraak heeft vele facetten betekenisvol geluid, maar vaak slordige uitspraak talige structuur, maar vaak grammaticaal slordig prosodie (zinsmelodie) i.p.v. leestekens; spreektempo man, vrouw, kind pathologische spraak (slissen, schizis, afasie) blij, bedroefd, boos, autoritair, overtuigend ABN, Zeeuw of Tukker, Poldernederlands; allochtoon over telefoon, in galmende ruimte, andere sprekers ondersteunende modaliteiten; gebarentaal Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

elkaar verstaan is een wonder kleuters leren (iedere!) moedertaal zeer snel toch verschillen M/K spraaksignalen heel erg spraaksignaal vaak erg verstoord door slordige uitspraak (koninklijke -> koleke) door omgevingslawaai en nagalm door andere sprekers kennis taal + verwachting heel belangrijk spraaktechnologie is daarom zo complex Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

spraak als akoestisch signaal duur, toonhoogte, luidheid, timbre, richting (temporeel) dynamisch, (spectraal) complex stemhebbend (periodiek)/stemloos (ruisig) omhullende van (harmonisch) spectrum energiemaxima in het spectrum = formanten woordklemtoon (luidheid, duur, klankreductie) zinsaccent (pitchbeweging) frasering (verlenging, Fo-beweging, pauze) Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

spraak als gesproken taal voldoet min of meer aan talige regels fonotactische restricties (Ned. geen ‘mb’) grammaticale restricties (woordvolgorde) taalspecifieke eigenschappen (Ned. /x/) communicatieve gewoontes (hmm…) groepscodes (‘dat is cool’) prosodie (i.p.v. leestekens en tekstopmaak) incl. spreekstijl en emotie Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

TNO-FEL Signaalverwerkingscolloquium spreker en luisteraar menselijke spraakkanaal pitch range (sopraan ca. 700 Hz, kind tot 1000 Hz) beperkte articulatie spraak meestal alleen bij uitademen menselijk oor spectrale en temporele resolutie (drempel, jnd) gemeenschappelijke kennis taal; omgeving, context; wereld slordig spreken vs. behoefte luisteraar Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

spectro-temporele analyse bandfilteranalyse (perifere gehoororgaan) FFT, poles, zeroes, formanten LPC MFCC step size (1-20 ms), window size (ca. 25 ms) delta, delta-delta foneem/woordmodellen; concatenative units Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

TNO-FEL Signaalverwerkingscolloquium bron-filtermodel bron = stembanden (open, trillend, of dicht) filter = keel/mond/neuskanaal bron en filter meestal onafh. verondersteld daarop zijn de meeste spectro-temporele analyses en syntheses gebaseerd meeste spraakherkenners negeren intonatie en interpreteren alle signaalvariatie via veel trainingsdata (veel sprekers, veel stijlen, wel/geen omgevingslawaai, e.d.) Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

TNO-FEL Signaalverwerkingscolloquium oscillogram Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

oscillogram woordsegmentatie foneemsegmentatie spectrogram formantcontouren pitch contour

spraaksignaalanalyse op IFA ontwikkeld vrij software pakket ‘praat’ downloadable voor 6 verschillende platforms zie http:/www.fon.hum.uva.nl/praat uitstekende grafische output; scriptable enkele voorbeelden spectrogram; spectrum pitch contour (re-iterante spraak) golfvormmanipulaties; b.v. 50 ms tijdsconversie of duur en pitch manipulaties via PSOLA MFCC analyse; DTW Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

TNO-FEL Signaalverwerkingscolloquium spraaktechnologie spraakanalyse spraakcodering, speech enhancement tekst-naar-spraak synthese (TTS) autom. spraakherkenning/verstaan (ASR/SUS) sprekerherkenning/verificatie; taalherkenning dialoogsystemen; informatie extractie keyword spotting spraak-naar-spraak vertalen Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

TNO-FEL Signaalverwerkingscolloquium spraaksynthese Fluent Dutch tekst-naar-spraak (Ned.) tekst in -> spraak uit grafeem/foneemconversie via lexicon/regels woordklemtoon via duurmanipulaties zinsaccent (op ieder inhoudswoord) via toonhoogtebewegingen klankgeneratie via difoonconcatenatie behoefte aan grotere natuurlijkheid Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

spraaktechnolog. applicaties hands & eyes busy command & control b.v. mobile phone voice and name dialing dialoogsystemen (meestal over telefoon) informatie verstrekken (koersen, openb. vervoer) bestellingen doen (pizza’s e.d.) meertalige informatiekiosk (toerisme, vervoer) phonetic typewriter; dicteermachine rapportage (b.v. radiologen in ziekenhuis) Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

TNO-FEL Signaalverwerkingscolloquium NWO programma IMIX Interactieve Multimodale Informatie Extractie intelligent agent; mixed initiatives beoogde begroting 4,5 M€ (NWO 2,1 M €) beoogde call for proposals: oct. 2002 voortbouwend op Prior. progr. TST (’95-’00) Automatische spraakherkenning; Natuurlijke Taalverwerking; Taalgeneratie; Spraak-synthese; Dialoog Management; Multi-modaliteit; Structuur in ongestructureerde informatie; Systeemintegratie Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

TNO-FEL Signaalverwerkingscolloquium CGN en IFA-corpus Corpus Gespr. Ned. (http://lands.let.kun.nl/cgn/) Ned.-Vlaams project, start juni 1998, 5 jaar, 10Mƒ 10M woorden, ~1000u spraak, diverse stijlen voor 10M: orthografie, lemma’s, POS, word alignm. voor 1M: fonetische en syntactische annotatie voor 250k: prosodische annotatie IFA corpus (http://www.fon.hum.uva.nl/IFAcorpus) 4 m en 4 vr., >30 min. spraak per spreker tevens diverse spreekstijlen per spreker alle materiaal fonetisch gesegmenteerd & gelabeld vrije toegang via SQL vraagtaal Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

foneem/woord/taalmodel ASR Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium