De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Spraaksignaalverwerking Louis C.W. Pols Institute of Phonetic Sciences (IFA) Amsterdam Center for Language and Communication (ACLC) Universiteit van Amsterdam.

Verwante presentaties


Presentatie over: "Spraaksignaalverwerking Louis C.W. Pols Institute of Phonetic Sciences (IFA) Amsterdam Center for Language and Communication (ACLC) Universiteit van Amsterdam."— Transcript van de presentatie:

1 Spraaksignaalverwerking Louis C.W. Pols Institute of Phonetic Sciences (IFA) Amsterdam Center for Language and Communication (ACLC) Universiteit van Amsterdam TNO-FEL Signaalverwerkingscolloquium, Den Haag 10 okt. 2002

2 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium2 overzicht spraak is een akoestisch signaal (pitch, duur, luidheid, timbre, richting) met een talige, emotionele, en communicatieve functie geproduceerd door sprekers t.b.v. luisteraars, (daarnaast mens-machine communicatie) spectro-temporele analyse (m.b.v. praat) bron-filtermodel oscillogram, spectrogram, spectrum, pitch contour spraakcodering, -synthese, en -herkenning; sprekerherkenning/verificatie; taalherkenning; multimedia; multiling.; dialoog; informatie extractie

3 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium3 spraak heeft vele facetten betekenisvol geluid, maar vaak slordige uitspraak talige structuur, maar vaak grammaticaal slordig prosodie (zinsmelodie) i.p.v. leestekens; spreektempo man, vrouw, kind pathologische spraak (slissen, schizis, afasie) blij, bedroefd, boos, autoritair, overtuigend ABN, Zeeuw of Tukker, Poldernederlands; allochtoon over telefoon, in galmende ruimte, andere sprekers ondersteunende modaliteiten; gebarentaal

4 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium4 elkaar verstaan is een wonder kleuters leren (iedere!) moedertaal zeer snel toch verschillen M/K spraaksignalen heel erg spraaksignaal vaak erg verstoord door slordige uitspraak (koninklijke -> koleke) door omgevingslawaai en nagalm door andere sprekers kennis taal + verwachting heel belangrijk spraaktechnologie is daarom zo complex

5 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium5 spraak als akoestisch signaal duur, toonhoogte, luidheid, timbre, richting (temporeel) dynamisch, (spectraal) complex stemhebbend (periodiek)/stemloos (ruisig) omhullende van (harmonisch) spectrum energiemaxima in het spectrum = formanten woordklemtoon (luidheid, duur, klankreductie) zinsaccent (pitchbeweging) frasering (verlenging, Fo-beweging, pauze)

6 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium6 spraak als gesproken taal voldoet min of meer aan talige regels fonotactische restricties (Ned. geen ‘mb’) grammaticale restricties (woordvolgorde) taalspecifieke eigenschappen (Ned. /x/) communicatieve gewoontes (hmm…) groepscodes (‘dat is cool’) prosodie (i.p.v. leestekens en tekstopmaak) incl. spreekstijl en emotie

7 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium7 spreker en luisteraar menselijke spraakkanaal pitch range (sopraan ca. 700 Hz, kind tot 1000 Hz) beperkte articulatie spraak meestal alleen bij uitademen menselijk oor spectrale en temporele resolutie (drempel, jnd) gemeenschappelijke kennis taal; omgeving, context; wereld slordig spreken vs. behoefte luisteraar

8 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium8 spectro-temporele analyse bandfilteranalyse (perifere gehoororgaan) FFT, poles, zeroes, formanten LPC MFCC step size (1-20 ms), window size (ca. 25 ms) delta, delta-delta foneem/woordmodellen; concatenative units

9 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium9 bron-filtermodel bron = stembanden (open, trillend, of dicht) filter = keel/mond/neuskanaal bron en filter meestal onafh. verondersteld daarop zijn de meeste spectro-temporele analyses en syntheses gebaseerd meeste spraakherkenners negeren intonatie en interpreteren alle signaalvariatie via veel trainingsdata (veel sprekers, veel stijlen, wel/geen omgevingslawaai, e.d.)

10 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium10 oscillogram

11 woordsegmentatie foneemsegmentatie spectrogram formantcontouren pitch contour

12 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium12 spraaksignaalanalyse op IFA ontwikkeld vrij software pakket ‘praat’‘praat’ downloadable voor 6 verschillende platforms zie uitstekende grafische output; scriptable enkele voorbeelden spectrogram; spectrum pitch contour (re-iterante spraak) golfvormmanipulaties; b.v. 50 ms tijdsconversie of duur en pitch manipulaties via PSOLA MFCC analyse; DTW

13 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium13 spraaktechnologie spraakanalyse spraakcodering, speech enhancement tekst-naar-spraak synthese (TTS) autom. spraakherkenning/verstaan (ASR/SUS) sprekerherkenning/verificatie; taalherkenning dialoogsystemen; informatie extractie keyword spotting spraak-naar-spraak vertalen

14 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium14 spraaksynthese Fluent Dutch tekst-naar-spraak (Ned.) Fluent Dutch tekst in -> spraak uit grafeem/foneemconversie via lexicon/regels woordklemtoon via duurmanipulaties zinsaccent (op ieder inhoudswoord) via toonhoogtebewegingen klankgeneratie via difoonconcatenatie behoefte aan grotere natuurlijkheid

15 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium15 spraaktechnolog. applicaties hands & eyes busy command & control b.v. mobile phone voice and name dialing dialoogsystemen (meestal over telefoon) informatie verstrekken (koersen, openb. vervoer) bestellingen doen (pizza’s e.d.) meertalige informatiekiosk (toerisme, vervoer) phonetic typewriter; dicteermachine rapportage (b.v. radiologen in ziekenhuis)

16 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium16 NWO programma IMIX Interactieve Multimodale Informatie Extractie intelligent agent; mixed initiatives beoogde begroting 4,5 M€ (NWO 2,1 M €) beoogde call for proposals: oct voortbouwend op Prior. progr. TST (’95-’00) Automatische spraakherkenning; Natuurlijke Taalverwerking; Taalgeneratie; Spraak- synthese; Dialoog Management; Multi- modaliteit; Structuur in ongestructureerde informatie; Systeemintegratie

17 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium17 CGN en IFA-corpus Corpus Gespr. Ned. (http://lands.let.kun.nl/cgn/) Ned.-Vlaams project, start juni 1998, 5 jaar, 10Mƒ 10M woorden, ~1000u spraak, diverse stijlen voor 10M: orthografie, lemma’s, POS, word alignm. voor 1M: fonetische en syntactische annotatie voor 250k: prosodische annotatie IFA corpus (http://www.fon.hum.uva.nl/IFAcorpus) 4 m en 4 vr., >30 min. spraak per spreker tevens diverse spreekstijlen per spreker alle materiaal fonetisch gesegmenteerd & gelabeld vrije toegang via SQL vraagtaal

18 Oct. 10, 2002TNO-FEL Signaalverwerkingscolloquium18 foneem/woord/taalmodel ASR


Download ppt "Spraaksignaalverwerking Louis C.W. Pols Institute of Phonetic Sciences (IFA) Amsterdam Center for Language and Communication (ACLC) Universiteit van Amsterdam."

Verwante presentaties


Ads door Google