Spraaksignaalverwerking Louis C.W. Pols Institute of Phonetic Sciences (IFA) Amsterdam Center for Language and Communication (ACLC) Universiteit van Amsterdam TNO-FEL Signaalverwerkingscolloquium, Den Haag 10 okt. 2002
TNO-FEL Signaalverwerkingscolloquium overzicht spraak is een akoestisch signaal (pitch, duur, luidheid, timbre, richting) met een talige, emotionele, en communicatieve functie geproduceerd door sprekers t.b.v. luisteraars, (daarnaast mens-machine communicatie) spectro-temporele analyse (m.b.v. praat) bron-filtermodel oscillogram, spectrogram, spectrum, pitch contour spraakcodering, -synthese, en -herkenning; sprekerherkenning/verificatie; taalherkenning; multimedia; multiling.; dialoog; informatie extractie Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
spraak heeft vele facetten betekenisvol geluid, maar vaak slordige uitspraak talige structuur, maar vaak grammaticaal slordig prosodie (zinsmelodie) i.p.v. leestekens; spreektempo man, vrouw, kind pathologische spraak (slissen, schizis, afasie) blij, bedroefd, boos, autoritair, overtuigend ABN, Zeeuw of Tukker, Poldernederlands; allochtoon over telefoon, in galmende ruimte, andere sprekers ondersteunende modaliteiten; gebarentaal Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
elkaar verstaan is een wonder kleuters leren (iedere!) moedertaal zeer snel toch verschillen M/K spraaksignalen heel erg spraaksignaal vaak erg verstoord door slordige uitspraak (koninklijke -> koleke) door omgevingslawaai en nagalm door andere sprekers kennis taal + verwachting heel belangrijk spraaktechnologie is daarom zo complex Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
spraak als akoestisch signaal duur, toonhoogte, luidheid, timbre, richting (temporeel) dynamisch, (spectraal) complex stemhebbend (periodiek)/stemloos (ruisig) omhullende van (harmonisch) spectrum energiemaxima in het spectrum = formanten woordklemtoon (luidheid, duur, klankreductie) zinsaccent (pitchbeweging) frasering (verlenging, Fo-beweging, pauze) Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
spraak als gesproken taal voldoet min of meer aan talige regels fonotactische restricties (Ned. geen ‘mb’) grammaticale restricties (woordvolgorde) taalspecifieke eigenschappen (Ned. /x/) communicatieve gewoontes (hmm…) groepscodes (‘dat is cool’) prosodie (i.p.v. leestekens en tekstopmaak) incl. spreekstijl en emotie Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
TNO-FEL Signaalverwerkingscolloquium spreker en luisteraar menselijke spraakkanaal pitch range (sopraan ca. 700 Hz, kind tot 1000 Hz) beperkte articulatie spraak meestal alleen bij uitademen menselijk oor spectrale en temporele resolutie (drempel, jnd) gemeenschappelijke kennis taal; omgeving, context; wereld slordig spreken vs. behoefte luisteraar Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
spectro-temporele analyse bandfilteranalyse (perifere gehoororgaan) FFT, poles, zeroes, formanten LPC MFCC step size (1-20 ms), window size (ca. 25 ms) delta, delta-delta foneem/woordmodellen; concatenative units Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
TNO-FEL Signaalverwerkingscolloquium bron-filtermodel bron = stembanden (open, trillend, of dicht) filter = keel/mond/neuskanaal bron en filter meestal onafh. verondersteld daarop zijn de meeste spectro-temporele analyses en syntheses gebaseerd meeste spraakherkenners negeren intonatie en interpreteren alle signaalvariatie via veel trainingsdata (veel sprekers, veel stijlen, wel/geen omgevingslawaai, e.d.) Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
TNO-FEL Signaalverwerkingscolloquium oscillogram Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
oscillogram woordsegmentatie foneemsegmentatie spectrogram formantcontouren pitch contour
spraaksignaalanalyse op IFA ontwikkeld vrij software pakket ‘praat’ downloadable voor 6 verschillende platforms zie http:/www.fon.hum.uva.nl/praat uitstekende grafische output; scriptable enkele voorbeelden spectrogram; spectrum pitch contour (re-iterante spraak) golfvormmanipulaties; b.v. 50 ms tijdsconversie of duur en pitch manipulaties via PSOLA MFCC analyse; DTW Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
TNO-FEL Signaalverwerkingscolloquium spraaktechnologie spraakanalyse spraakcodering, speech enhancement tekst-naar-spraak synthese (TTS) autom. spraakherkenning/verstaan (ASR/SUS) sprekerherkenning/verificatie; taalherkenning dialoogsystemen; informatie extractie keyword spotting spraak-naar-spraak vertalen Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
TNO-FEL Signaalverwerkingscolloquium spraaksynthese Fluent Dutch tekst-naar-spraak (Ned.) tekst in -> spraak uit grafeem/foneemconversie via lexicon/regels woordklemtoon via duurmanipulaties zinsaccent (op ieder inhoudswoord) via toonhoogtebewegingen klankgeneratie via difoonconcatenatie behoefte aan grotere natuurlijkheid Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
spraaktechnolog. applicaties hands & eyes busy command & control b.v. mobile phone voice and name dialing dialoogsystemen (meestal over telefoon) informatie verstrekken (koersen, openb. vervoer) bestellingen doen (pizza’s e.d.) meertalige informatiekiosk (toerisme, vervoer) phonetic typewriter; dicteermachine rapportage (b.v. radiologen in ziekenhuis) Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
TNO-FEL Signaalverwerkingscolloquium NWO programma IMIX Interactieve Multimodale Informatie Extractie intelligent agent; mixed initiatives beoogde begroting 4,5 M€ (NWO 2,1 M €) beoogde call for proposals: oct. 2002 voortbouwend op Prior. progr. TST (’95-’00) Automatische spraakherkenning; Natuurlijke Taalverwerking; Taalgeneratie; Spraak-synthese; Dialoog Management; Multi-modaliteit; Structuur in ongestructureerde informatie; Systeemintegratie Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
TNO-FEL Signaalverwerkingscolloquium CGN en IFA-corpus Corpus Gespr. Ned. (http://lands.let.kun.nl/cgn/) Ned.-Vlaams project, start juni 1998, 5 jaar, 10Mƒ 10M woorden, ~1000u spraak, diverse stijlen voor 10M: orthografie, lemma’s, POS, word alignm. voor 1M: fonetische en syntactische annotatie voor 250k: prosodische annotatie IFA corpus (http://www.fon.hum.uva.nl/IFAcorpus) 4 m en 4 vr., >30 min. spraak per spreker tevens diverse spreekstijlen per spreker alle materiaal fonetisch gesegmenteerd & gelabeld vrije toegang via SQL vraagtaal Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium
foneem/woord/taalmodel ASR Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium