De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Spraaksignaalverwerking

Verwante presentaties


Presentatie over: "Spraaksignaalverwerking"— Transcript van de presentatie:

1 Spraaksignaalverwerking
Louis C.W. Pols Institute of Phonetic Sciences (IFA) Amsterdam Center for Language and Communication (ACLC) Universiteit van Amsterdam TNO-FEL Signaalverwerkingscolloquium, Den Haag 10 okt. 2002

2 TNO-FEL Signaalverwerkingscolloquium
overzicht spraak is een akoestisch signaal (pitch, duur, luidheid, timbre, richting) met een talige, emotionele, en communicatieve functie geproduceerd door sprekers t.b.v. luisteraars, (daarnaast mens-machine communicatie) spectro-temporele analyse (m.b.v. praat) bron-filtermodel oscillogram, spectrogram, spectrum, pitch contour spraakcodering, -synthese, en -herkenning; sprekerherkenning/verificatie; taalherkenning; multimedia; multiling.; dialoog; informatie extractie Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

3 spraak heeft vele facetten
betekenisvol geluid, maar vaak slordige uitspraak talige structuur, maar vaak grammaticaal slordig prosodie (zinsmelodie) i.p.v. leestekens; spreektempo man, vrouw, kind pathologische spraak (slissen, schizis, afasie) blij, bedroefd, boos, autoritair, overtuigend ABN, Zeeuw of Tukker, Poldernederlands; allochtoon over telefoon, in galmende ruimte, andere sprekers ondersteunende modaliteiten; gebarentaal Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

4 elkaar verstaan is een wonder
kleuters leren (iedere!) moedertaal zeer snel toch verschillen M/K spraaksignalen heel erg spraaksignaal vaak erg verstoord door slordige uitspraak (koninklijke -> koleke) door omgevingslawaai en nagalm door andere sprekers kennis taal + verwachting heel belangrijk spraaktechnologie is daarom zo complex Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

5 spraak als akoestisch signaal
duur, toonhoogte, luidheid, timbre, richting (temporeel) dynamisch, (spectraal) complex stemhebbend (periodiek)/stemloos (ruisig) omhullende van (harmonisch) spectrum energiemaxima in het spectrum = formanten woordklemtoon (luidheid, duur, klankreductie) zinsaccent (pitchbeweging) frasering (verlenging, Fo-beweging, pauze) Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

6 spraak als gesproken taal
voldoet min of meer aan talige regels fonotactische restricties (Ned. geen ‘mb’) grammaticale restricties (woordvolgorde) taalspecifieke eigenschappen (Ned. /x/) communicatieve gewoontes (hmm…) groepscodes (‘dat is cool’) prosodie (i.p.v. leestekens en tekstopmaak) incl. spreekstijl en emotie Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

7 TNO-FEL Signaalverwerkingscolloquium
spreker en luisteraar menselijke spraakkanaal pitch range (sopraan ca. 700 Hz, kind tot 1000 Hz) beperkte articulatie spraak meestal alleen bij uitademen menselijk oor spectrale en temporele resolutie (drempel, jnd) gemeenschappelijke kennis taal; omgeving, context; wereld slordig spreken vs. behoefte luisteraar Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

8 spectro-temporele analyse
bandfilteranalyse (perifere gehoororgaan) FFT, poles, zeroes, formanten LPC MFCC step size (1-20 ms), window size (ca. 25 ms) delta, delta-delta foneem/woordmodellen; concatenative units Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

9 TNO-FEL Signaalverwerkingscolloquium
bron-filtermodel bron = stembanden (open, trillend, of dicht) filter = keel/mond/neuskanaal bron en filter meestal onafh. verondersteld daarop zijn de meeste spectro-temporele analyses en syntheses gebaseerd meeste spraakherkenners negeren intonatie en interpreteren alle signaalvariatie via veel trainingsdata (veel sprekers, veel stijlen, wel/geen omgevingslawaai, e.d.) Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

10 TNO-FEL Signaalverwerkingscolloquium
oscillogram Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

11 oscillogram woordsegmentatie foneemsegmentatie spectrogram formantcontouren pitch contour

12 spraaksignaalanalyse
op IFA ontwikkeld vrij software pakket ‘praat’ downloadable voor 6 verschillende platforms zie uitstekende grafische output; scriptable enkele voorbeelden spectrogram; spectrum pitch contour (re-iterante spraak) golfvormmanipulaties; b.v. 50 ms tijdsconversie of duur en pitch manipulaties via PSOLA MFCC analyse; DTW Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

13 TNO-FEL Signaalverwerkingscolloquium
spraaktechnologie spraakanalyse spraakcodering, speech enhancement tekst-naar-spraak synthese (TTS) autom. spraakherkenning/verstaan (ASR/SUS) sprekerherkenning/verificatie; taalherkenning dialoogsystemen; informatie extractie keyword spotting spraak-naar-spraak vertalen Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

14 TNO-FEL Signaalverwerkingscolloquium
spraaksynthese Fluent Dutch tekst-naar-spraak (Ned.) tekst in -> spraak uit grafeem/foneemconversie via lexicon/regels woordklemtoon via duurmanipulaties zinsaccent (op ieder inhoudswoord) via toonhoogtebewegingen klankgeneratie via difoonconcatenatie behoefte aan grotere natuurlijkheid Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

15 spraaktechnolog. applicaties
hands & eyes busy command & control b.v. mobile phone voice and name dialing dialoogsystemen (meestal over telefoon) informatie verstrekken (koersen, openb. vervoer) bestellingen doen (pizza’s e.d.) meertalige informatiekiosk (toerisme, vervoer) phonetic typewriter; dicteermachine rapportage (b.v. radiologen in ziekenhuis) Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

16 TNO-FEL Signaalverwerkingscolloquium
NWO programma IMIX Interactieve Multimodale Informatie Extractie intelligent agent; mixed initiatives beoogde begroting 4,5 M€ (NWO 2,1 M €) beoogde call for proposals: oct. 2002 voortbouwend op Prior. progr. TST (’95-’00) Automatische spraakherkenning; Natuurlijke Taalverwerking; Taalgeneratie; Spraak-synthese; Dialoog Management; Multi-modaliteit; Structuur in ongestructureerde informatie; Systeemintegratie Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

17 TNO-FEL Signaalverwerkingscolloquium
CGN en IFA-corpus Corpus Gespr. Ned. ( Ned.-Vlaams project, start juni 1998, 5 jaar, 10Mƒ 10M woorden, ~1000u spraak, diverse stijlen voor 10M: orthografie, lemma’s, POS, word alignm. voor 1M: fonetische en syntactische annotatie voor 250k: prosodische annotatie IFA corpus ( 4 m en 4 vr., >30 min. spraak per spreker tevens diverse spreekstijlen per spreker alle materiaal fonetisch gesegmenteerd & gelabeld vrije toegang via SQL vraagtaal Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium

18 foneem/woord/taalmodel ASR
Oct. 10, 2002 TNO-FEL Signaalverwerkingscolloquium


Download ppt "Spraaksignaalverwerking"

Verwante presentaties


Ads door Google