College 7: Stemvorming en Geluid Eerste uur: bouw van de larynx aerodynamische myo-elastische theorie van stemvorming stemvorming en fonologie Tweede uur: parameters geluid bron-filter theorie spraakmachines
Bouw van de Larynx
Anatomie van de larynx
Anatomie van de larynx
Anatomie van de larynx thyroid epiglottis cricoid trachea hyoid
Anatomie van de larynx glottis thyroid cricoid arytenoid
Anatomie van de larynx
Anatomie van de larynx
Anatomie van de larynx 5 3 1 2 4 epiglottis hyoid thyroid thyroid stembanden arytenoiden cricoid cricoid 1 2 trachea cricoid arytenoid glottis thyroid 4
Anatomie van de larynx
Anatomie van de larynx
Anatomie van de larynx
Biologische functie larynx toevoer/afvoer lucht-longen verhinderen dat voorwerpen in de longen komen verwijderen van voorwerpen die per ongeluk in de luchtpijp zijn gekomen
Bij mens nevenfunctie: stemvorming Door het periodiek open en dicht gaan van de glottis: periodieke variatie in de luchtdruk in de mond-keelholte Zichtbaar gemaakt m.b.v. stroboscopisch licht
Stemvorming
Stemvorming
Anatomie van de larynx
Wat drijft de stemvorming? Mogelijkheid 1: De individuele openingen en sluitingen van de glottis worden direct door zenuwprikkels aangestuurd Geprepareerde larynx
Wat drijft de stemvorming? Waarom is de glottale cyclus niet het gevolg van directe aansturing d.m.v. zenuwimpulsen? Hoge frequenties zenuwimpulsen zouden dan bereikt moeten worden Het blijkt mogelijk stemvorming te krijgen in een geprepareerde menselijke larynx
Wat drijft de stemvorming? Mogelijkheid 2: De aerodynamisch-myoelastische theorie
Wat drijft de stemvorming? De glottale cyclus is het gevolg van: drukvariaties aan weerszijden van de glottis spanning van de stembanden het Bernoulli-effect http://www.youtube.com/watch?v=olVJzVadiFs
Stemvorming volgens de Aerodynamisch-Myoelastische theorie (Van den Berg 1958): 1. subglottale druk loopt op en leidt tot opening van de glottis 3. Sluiting van de glottis doordat kracht van laryngale spieren > kracht a.g.v. subglottale druk 2. lucht ontsnapt door de geopende glottis Bernoulli-effect en verlaging van de subglottale druk
Globale kenmerken: stemkwaliteit normale fonatie vs. geen fonatie fluisterfonatie kraak/kraakstemfonatie falsettofonatie
Globale kenmerken: toonhoogte Welke factoren bepalen de gemiddelde grondfrequentie waarmee de stembanden trillen (en daarmee de toonhoogte)? fysiologie sociale conventies (vnl. ondergrens bij vrouwen) spreekstijl (a.g.v. attitude, akoestische omstandigheden)
Globale toonhoogte, geslacht, en leeftijd
Globale toonhoogte en cultuur
Segmentele kenmerken laryngale kenmerken stemloos stemhebbend aspiratie toonhoogte stemkwaliteit
Stemcontrasten in obstruenten stemhebbende obstruenten gesloten, maar niet stijf aangedrukte stembanden relatief slappe stembanden verlaging van de larynx ( implosieven) verslapte wanden van farynx/gehele spraakbuis
Stemcontrasten in obstruenten stemloze obstruenten gespreide of juist stijf aangedrukte stembanden relatief strakke stembanden enigszins verhoogde larynx verstrakte wanden van farynx/gehele spraakbuis
Stemfonologie
Stemfonologie
Toon, intonatie: het talig gebruik van toonhoogte Melodisch (betekenisverschil door verschillen in melodie): accentfunctie markeringsfunctie
Fonologisch gebruik van melodie Fonemisch gebruik van toon in het Shanghai-chinees: a) b)
Melodie als zinsaccent
De transcriptie van toon en intonatie Methode 1: signaal + toonhoogte transcriptie [ ]
De transcriptie van toon en intonatie Methode 2: signaal + toonhoogte transcriptie L+H* L-H% []
Geluid Geluid: trillingen van voorwerpen die door een medium (meestal lucht) worden voortgeplant en m.b.v. het gehoororgaan kunnen worden waargenomen
Geluid Geluid manifesteert zich als verstoringen van de barometrische (lucht)druk Een zuivere (of enkelvoudige) toon is periodiek, d.w.z. na T sec (een vaste tijd) is de verstoring van de barometrische druk exact hetzelfde; na T sec voert het trillende punt precies dezelfde beweging uit (periodieke trilling) zuivere toon komt nauwelijks voor (stemapparaat)
enkelvoudige golven
Oscillogram Een oscillogram is een registratie van de luchtdeeltjestrilling als een functie van de tijd
Parameters Geluid amplitude (A) (dB) luidheid periode (T) (sec) duur Fysische grootheden Psychofysische grootheden meetbaar sensatie amplitude (A) (dB) luidheid max.waarde die de geluidsdruk aanneemt (max.uitwijking) periode (T) (sec) duur de tijd waarin het patroon zich herhaalt frequentie (F) (Hz) toonhoogte aantal trillingen per seconde
trillingstijd & amplitude grondperiode
Decibel (dB) Eenheid van geluidsterkte. De amplitude of het volume of het niveau van een signaal wordt weergegeven in dB. 0 dB geeft de grens van het hoorbare aan. 130 dB is de pijngrens. Een normale spreekstem zit op 65-70 dB.
Hertz (Hz) Meeteenheid voor frequenties, gemeten in trillingen per seconde. 1 Hertz is 1 trilling per seconde vaker gebruikt: eenheid Kilohertz (kHz): veelvouden van 1000 Hz Hoog: > 5 k; Laag: < 100 Hz
Waarneming geluid Gebied waarbinnen mensen geluid kunnen waarnemen is grofweg tussen 20 Hz - 20 kHz Het ‘klankspectrum’ neemt met het ouder worden af: een gemiddelde is ongeveer 40 Hz - 15 kHz
Waarneming geluid In frequentie toenemende sinusgolf 50-500 Hz 500 Hz - 5k 5 - 10k 10 - 15k > 15k
Geluid Infrasoon Geluid ultrasoon F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz
Geluid Infrasoon Geluid ultrasoon F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz puls (< 1/20 sec) stationair geluid voorbeeld puls: plofklanken: [p,t,k,b,d,]
Geluid Infrasoon Geluid ultrasoon F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz puls stationair geluid enkelvoudige toon samengestelde trillingen (bevat 1 frequentie) (gelijktijdig meerdere frequenties) voorbeeld enkelvoudige toon: sinustoon hier: 440 Hz (A)
Geluid Infrasoon Geluid ultrasoon F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz puls stationair geluid enkelvoudige toon samengestelde trillingen samengestelde toon ruis (bevat grondtoon + boventonen) (alle mogelijke frequenties komen voor) F0 + boventonen 2F0;3F0 … onregelmatig trillingspatroon voorbeeld ruis: fricatieven: []
Klankkleur
Grondtoon De laagste frequentie in een samengestelde golfvorm.
Boventonen Trillingen van frequenties die een meervoud zijn van de grondtoon
Spectrum Spectrum geluid: opbouw van de basisfrequenties (bepaalt klankkleur) Iedere samengestelde trilling met een frequentie F is te beschouwen als een som van harmonische trillingen met frequenties F, 2F, 3F, etc. F=grondtoon (1e harmonische) 2F = 1e boventoon (2e harmonische) 3F= 2e boventoon (3e harmonische)
Spectrum opbouw van de basisfrequenties (momentopname); een plaatje waarin de frequentie en de amplitude tegen elkaar worden uitgezet Ampl Freq grondtoon (F0)
golf & golfspectrum
samengestelde golven
Bron - Filter Functie van drie systemen: het bron-filter model
Klankkleur Bron Filter Theorie
[a]
samengestelde golven Niet alle samengestelde golven zijn periodiek
aperiodieke golven
spectrum & spectrogram Een verzameling van opeenvolgende spectra van een signaal waarbij de relatieve intensiteit in grijstinten is weergegeven heet een spectrogram
[a]
Vocaal - Fricatief - Vocaal
Vocaal - Fricatief - Vocaal
Vocaal - Plosief - Vocaal
Spectrogram lezen
Geluid bewerken: Equalisatie
Equalisatie (EQ) De afstelling van een frequentieweergave in een audiosignaal om de gewenste klank te krijgen Een equalizer kan bepaalde frequenties afsnijden of opwaarderen. Dit gebeurt met behulp van filters
Parametrische Equalisatie (EQ)
Gefilterde Spraak Spraak gefilterd beneden 1600 Hz Spraak gefilterd boven 1600 Hz
Dips in frequentiegebieden boer buur bier compleet signaal roos reus race gefilterd signaal bos bes bas (beneden 1k) lap lak lat las laf lag Waarom heeft het weinig zin om tegen een slechthorende te gaan schreeuwen?
Transities
Categorische perceptie [ba] (aanpassing F2-transitie in 14 stappen) [b] (aanpassing F2-transitie in 14 stappen) [ze:] (startpunt ingekort in 10 stappen) [se:] (startpunt ingekort in 10 stappen)
Spraaksynthese
Kunstmatige Spraak kunstmatige spraak = spraaksignalen die niet door mensen worden voortgebracht en niet als zodanig zijn opgenomen
Hoe maak je kunstmatige spraak? methode 1: bouw de menselijke spraakbuis fysiek na
Hoe maak je kunstmatige spraak? methode 1: bouw de menselijke spraakbuis fysiek na methode 2: bouw een (elektrisch) systeem waarin bron(nen) en filter(s) nog fysiek gescheiden zijn maar zonder mechanische articulatoren
Hoe maak je kunstmatige spraak? methode 1: bouw de menselijke spraakbuis fysiek na methode 2: bouw een (elektrisch) systeem waarin bron(nen) en filter(s) nog fysiek gescheiden zijn maar zonder mechanische articulatoren methode 3: ontwerp een algoritme dat de golfvormen van menselijke spraak berekent
Von Kempelen’s Spraakmachine (1778)
De Spraakmachine van Riesz
De Voder (1939)
Articulatorische/fonologische modellen Zijn in feite geformaliseerde en in computerprogramma’s geïmplementeerde fonetische fonologische theorieën Pattern Playback (Cooper 1951) Het dynamisch-articulatorische model van Haskins Laboratories (Yale) PAT Formant Synthesizer (Lawrence 1962)
Spraaksynthese Bron: periodiek geluid ruis Synthese van vier segmenten Ingekort/Envelope filter (ADSR) Concatenatie
Allofoonsynthese Bij allofoonsynthese worden stukjes spraak van akoestisch segmentbegin tot -einde aaneengeschakeld. Een bekend voorbeeld is Dennis Klatt’s DECtalk systeem De verschillende stemmen van DECtalk Female Voice Female Voice (1987)
DECTalk Different Rates: Fast (300 w/m) Slow (120 w/m)
Transities
Difonen Meeste informatie zit in de transities Difonen zijn overgangen tussen twee fonen Voorbeeld waarin overgangen zijn weggelaten Voorbeeld waarin alleen overgangen hoorbaar zijn
Difoonsynthese bij difoonsynthese wordt niet geprobeerd akoestische segmenten af te bakenen maar worden de grenzen juist bij de extremen gelegd difonen 1 voor 1 concatenatie van dezelfde serie: attentie met toonhoogteverschillen Duits met Ned. difonen Frans met Ned. difonen
INFOVOX Verschillende talen in INFOVOX
Toegift: Ruis
Ruis Witte ruis: ruis die het totale frequentiegebied bestrijkt, en 6 dB toeneemt per octaaf In ruis zitten alle frequenties opname + kuch
Visuele Anticipatie
Visuele Anticipatie
Visuele Anticipatie
Auditieve Anticipatie In ruis zitten alle frequenties opname + kuch originele opname