IV: Auditory Scene Analysis

Slides:



Advertisements
Verwante presentaties
Dag van de Fonetiek, 17 december 1999, Utrecht ? Verbetering van door het gebruik van in de automatische spraakherkenning Jacques Koreman & Attilio Erriquez.
Advertisements

Laurens van der Maaten IKAT / ROB
Gezamenlijk vorm geven aan goede veiligheid in de praktijk
Visual Knowledge Building
Ed van den Berg VU en HvA 21 november 2013
Onderzoek naar de effecten van het Thuisadministratie programma
The External Control of Organisations A Resource Dependence Perspective (Pfeffer & Salancik) Verthé Tom 2de Ba Politieke Wetenschappen - VUB Sociologie.
Lecture 5 (Prof. A. Kok, ) Topics:
INFORMATIEVERWERKING
Background Subtraction for Urban Traffic Monitoring using Webcams Master Thesis Verdediging Begeleider: Rein van den Boomgaard door: Mark Smids 19 maart.
Auditieve verwerking van spraaksignalen psychofysisch en fysiologisch onderzoek: hoe reconstrueren we de boodschap van de spreker uit het spraaksignaal?
Mathematics Education and Neurosciences
Spraaksynthese.
Waarneming.
A perceptual interference account of acquisition difficulties for non-native phonemes Paul Iverson, Patricia K. Kuhl, Reiko Akahane- Yamada, Eugen Diesch,
Psychologie van de beweging: afspraken
Wat is motorisch leren? (1)
8C120 Inleiding Meten en Modelleren 8C120 Prof.dr.ir. Bart ter Haar Romeny Faculteit Biomedische Technologie Biomedische Beeld Analyse
Peter Schwartz The art of the long view stappenplan
Deze week: Syllabus deel 2: Hoofdstuk 1 bestuderen
College 22 Interaction College MCI-2 Jacobijn Sandberg 18 januari 2001.
1. Inleiding systeemtheorie 2. Complexe adaptieve systemen
Usage of spatial audio for coordination of simultaneous interaction and feedback Sven Volders Promotor: Prof. dr. Karin Coninx Co-promotor: Prof. dr. Kris.
Voorspellende analyse
Inleiding Kennistechnologie §Hoofdstuk 7: Kennisrepresentaties 1: Eigenschappen en representatievormen §Hoofdstuk 8: Kennisrepresentaties 2: Eenvoud en.
Motion planning with complete knowledge using a colored SOM Jules Vleugels, Joost N. Kok, & Mark Overmars Presentatie: Richard Jacobs.
Spatial subgroup mining
Overzicht derde college “ruis”
De FFT spectrumanalyzer
Jezelf bewegen…… De ander bewegen……
It’s not you, it’s the didactics that matter, stupid…
Les 5. Resultaat: In de akoestiek staat deze vergelijking bekend als de hoorn- vergelijking van Webster. In ons geval is σ(x) het plaatsafhankelijke doorsnede.
H9: Zelfbeïnvloeding Wat we zelf doen, doen we beter?
Inhoud (2) Netwerkanalyse Signalen als dragers van informatie
Blok 7: netwerken Les 1 Christian Bokhove
HSR Human speech recognition / Speech processing.
Inleiding telecommunicatie = info overbrengen transmissiemedium
Kees van Overveld B i g I m a g e s – Visuele Communicatie -1- De textuurlaag: textuur als elementair percept textuur, schaal en oriëntatie textuur – een.
R E 1 Status URD. r 2 Waarom URD? Hulpmiddel bij afwegen keuzes Leidraad voor industrie Signaal richting AO beleidsmakers.
Martijn van den Heuvel CAI
4 Wetmatigheden van training: functionele kracht en coördinatie
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
recipients’ impressions of senders’ likability
Afwijkende visuele waarneming bij mensen met Autisme Spectrum Stoornis
Perceptie en Actie in Beweging
Sociale kaders: Hoofdstuk 14 Sociale structuur
Docentencongres 2014 Programma: 10:00 – 12:30 Mindset
Controllers en automatisatie
Inhoud Analyse van sequentiële netwerken Sequentiële bouwblokken
Algemene Sociologie PA – B1
Kind in ontwikkeling A Gedrag vs. Gedachten Dagindeling:
Kind in ontwikkeling B Gedrag vs. Gedachten Dagindeling:
Week 3: Systeemtheorie versus biologische psychologie
Kind in ontwikkeling B Gedrag vs. Gedachten Dagindeling:
Leraareffectiviteit – wat weten we (niet)? Daniel Muijs, University of Southampton.
Regelgeving over continuïteit! NBA Standaard 570: over “Verantwoordelijkheden van de accountantStandaard Het is de verantwoordelijkheid van de accountant.
“ A thrilling story “ Dr. Narender van Orshoven, Neuroloog
Data Mining without Discrimination Valorisatiepanel 4 december – Faculty Club – Universiteit Leiden.
Problemen in de interactie en communicatie bij kinderen met een aan autisme verwante stoornis. M. Serra & R.B. Minderaa.
De ultieme flexicurity tool? Deeltijd-WW Dimitris Pavlopoulos (VU) Katja Chkalova (CBS en UvA)
Procesverbetering in de Zorg
Sociale kaders: Hoofdstuk 14 Sociale structuur
Les 5 IBS 2 Waarneming en verwerking van informatie.
IPEM TOOLBOX.
Leraareffectiviteit – wat weten we (niet)?
Reintegratie binnen SOS Kinderdorpen Internationaal
Vergadering Personeelsdienst
Basics over communicatie
college vergelijkende anatomie & fysiologie
Risicocommunicatie en de omgevingswet
Transcript van de presentatie:

IV: Auditory Scene Analysis Hoorcollege: Introductie ASA Bregman (1990): Primitief + schemagebaseerd Illustratieve experimenten met eenvoudige stimuli Relevantie onderscheid primitief – schemagebaseerd voor spraak + voorbeelden Studentencollege: Mattingly and Liberman (1988) Specialized perceiving systems for speech and other biologically significant sounds Specifieke spraakmodule i.t.t. algemene verwerking van acoustiche info? Bregman (1998) Human data and computational ASA Algemene eisen aan systeemarchitectuur voor uitvoering ASA o.b.v. kennis over menselijke ASA Cooke and Okuno (1998) Using knowledge to organize sound: The prediction-driven approach to computational auditory scene analysis, and its applications to speech/nonspeech mixtures Voorstel mogelijke systeemarchitectuur

Auditory Scene Analysis (ASA) Probleem ASA: Hoe kunnen we, vanuit de mix van door verschillende bronnen geproduceerde signalen, de juiste combinatie van informatie vinden, zodat er zinvolle mentale representaties behorend bij één bron gereconstrueerd kunnen worden? Analogie visueel

Auditory Scene Analysis - 2 Twee componenten proces (Bregman, 1990): 1. Primitieve processen voor auditory grouping: partitie van de data 2. Schemagebaseerde processen waarbij de benodigde evidentie, indien aanwezig, wordt geselecteerd. Eigenschappen: Primitieve groepering Schemagebaseerde groepering -Algemeen -Simpele, locale analyses -Automatisch, niet beïnvloed door aandacht -Aangeboren -Data-driven (bottom-up) -Preliminary linking van signaalcomponenten -Domeinspecifiek -Globale analyses -Onder invloed van aandachts-processen -Aangeleerd -Hypothesis-driven (top-down) -Description-building o.b.v. grouping hypotheses

Primitieve ASA - 1 Relatie Gestalt psychologie: Continuïteit: - Nabijheid (proximity) in tijd (t) of frequentie (f) - Overeenkomst (similarity) o.b.v. pitch (F0), brightness, timbre (formantpatroon), spatiële lokatie Common fate: Synchronisatie van veranderingen - gecorreleerde amplitude- en/of frequentie- modulatie (AM, FM); micro-/macromodulatie - gelijke onsets en/of offset; Belongingness/Exclusive allocation: sensorische evidentie die is toegewezen aan een auditory stream, kan niet tegelijkertijd een bijdrage leveren aan een andere stream; Minder sterke variant: principe van noncontradictie. Simplicity: waargenomen structuur zo simpel mogelijk (Familiarity/Meaningfulness) Scene Analysis interpretatie (ecologisch perspectief): Gerelateerd aan eigenschappen van de in de auditory scene aanwezige bronnen en hun fysische beperkingen Sequentiële en simultane integratie in tijds- en frequentiedomein

Primitieve ASA - 2 Gebruikte stimuli Short repeating loop: Verschillende frequentiegebieden Cumulation of evidence  forceren van groeperen van kwalitatief gelijke tonen: H—H—H—… —L—L—L-… Beïnvloedende factoren, o.a. - Snelheid: t (ISI, SOA) - Frequentie-afstand: f  Trade-off (Analogie visueel: bewegende stippen, studentencollege I) Streaming effect: gevolg van automatische, primitieve stream segregation processen? Fysiologische vs. functionele verklaringen: - Habituatie pitch motion/jump-detectors - Symmetrie/voorspelbaarheid van stimuli Tune + distractors: Frequentierelatie distractor – relevante tonen Camouflage  gevolg van primitieve ASA Indien melodie bekend, f veel kleiner

Aandachtseffecten - 1 Trade-off snelheid-frequentiescheiding alleen voor TCB. Bij hogere snelheden (kortere tone repetition times) kleiner ambigu gebied, eerder segregratie. FB ondergrens: 3 à 4 semitonen. Fysiologische beperking? Critical band -> maskering? Taak 1: Alle tonen als één stream proberen te horen (coherentie) - Temporal coherence boundary (TCB: o)  Gevolg van automatische en primitieve organisatieprocessen Taak 2: Selectie van één stream: focussen aandacht (segregratie) - Fission boundary (FB: x)  Limiet aandacht Ambiguïteit neemt sterk toe bij afnemende t en toenemende f

Aandachtseffecten - 2 Aanvankelijk: 1 stream (galloping rhythm); na verloop van tijd: 2 streams — H ——— H ——— H ——… L — L — L — L — L — L —… (ritme 2x zo snel) - mate van segregatie weer afhankelijk van f en t (TRT) Carlyon et al. (2000): 21 sec., waarvan 1e 10 seconden auditieve aandachtstaak: meer “1 stream” beoordelingen Selectieve aandacht bepalend voor segregatie

Auditory stream segregation Groepering afhankelijk van context: f A-B: continuïteit Harmonische relatie complex B-C: harmoniciteitsprincipe Onset en/of offset (a)synchronie B-C: common fate Aanwezigheid toon D: retro-actief effect Collaboratie en competitie van cues (?) Capturing van B door A i.p.v. complex B-C (old-plus-new heuristiek); versterkt door evt. capturing van C door D Relatie principe van exclusive allocation; echter, op niveau van beschrijvingen, niet voor de cues! Illusies a.g.v. tegenstrijdige/ambigue evidentie  Simultane en sequentiële integratie niet onafhankelijk Cues reflecteren forces of attraction die leiden tot mogelijke links tussen signaalcomponenten (organisatiehypotheses) N.B. Geen stricte partitie i.v.m. transparantie van geluid! Eventuele aanwezigheid toon D na C (met dezelfde frequentie als C) kan groepering van BC verzwakken en daarmee B eerder vrijgeven voor groepering met A.

Masking Release Comodulation Masking Release (CMR): a.g.v. in amplitude comodulerende ruisbanden (niet voor FM) Spatial release from masking: bv. binaurale presentatie van ruis + monaurale presentatie van target Maskering gevolg van fysiologische beperking? Critical bandwidth (CBW) Relatie kritieke band - frequentieresolutie op BM ASA: Gevolg van aanwezigheid cues m.b.t. broninformatie Default: integratie Kruiscorrelatie informatie tussen verschillende frequentiebanden Binnen frequentieband: tijdelijk verhoogde locale SNR a.g.v. AM

Continuïteitsillusie Laag-frequente ruisband continueert in B laat hoog-frequent residu achter: partitie van sensorische data  old-plus-new Toon A continueert door B Vereiste: ruisband B luid genoeg om A te kunnen maskeren Analogie in spraak: Foneemrestoratie / Picket-fence effect

Old-plus-new Effecten van de grens tussen geluiden Maskering van discontinuiteit: geen evidentie voor stilte (b), mogelijke maskering van offset A1/onset A2 (c) Voldoende neurale evidentie: neurale activatie (niet het fysische signaal!) tijdens B niet te onderscheiden van indien alleen A aanwezig (ambigu) Evidentie voor broncontinuiteit gereflecteerd in A1-A1 groupering: regels voor sequentiele integratie moeten toepasbaar zijn Geen graduele overgang van A1 naar B naar A2 (e)  Alle sensorische evidentie moet niet inconsistent zijn met de mogelijke aanwezigheid van A tijdens de aanwezig-heid van B: principe van noncontradictie

Interpolatie versus extrapolatie Glides continueren achter de ruis A.g.v. trajectory-following proces? Afhankelijk van informatie ná ruis: grotere, temporele scope, geen locale beslissingen Simpelste verklaring van evidentie Ruis over cross-over point: waargenomen pitch lager dan te verwachten o.b.v. extrapolatie; komt overeen met hoogste pitch van voor de ruis

Frequency proximity en harmoniciteitsprincipe (1) leidt tot twee streams: percept (2) en percept (3) (4) leidt tot dezelfde streams als in afwezigheid van ruis, gecombineerd met stream (5) (A) Bouncing percept o.b.v. frequency proximity (B) Bouncing percept o.b.v. frequency proximity (C) Crossing percept o.b.v. harmoniciteit (D) Bouncing percept o.b.v. frequency proximity en harmoniciteit Onafhankelijk van inhoud interval x: stilte, ruis, glides

Frequency proximity Interpretatie bouncing percept i.p.v. crossing percept en afwezigheid trajectory-following proces tevens bij: (1) Discrete, constante tonen (steady tones) (2) Korte glides, met constante lengte, in richting van trajectory, met overlap in tijd (constante lengte van de glides wordt opgebroken op cross-over point) (3) Streams waarbij het ritme het traject bevoordeeld (4) Streams waarbij het ritme segregatie binnen beperkt frequentiebereik bevoordeeld

Conclusie “primitieve” ASA - 1 “Continuïteitsillusie”  “Compensatie” voor maskering Bovendien: Evidentie ís aanwezig; niet echt een illusie Voordeel van vergaren van evidentie over langer tijdsbestek: Evidentie is alleen locaal ambigu, niet in globale context Toepassingen (ASR): Low-quality vs. high-quality data Selective listening strategie: zwaarder wegen high-quality data Missing-feature theory: negeren low-quality data Locale SNR in tijd én frequentie (niet over hele signaal en over gehele spectrum)

Conclusie “primitieve” ASA -2 Onset B = offset A erg onwaarschijnlijk (old-plus-new) Relatie psychofysica: Target detectie afhankelijk van duur en intensiteit: temporeel integratie window (afname temporele resolutie naarmate verder richting AC, college II) Vb. Psychophysical overshoot: sterke toename AC respons op target naarmate background stimulus langer aanwezig is Short-term adaptation: adaptatie aan constante input; bevat geen informatie Belang van detectie van veranderingen: dynamische aspecten benadrukken: events (bv. onset enhancement, RASTA filtering)

Schemagebaseerde ASA Schema = Cognitieve structuur (concreet/abstract): “some control system in the human brain that is sensitive to some frequently occurring pattern, either in the environment, in ourselves, or in how the two interact” Domeinspecifiek Globaal: grotere temporele scope Leereffect Onder invloed van aandacht Hypothesis-driven (“top-down”) Assimilatie: Geschikt toepassen op een situatie; input-specifiek Elk schema heeft eigen methoden voor het evalueren van (transformaties van) sensorische evidentie om te bepalen of het patroon waar het voor staat aanwezig is. Constructief, matching: “Zoeken” naar bevestigende stimulatie in auditieve input Dynamisch systeem: Bij geluiden tijdsdimensie van belang Temporele patronen, priming Kenmerken aandacht: 1. Selectie van beschikbare evidentie voor gedetailleerdere verwerking (effort) 2. Meer resources nodig 3. Beperkte resource capaciteit 4. Meer ervaring, minder aandacht

Sequentiële integratie van spraak Sterk geleerde vaardigheid Opeenvolging van klanken: verschillende fonemen kwalitatief verschillend, toch coherent Cocktail-party effect: gebruik maken van broneigenschappen als pitch, lokatie, timbre  eigenschappen gelden binnen stream: resultaat van segregatie? (vgl. ritme, volgorde) Continuïteit in: F0/pitch contour bij stemhebbende spraak o.b.v. (quasi-) periodiciteit (bv. klinkers) grotere scope: intonatiepatroon (taalspecifiek, melodie inherent aan grammaticapatroon en betekenis) Spatiële continuïteit: Bron blijft vaak op zelfde plaats en/of verandert relatief langzaam van plaats

Sequentiële integratie spraak - 2 Spectraal: formanten gevolg van filtering door stemkanaal (verandert niet van ene op andere moment) meeste overgangen tussen spraakklanken “zichtbaar” integratie ruisige consonanten o.b.v. synchronisatie van verandering dichtbij temporele boundary tussen twee geluiden (vb. click language) afwezigheid F0 continuiteit kan gecompenseerd worden door formantcontinuiteiten: leveren onafhankelijke bijdragen aan sequentiële integratie (college I, bron-filter model) Hoe formanten te bepalen? Piekfrequentie? Geen directe eigenschap van de formant zelf, maar abstracter: piek in spectraal omhullende. Auditieve systeem: representatie van formanten en FM sweeps (college II)

Formanttransities Met transities: coherent  Primitief trajectory following process? Retro-actieve effecten: backward extrapolation Continuïteitsbehoud: voorkomen plotselinge discontinuïteiten Niet gevolg van groepering binnen syllabe, maar o.b.v. gelijkheid groeperen over syllabes. Interpretatie van het signaal als een speech event: o.b.v. articulatorische continuïteit

Simultane integratie van spraak Harmonische relaties en F0 Patroonherkenningsmodellen: “harmonic sieve”, spectrale templates Temporele pitchmodellen: harmonische structuur is emergente eigenschap van synchroon vuren met F0-periode; => groepering o.b.v. pitch(continuïteit) is dus ook emergent => belangrijke rol i.v.m. ruisrobuuste informatieverwerking Split-formant Gesynthetiseerde spraak: zelfde vs. verschillende F0, monochotisch vs. dichotisch Verschillende F0/dichotisch: 2 stemmen, één foneem (o.b.v. fonetisch coherent percept) Tenzij competitie in groepering formanten voor verschillende foneemidentiteit (F1-F2-F3, F1-F3-F4): disambiguatie o.b.v. F0 Duplex perceptie van spraak (studentencollege IV)

Sine wave speech Kennis over de dynamiek van spraak: spectraal-temporele ontwikkeling van voor spraakherkenning relevante features, zoals formanttransities en –posities Vb. Sine-wave speech Abstract model van de onderliggende dynamiek van het stemkanaal

ASA: voorlopige conclusies Belangrijkste aspecten: Continuïteit in: Pitchcontour (voor stemhebbende spraak) = evenwijdig lopende, gelijktijdig veranderende, harmonischen - binnen beperkte pitchrange - relatie neurale informatieverwerking: synchroon vuren van harmonischen behorend bij zelfde F0 => duidelijk onderscheidbare perceptuele eenheid => invloed selectieve aandacht - versterkt door invloed van leren, “herkennen” van harmonische patronen Articulatorische continuïteit: graduele verandering in formantpatroon i.v.m. beperkingen stemkanaal - vocal tract dynamics Synchroniciteit van veranderingen Gelijktijdig beginnen (onset), veranderen, of eindigen (offset) van signaalcomponenten afkomstig van eenzelfde bron Relatieve timing van kwalitatief verschillende geluiden t.o.v. elkaar

ASA: voorlopige conclusie Onderscheid primitief vs. schemagebaseerd niet echt relevant, geeft vertekend beeld Selectie = (gedeeltelijke) herkenning, niet scheiden! Globale context, selectieve aandacht en invloed van leren altijd van belang om het resultaat van de perceptuele verwerking (= het percept, de waarneming waarvan we ons bewust worden) te begrijpen. Vb. Foneemrestoratie Tijdsschaal bewustzijn en informatieverwerking niet gelijk. Vb. Retro-actieve effecten (“The *eel was on the axle/orange” , studentencollege IV)

Appendix: Psychofysica Relatie fysische stimuli – perceptie/respons (begin - ? - eind) Beschrijving van verschijnselen Voorspellen fysiologische mechanismen  starting point voor fysiologisch onderzoek Absolute/relatieve thresholds voor detectie  gevoeligheid (sensitivity) vs. criterion-shift (bias), (SDT) Matching experimenten (bv. loudness matching) Scaling: magnitude van ervaring i.r.t. stimulusintensiteit Invloed verandering omgeving (bv. adaptatie: invloed op detectie) Identificatie van een stimulus: invloed recente geschiedenis + ervaring met omgeving