HSR Human speech recognition / Speech processing.

Slides:



Advertisements
Verwante presentaties
Laurens van der Maaten IKAT / ROB
Advertisements

Visual Knowledge Building
Naar fair en effectief toezicht Jan Maas, Maas Bestuursvraagstukken Landelijke bijeenkomst Kinderopvang 5 november 2009.
INTERACTION DESIGN Week 3.
Communicatie & Presentatie
Introductie tot het mentaal lexicon
Provincie Limburg Workshop mentorschap 17/5/2013
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
Fasen van onderzoek Onderzoeksplan bureauwerk Dataverzameling
Deel-2 LEERDOELEN Kennismaking met model- en theorievorming in de sociologie (of eigenlijk de sociale wetenschappen in het algemeen) Toepassen van model-
Lecture 5 (Prof. A. Kok, ) Topics:
TRACELINK: A model of consolidation and amnesia
Opvattingen over leren en instructie: Cognitivisme
Taal en cognitie: Optimaliteitstheorie Henriëtte de Swart.
Auditieve verwerking van spraaksignalen psychofysisch en fysiologisch onderzoek: hoe reconstrueren we de boodschap van de spreker uit het spraaksignaal?
Statistische Taalmodellen voor Spontane Spraak
Cognitive Dynamics Voorlichting Master CKI
A perceptual interference account of acquisition difficulties for non-native phonemes Paul Iverson, Patricia K. Kuhl, Reiko Akahane- Yamada, Eugen Diesch,
De rol van aandachtsfocus in blootstelling aan bedreigende informatie
Gecontroleerde en automatische processen
INTERACTION DESIGN Week 6.
A dynamic systems approach by Thelen and Smith: chapter 2.
1. Parsing (epsilon’s, tabellen) 2. Unificatie grammatica Natuurlijke taalverwerking week 7.
Geest, brein en cognitie Filosofie van de geest en Grondslagen van de cognitiewetenschap Fred Keijzer.
Natuurlijke Taalverwerking
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Help en Documentatie Quick reference Task-specific help Full explanation Tutorial.
AI91  Het Probleem  Grammatica’s  Transitie netwerken Leeswijzer: Hoofdstuk AI Kaleidoscoop College 9: Natuurlijke taal.
Voorspellende analyse
Inleiding Kennistechnologie §Hoofdstuk 4: Ontwikkeltraject §Hoofdstuk 5: MYCIN en complexiteit §Hoofdstuk 6: Symbolen en semantiek.
Spatial subgroup mining
De toekomst van een organisatie wordt gemaakt door de community van haar medewerkers. Hoeveel procent van de communicatielijnen verlopen top- down?
Annelie Tuinman, Holger Mitterer & Anne Cutler
Dag van de Fonetiek20 December Hoe kan ik u van dienst zijn? Spraakgestuurde routeringsapplicaties Diana Binnenpoorte, Christophe Van Bael, Johan.
Uitspraak trainen met een computer: is dat mogelijk? Ambra Neri Catia Cucchiarini, Helmer Strik Radboud Universiteit Nijmegen, CLST.
Spreekvaardigheidstraining
Taaltheorie en Taalverwerking Week 5: – Natuurlijke Taal Syntax. (Uitbreiding op CFG: Features.) – Human Parsing: Center-Embedding.
Het uitbouwen van een agressiebeleid Geert Taghon 2011.
Afwijkende visuele waarneming bij mensen met Autisme Spectrum Stoornis
Literatuurstudie Media Richness Theory.
Thema 3 Communicatie Luisteren en feedback.
1 XSLT processing & control Datamodellering 2006.
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Communicatie en Instumenten
Verslaving Behandeling Mechanisme Introductie
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Kind in ontwikkeling B Gedrag vs. Gedachten Dagindeling:
De inzet van BPM en SOA in een organisatie
Hoorcollege 2 Enkele statistische verdelingen ED: Het experiment atoom Labels De empirische distributie.
ANALYSE 3 INFANL01-3 WEEK CMI Informatica.
Hogeschool Rotterdam, Opleiding Vastgoed & Makelaardij drs. ing. M.M.A. Scheepers Collegejaar college.
Interactief voorlezen in de kinderopvang Taalaanbod Module 1 Wat zeg je en hoe zeg je het.
Problemen in de interactie en communicatie bij kinderen met een aan autisme verwante stoornis. M. Serra & R.B. Minderaa.
Amsterdam Airport Schiphol 1 Miniconferentie 'Human factors in future ATM' 26 juni 2009 Shared Mental Models in ATC.
Marianne Littel FADO Instituut voor psychologie Erasmus Universiteit Rotterdam Impliciete en expliciete selectieve aandacht voor rookgerelateerde.
Handvatten voor coaching
Internaliseren Expliciteren
H18 – Denken en besluiten Cognitieve ergonomie
Observeren Helpt je: scherper te kijken naar
Spelling Klinkers en medeklinkers
wat neem je in je afwegingskader op over duurzaamheid?  
Spraakherkenning.
HOGE RAAD VOOR DE JUSTITIE | CONSEIL SUPERIEUR DE LA JUSTICE
Communicatie & Presentatie
OPENINGSCASE: De flexibele supply-chain van DaimlerChrysler
Hoe herkennen mensen klanken?
Nadere Effect Analyse Methode voor effectbepaling Imagine the result.
Groeien in ATEX volwassenheid
Voorspellende analyse
Transcript van de presentatie:

HSR Human speech recognition / Speech processing

Menselijke spraakherkenning Mensen zijn nog altijd de beste spraakherkenners  Automatische systemen zoals ASR of text parsers kunnen baat hebben bij nieuwe inzichten in de menselijke spraakherkenning  Inzichten kunnen helpen bij behandelingen van mensen met taal- / spraakstoornissen

ASR Onder zoveel mogelijk omstandigheden zo min mogelijk fouten maken  Systemen zijn toegerust voor specifieke taken ASR – HSR  ASR systemen onderzoeken spraak op een ander niveau dan HSR onderzoekers  Synergie zoveel mogelijk maximaliseren

Onderzoek HSR Onderliggende processen bij spraakherkenning worden onderzocht dmv  Patienten met hersenschade  Experimenten Phonetic categorisation, Lexical decision, Phoneme monitoring, Gating, Shadowing  Modellen Cohort, TRACE

Phonetic categorisation Categorische perceptie. Aan welke criteria moet een klank voldoen om in een categorie te vallen? Stimuli: klank / phone bijvoorbeeld v.o.t. b / p Respons:phonetische categorie Measure: categorie chart / time Typische resultaten: context (selectieve adaptatie, spreektempo) continue adaptatie

Phoneme monitoring Welke grote van eenheid wordt gerepresenteerd? Stimuli: woorden / nonwoorden / zinnen linnenkast – fietsenstalling - boten Respons: knop indrukken bij eerste waarneming van een bepaalde klank (bijvoorbeeld “bo”) Measure: time Typische resultaten: Dual code theory Lettergrepen >> phonemen (post-lexicaal) Lettergreep in woord<> lettergreep in non-woord (pre-lexicaal)

Shadowing Hoe interacteren syntax en semantiek? Stimulus: Voogrelezen tekst met spelvouten Respons: Zeg de tekst zo snel mogelijk na Measure: Aantal fouten / correcties Condities: discrepantie, locatie in het woord, context Typische resultaten: fluent restoration, non-fluent hesitations

Lexical decision Onderzoek naar semantisch memory en lexical acces. Stimuli: word / nonword Response: Y / N Measure: time & errors Typische resultaten: frequency - / recency effect

Gating Organisatie van het mentale lexicon Stimuli: groeiend deel van een woord Respons: voorspel het woord Measure: time Typische resultaten: priming effecten, recognition point

Uniqueness- / recognition point Belangrijk en algemeen aanvaard concept in HSR  Uniqueness point Het punt waarop een woord uniek herkend kan worden  Recognition point Het punt waarop een woord herkend wordt (ook afhankelijk van frequency – recency effecten).

Modellen HSR Template matching  Probleem: Verschillende uitspraken moeten worden opgeslagen Motor theory  Probleem: We kunnen woorden verstaan die we zelf niet zo zouden uitspreken.

Modellen HSR Cohort model (initieel)  Acces stage (lexicale activatie) T (-overen), (-okkie), (-oneel)...etc.  Selection stage Tov (-eren) Nieuwe bottom – up informatie  Integration Werkwoord, goochelen

Modellen HSR Cohort model (aanpassingen)  Spraakverwerking is data-driven (gating paradigm, shadowing)  Mate van overlap wordt meegenomen  Woorden in het cohort hebben een activatiewaarde (o.a. lexical decision tasks) Probleem: Wanneer begint een woord?

Modellen HSR Cohort model  Uniqueness point correleert met recognition point.  Frequency – recency effecten worden voorspeld (in het aangepaste model)  Verklaart geen woordgrenzen

Modellen HSR TRACE  Drie sets verbonden lagen (layers) Feature detector Phoneme detector Woord detector  Input is in tijdseenheden opgedeeld die achtereenvolgens worden verwerkt.

Modellen HSR TRACE (vervolg)  Binnen een set zijn verbindingen inhibitoir  Tussen sets zijn verbindingen excitatoir  Er bestaan top-down verbindingen / feedback

Modellen HSR TRACE (vervolg)  Verklaart phoneme restoration  Verklaart (deels) coarticulatie  Vindt woord grenzen

Evaluatie modellen HSR “verkeerd” beschrijvingsniveau  Hoe wordt een feature (TRACE) / phoneem (cohort) herkend? ASR als model  Bestaande ASR-systemen niet cognitief plausibel. Kennis over het laagste niveau  Gabor shaped receptive field  perceptuele basis van klankherkenning (B.Gigi)  technisch, taalkunde

Practicum Vanuit taalkundig perspectief is er wel een redelijke kennis over het laagste niveau van spraaksignalen. We gaan kijken naar zulke features.

De papegaai spreekt pakistaans

Formant structuur in klinkers