HSR Human speech recognition / Speech processing
Menselijke spraakherkenning Mensen zijn nog altijd de beste spraakherkenners Automatische systemen zoals ASR of text parsers kunnen baat hebben bij nieuwe inzichten in de menselijke spraakherkenning Inzichten kunnen helpen bij behandelingen van mensen met taal- / spraakstoornissen
ASR Onder zoveel mogelijk omstandigheden zo min mogelijk fouten maken Systemen zijn toegerust voor specifieke taken ASR – HSR ASR systemen onderzoeken spraak op een ander niveau dan HSR onderzoekers Synergie zoveel mogelijk maximaliseren
Onderzoek HSR Onderliggende processen bij spraakherkenning worden onderzocht dmv Patienten met hersenschade Experimenten Phonetic categorisation, Lexical decision, Phoneme monitoring, Gating, Shadowing Modellen Cohort, TRACE
Phonetic categorisation Categorische perceptie. Aan welke criteria moet een klank voldoen om in een categorie te vallen? Stimuli: klank / phone bijvoorbeeld v.o.t. b / p Respons:phonetische categorie Measure: categorie chart / time Typische resultaten: context (selectieve adaptatie, spreektempo) continue adaptatie
Phoneme monitoring Welke grote van eenheid wordt gerepresenteerd? Stimuli: woorden / nonwoorden / zinnen linnenkast – fietsenstalling - boten Respons: knop indrukken bij eerste waarneming van een bepaalde klank (bijvoorbeeld “bo”) Measure: time Typische resultaten: Dual code theory Lettergrepen >> phonemen (post-lexicaal) Lettergreep in woord<> lettergreep in non-woord (pre-lexicaal)
Shadowing Hoe interacteren syntax en semantiek? Stimulus: Voogrelezen tekst met spelvouten Respons: Zeg de tekst zo snel mogelijk na Measure: Aantal fouten / correcties Condities: discrepantie, locatie in het woord, context Typische resultaten: fluent restoration, non-fluent hesitations
Lexical decision Onderzoek naar semantisch memory en lexical acces. Stimuli: word / nonword Response: Y / N Measure: time & errors Typische resultaten: frequency - / recency effect
Gating Organisatie van het mentale lexicon Stimuli: groeiend deel van een woord Respons: voorspel het woord Measure: time Typische resultaten: priming effecten, recognition point
Uniqueness- / recognition point Belangrijk en algemeen aanvaard concept in HSR Uniqueness point Het punt waarop een woord uniek herkend kan worden Recognition point Het punt waarop een woord herkend wordt (ook afhankelijk van frequency – recency effecten).
Modellen HSR Template matching Probleem: Verschillende uitspraken moeten worden opgeslagen Motor theory Probleem: We kunnen woorden verstaan die we zelf niet zo zouden uitspreken.
Modellen HSR Cohort model (initieel) Acces stage (lexicale activatie) T (-overen), (-okkie), (-oneel)...etc. Selection stage Tov (-eren) Nieuwe bottom – up informatie Integration Werkwoord, goochelen
Modellen HSR Cohort model (aanpassingen) Spraakverwerking is data-driven (gating paradigm, shadowing) Mate van overlap wordt meegenomen Woorden in het cohort hebben een activatiewaarde (o.a. lexical decision tasks) Probleem: Wanneer begint een woord?
Modellen HSR Cohort model Uniqueness point correleert met recognition point. Frequency – recency effecten worden voorspeld (in het aangepaste model) Verklaart geen woordgrenzen
Modellen HSR TRACE Drie sets verbonden lagen (layers) Feature detector Phoneme detector Woord detector Input is in tijdseenheden opgedeeld die achtereenvolgens worden verwerkt.
Modellen HSR TRACE (vervolg) Binnen een set zijn verbindingen inhibitoir Tussen sets zijn verbindingen excitatoir Er bestaan top-down verbindingen / feedback
Modellen HSR TRACE (vervolg) Verklaart phoneme restoration Verklaart (deels) coarticulatie Vindt woord grenzen
Evaluatie modellen HSR “verkeerd” beschrijvingsniveau Hoe wordt een feature (TRACE) / phoneem (cohort) herkend? ASR als model Bestaande ASR-systemen niet cognitief plausibel. Kennis over het laagste niveau Gabor shaped receptive field perceptuele basis van klankherkenning (B.Gigi) technisch, taalkunde
Practicum Vanuit taalkundig perspectief is er wel een redelijke kennis over het laagste niveau van spraaksignalen. We gaan kijken naar zulke features.
De papegaai spreekt pakistaans
Formant structuur in klinkers