HSR Human speech recognition / Speech processing.

HSR Human speech recognition / Speech processing

Menselijke spraakherkenning Mensen zijn nog altijd de beste spraakherkenners  Automatische systemen zoals ASR of text parsers kunnen baat hebben bij nieuwe inzichten in de menselijke spraakherkenning  Inzichten kunnen helpen bij behandelingen van mensen met taal- / spraakstoornissen

ASR Onder zoveel mogelijk omstandigheden zo min mogelijk fouten maken  Systemen zijn toegerust voor specifieke taken ASR – HSR  ASR systemen onderzoeken spraak op een ander niveau dan HSR onderzoekers  Synergie zoveel mogelijk maximaliseren

Onderzoek HSR Onderliggende processen bij spraakherkenning worden onderzocht dmv  Patienten met hersenschade  Experimenten Phonetic categorisation, Lexical decision, Phoneme monitoring, Gating, Shadowing  Modellen Cohort, TRACE

Phonetic categorisation Categorische perceptie. Aan welke criteria moet een klank voldoen om in een categorie te vallen? Stimuli: klank / phone bijvoorbeeld v.o.t. b / p Respons:phonetische categorie Measure: categorie chart / time Typische resultaten: context (selectieve adaptatie, spreektempo) continue adaptatie

Phoneme monitoring Welke grote van eenheid wordt gerepresenteerd? Stimuli: woorden / nonwoorden / zinnen linnenkast – fietsenstalling - boten Respons: knop indrukken bij eerste waarneming van een bepaalde klank (bijvoorbeeld “bo”) Measure: time Typische resultaten: Dual code theory Lettergrepen >> phonemen (post-lexicaal) Lettergreep in woord<> lettergreep in non-woord (pre-lexicaal)

Shadowing Hoe interacteren syntax en semantiek? Stimulus: Voogrelezen tekst met spelvouten Respons: Zeg de tekst zo snel mogelijk na Measure: Aantal fouten / correcties Condities: discrepantie, locatie in het woord, context Typische resultaten: fluent restoration, non-fluent hesitations

Lexical decision Onderzoek naar semantisch memory en lexical acces. Stimuli: word / nonword Response: Y / N Measure: time & errors Typische resultaten: frequency - / recency effect

Gating Organisatie van het mentale lexicon Stimuli: groeiend deel van een woord Respons: voorspel het woord Measure: time Typische resultaten: priming effecten, recognition point

Uniqueness- / recognition point Belangrijk en algemeen aanvaard concept in HSR  Uniqueness point Het punt waarop een woord uniek herkend kan worden  Recognition point Het punt waarop een woord herkend wordt (ook afhankelijk van frequency – recency effecten).

Modellen HSR Template matching  Probleem: Verschillende uitspraken moeten worden opgeslagen Motor theory  Probleem: We kunnen woorden verstaan die we zelf niet zo zouden uitspreken.

Modellen HSR Cohort model (initieel)  Acces stage (lexicale activatie) T (-overen), (-okkie), (-oneel)...etc.  Selection stage Tov (-eren) Nieuwe bottom – up informatie  Integration Werkwoord, goochelen

Modellen HSR Cohort model (aanpassingen)  Spraakverwerking is data-driven (gating paradigm, shadowing)  Mate van overlap wordt meegenomen  Woorden in het cohort hebben een activatiewaarde (o.a. lexical decision tasks) Probleem: Wanneer begint een woord?

Modellen HSR Cohort model  Uniqueness point correleert met recognition point.  Frequency – recency effecten worden voorspeld (in het aangepaste model)  Verklaart geen woordgrenzen

Modellen HSR TRACE  Drie sets verbonden lagen (layers) Feature detector Phoneme detector Woord detector  Input is in tijdseenheden opgedeeld die achtereenvolgens worden verwerkt.

Modellen HSR TRACE (vervolg)  Binnen een set zijn verbindingen inhibitoir  Tussen sets zijn verbindingen excitatoir  Er bestaan top-down verbindingen / feedback

Modellen HSR TRACE (vervolg)  Verklaart phoneme restoration  Verklaart (deels) coarticulatie  Vindt woord grenzen

Evaluatie modellen HSR “verkeerd” beschrijvingsniveau  Hoe wordt een feature (TRACE) / phoneem (cohort) herkend? ASR als model  Bestaande ASR-systemen niet cognitief plausibel. Kennis over het laagste niveau  Gabor shaped receptive field  perceptuele basis van klankherkenning (B.Gigi)  technisch, taalkunde

Practicum Vanuit taalkundig perspectief is er wel een redelijke kennis over het laagste niveau van spraaksignalen. We gaan kijken naar zulke features.

De papegaai spreekt pakistaans

Formant structuur in klinkers

HSR Human speech recognition / Speech processing.

Verwante presentaties

Presentatie over: "HSR Human speech recognition / Speech processing."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

HSR Human speech recognition / Speech processing.

Verwante presentaties

Presentatie over: "HSR Human speech recognition / Speech processing."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback