Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 22 oktober 2003 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau

Slides:



Advertisements
Verwante presentaties
1 Op Stap naar het SO. 2 • Waar gaat het om ? • Eerst even kijken naar het keuzewerkboek • Wat moest er zo dringend veranderen ? • Studiekeuzetaken !
Advertisements

Vincent Poté Nelis Vandermeiren Simen Akkermans Kevin De Neef
Sprint Jabbla.
Sudoku puzzels: hoe los je ze op en hoe maak je ze?
28 juni 2009 Paëllanamiddag 1 Paëllanamiddag 28 juni 2009 Voorbereiding vrijdagavond (Loopt automatisch - 7 seconden)
Werkwoorden d t dt.
Het profielwerkstuk Hoe maak je dat ?.
Vaardigheden intra-uteriene middelen dr.R.J.C.M.Beerthuizen.
Personalisatie van de Archis website Naam: Sing Hsu Student nr: Datum: 24 Juni 2004.
ADOBE PRESENTER Willem vanden Berg Dienst Onderwijsondersteuning en –ontwikkeling KaHo Sint-Lieven 1.
TETRA valorisatieproject IWT Realisatie van een raamwerk voor automatische personeelsplanning Tweede gebruikerscommissie
Workshop Nieuwe begroting
Inzet van docenten: planning, overzicht en kwaliteit
Tussen samenspel en strijd. Sport en politiek door de eeuwen heen.
Ronde (Sport & Spel) Quiz Night !
prNBN D addendum 1 Deel 2: PLT
Adobe formulieren : stand van zaken.
Leiden University. The university to discover. ICLON, Interfacultair Centrum voor Lerarenopleiding, Onderwijsontwikkeling en Nascholing Denkgereedschap.
Nooit meer onnodig groen? Luuk Misdom, IT&T
Bart Pellens & Jens Veraa
Dries Harnie 3 e bach Computerwetenschappen Workshop 2: Integratie van Polyglot en smalltalk.
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid? Jean-Pierre Martens Catherine.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 4 mei 2004 Modellering van spontane spraak Jacques Duchateau
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 11 mei 2001.
S1S1 S2S2 S3S3 22 november 2001K.U.Leuven-ESAT/PSI Spraak WP2 Detectie en behandeling van OOV woorden l OOV woorden detecteren door betrouwbaarheid van.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Gebruikerscommissie 4 mei 2004 Patrick Wambacq.
Reductie van aantal OOV- woorden dmv lexiconuitbreiding Vincent Vandeghinste Centrum voor Computerlinguïstiek KULeuven.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
presentatie Atranos 9 april '03 Universiteit Gent-ELIS-Speech Lab 1 Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 22 november 2001.
S1S1 S2S2 S3S3 WP2 OOV woorden in herkenners WP2.2 Betrouwbaarheidsmaten Jacques Duchateau ESAT – PSI - Spraakgroep.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent Presentatie Atranos 22 oktober 2003 Atranos project Werkpakket 3 Detectie van haperingen in spontane spraak.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 28 oktober 2002.
ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATraNoS WP1 : Segmentatie van audiofiles in homogene delen Johan Depoorter Jean-Pierre Martens ELIS-DSSP.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 9 april 2003.
Statistische Taalmodellen voor Spontane Spraak
WP1 Segmentatie in homogene delen Objectieven voor eerste 6 maanden –Analyse van literatuur Philips, LIMSI, BBN, HTK, IBM, Eurecom –Realisatie van basissysteem.
Softwarepakket voor het catalogeren en determineren van fruitsoorten
Agenda  Lessen (6)  tot  hs 30
TUDelft Knowledge Based Systems Group Zuidplantsoen BZ Delft, The Netherlands Caspar Treijtel Multi-agent Stratego.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
Wie het kleine niet eert ... (quarks, leptonen,….)
ZW : trillingen 6 WW.
1 7 nov Rijnsburg 7 nov Rijnsburg. 2 Hebreeën 7 15 En nog veel duidelijker wordt het, als naar het evenbeeld van Melchisedek een andere priester.
2009 Tevredenheidsenquête Resultaten Opleidingsinstellingen.
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
Een verhandeling bij marketing Belangrijke punten, afspraken, en tips Marketing Research Group K.U.Leuven.
Project 2de kan
Project Text To Speech Wat houdt het text-to-speech project in
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 5.
17/08/2014 | pag. 1 Fractale en Wavelet Beeldcompressie Les 3.
Fractale en Wavelet Beeldcompressie
ICTO-contactpersonen 7 juni 2007 Vrije Universiteit Universiteit Utrecht Technische Universiteit Delft.
Samen-bouwen … over paneelbouw en de rest!
13 juni 2013 Bodegraven vanaf hoofdstuk 7:1 1. 1Korinthe 7 1 Wat nu de punten betreft, waarover gij mij geschreven hebt, het is goed voor een mens niet.
JOUW WERELD MIJN WERELD
Kruiswoordraadsels eten & drinken
1 Nieuwe Staten Nieuwe begroting Wat & hoe. © PP in taal 2 Programma Aanleiding nieuwe begroting De SWBC en de geschiedenis van de cyclus Wat: de formats.
13 november 2014 Bodegraven 1. 2 de vorige keer: 1Kor.15:29-34 indien er geen doden opgewekt worden...  vs 29: waarom dopen?  vs.30-32: waarom doodsgevaren.
Rabobank Zoetermeer Sponsor v/h SeniorWeb 1 Welkom les 3 Overzicht vorige les Terugblik op wat we geleerd hebben Uitwisselen van ervaringen Behandelen.
Joep Lobée 31 oktober 2013 De 7 principes en mijn ervaring.
Programmeren.
Introductie Studielandschap SSH SRW Inhoud Het SSH-Studielandschap… wat is dat? Zoeken, grasduinen en… verder zoeken Een oriëntatie in Limo Ebsco.
RESTGROEP PROCEDURE. ALGEMENE CONTEXT De gecertificeerde opleidingen zullen op 30 juni 2016 afgesloten zijn De deelnemers die gewettigd afwezig waren.
Programmeren. Wat is programmeren? Het schrijven van opdrachten voor de processor De processor “spreekt” machinetaal:
Programmeren.
Transcript van de presentatie:

Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 22 oktober 2003 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau

Taalmodellen voor spontane spraak - Jacques Duchateau 2 Overzicht van WP 3, deel ESAT laatste 2 jaar van het ATraNoS-project 4 delen van een half jaar –1e half jaar: ontwikkeling baseline herkenners Engels, gebaseerd op Switchboard: afgewerkt Nederlands, gebaseerd op CGN: vertraging –2e half jaar: software-ontwikkeling –3e half jaar: experimenten enkele voorlopige resultaten –4e half jaar: integratie met WP 3, deel ELIS

Taalmodellen voor spontane spraak - Jacques Duchateau 3 Baseline herkenner Switchboard vorige periode: eerste versie –32.1% WER, cf. 19.8% (CU) en 35.6% (ISIP) –2 x trager dan real time, cf. 200 x (CU, ISIP) afwerking, verbeteringen –test vocabularium met 27k woorden: 31.7% –2 keer meer gaussianen (120k): 30.8% –5 keer meer zoeken: 30.0% –spraakdetector: 30.0% –4-gram taalmodel: 29.6%

Taalmodellen voor spontane spraak - Jacques Duchateau 4 Spontaan LM: probleemstelling beschikbaarheid van traindata –geschreven tekst, vb kranten: 300M woorden –spontane spraak, vb Switchboard: 3M woorden haperingen –geschreven tekst: typisch goed gevormde zin –spontane spraak: haperingen maken de context bij het N-gram minder uniform

Taalmodellen voor spontane spraak - Jacques Duchateau 5 Spontaan LM: oplossing LM interpreteren als Markov Model extra: in sommige gevallen is de nieuwe context anders of is er zelfs keuze software: implementatie van algemeen format om dit te beschrijven

Taalmodellen voor spontane spraak - Jacques Duchateau 6 Spontaan LM: experimenten (1) Herhaling, vb. ‘Dat is wat wat ik denk’ Opties:BlijftWegKeuze WER:39.2%39.0%39.2%

Taalmodellen voor spontane spraak - Jacques Duchateau 7 Spontaan LM: experimenten (2) Zin herstart, vb. ‘Dat is wat... Zo is het’ Opties:Geen herstartKeuze WER:39.2%39.5%

Taalmodellen voor spontane spraak - Jacques Duchateau 8 Conclusies, verder werk baseline Switchboard: laat gewenste experimenten toe (WER, snelheid) baseline CGN: vertraging volgende periode: afwerking software, uitvoeren experimenten daarna: integratie –akoestische problemen, vb afgebroken woorden –gebruik hapering-detector ELIS