PRATEN MET MENS EN MACHINE Louis C.W. Pols Leerstoelgroep Fonetische Wetenschappen (IFA) Herengracht 338, 1016 CG Amsterdam Amsterdam Center for Language and Communication (ACLC)/LOT Opleiding Taalwetenschap (Ba/Ma Linguistics) Afdeling/OW-instituut Taal- en Letterkunde Faculteit der Geesteswetenschappen (voorheen Letteren) Universiteit van Amsterdam Lezing TUD, do. 15 april 2004 Jaffalaan 5 Fac. Techniek, Bestuur en Management
Overzicht praten is communiceren via gesproken taal pratende computers = spraaksynthese luisterende computers = spraakherkenning spraaksignaalanalyse software ‘praat’ 10 M woorden Corpus Gesproken Nederlands conclusies informatie over taal- en spraaktechnologie, zie o.a. http://www.taalunieversum.org/tst/ en http://www.fon.hum.uva.nl/ April 15, 2004 Fac. TBM - TUD
Praten praten is communiceren, meestal met anderen, voornamelijk via gesproken taal klanken, woorden, zinnen, grammatica, taal spreekstijl, stemkwaliteit, tempo, emotie, dialect, taalvaardigheid, beurtgedrag, aarzelingen, versprekingen woordklemtoon, zinsaccent, frasering disambigueren ga naar/Ghana, koninklijke/koleke, kanon, verspringen Daan zei de baas is te laat wie is er te laat? April 15, 2004 Fac. TBM - TUD
Mens vs. machine menselijke communicatieketen: mens machine concept, uiting selecteren, articulatie, spraakgeluid, transmissiekanaal, geluidwaarneming, interpretatie spreker luisteraar mens spraaksignaal commun. kanaal spraaksynthese automatische spraakherkenning machine April 15, 2004 Fac. TBM - TUD
Spraaksynthese pratende machine = spraaksynthese database-info, concept, tekst in spraak uit evt. taalgeneratie, orthografie tekstanalyse (drs.; §; TUD; € 10,-; herv gem) grafeem/foneem conversie (lexicon en regels) extra /’Ekstra:/ wegnemen /w’Exne:m@/ woordklemtoon, zinsaccent, pauzes prosodie (co-articulatie, F0, duur) akoestische realisatie (difonen) April 15, 2004 Fac. TBM - TUD
Demonstratie Fluent Dutch Fluent Dutch Text-To-Speech ontwikkeld door A. Dirksen en L. Mehnert eerst Fluency Speech Technology, Utrecht toen van Dale Lexicografie, Utrecht o.a. sprekend woordenboek, gesproken e-mail nu Fluency weer eenmansbedrijf andere Nederlandse synthesesystemen: IPO, Nijmeegse allofoonsynthese, Polderland, Speechworks RealSpeak, Infovox, NEXTENS April 15, 2004 Fac. TBM - TUD
Toepassingen spraaksynthese sprekende computer info per telefoon (e-mail, banktegoed, koers) sprekend woordenboek hulpmiddel voor visueel gehandicapten toetsenbord, polshorloge, thermostaat, etc. onderdeel van dialoogsysteem (OVIS, IMIX) miniaturisatie (onleesbare schermpjes) volledige taal/spraak kennis perfekte synth. April 15, 2004 Fac. TBM - TUD
Spraakherkenning luisterende computer = autom. spraakherk. woorden herkennen vs. spraakverstaan geluidsinvoer (microfoon, ADC) kenmerkrepresentatie (filterwaarden/10 ms) herk. woordsjablonen (templates, DTW), òf getrapte herkenning (en evt. interpretatie) fonemen: HMM phone like units (PLU’s) of ANN woorden: woordmodellen, norm. uitspraak wrd. zinnen: taalmodellering (n-gram) April 15, 2004 Fac. TBM - TUD
5 Time (s) 2
5-state HMM phone or word model aii = selfloop probability; aij = between state transition prob.; bj(ot ) = observation probability from Wang (1997)
Ranks of words predicted by a trigram language model (from Jelinek, in Furui & Sondhi (1992))
Aspekten van ASH spreekstijl (woord voor woord, continu) woordenschat (2 - 60.000 woorden, onbeperkt) sprekerpopulatie (een, meerdere, dialect, taal) training (spreker en vocab. (on)afh., spr. adaptief) dialoogstructuur (simpel pseudo-natuurlijk) robuustheid in gebruik (spreker, micr., omgeving, leeftijd, taalvaardigheid, gespreksonderwerp) out-of-vocabulary words (OOV) foutenscore (substitutie, deletie, insertie; begrip) April 15, 2004 Fac. TBM - TUD
Demonstratie Dragon Naturally Speaking ontwikkeld door Dragon Dictate, ook Ned. opgekocht door (nu zelf failliete) L&H, nu Scansoft sprekerspecifiek (urenlange training) vlotte invoer, real-time op snelle PC taalmodel heel belangrijk, evenals training tekstinvoer naast commando’s andere systemen voor het Nederlands: Philips Freespeech IBM ViaVoice Scansoft SpeechWorks VoCon April 15, 2004 Fac. TBM - TUD
Toepassingen van spraakherkenning dicteersysteem, tekstverwerker systeemcontrole (industrie, speelgoed, beveiliging, huishouden) iedere telefoon een terminal computer assisted language learning (CALL) hulpmiddelen voor gehandicapten onderdeel van een dialoogsysteem (OVIS, tel. 0900-9292; IMIX) spraak naast andere modaliteiten miniaturisatie (te kleine knopjes) April 15, 2004 Fac. TBM - TUD
spraaksignaalanalyse in-huis ontwikkeld software pakket ‘praat’ wereldwijd verspreid, open source mogelijkheden voor opname, generatie, weergave, selectie, analyse (spectrum, duur, toonhoogte), manipulatie, segmentatie en labeling, statistiek, etc. werken met scripts uitstekende grafische uitvoermogelijkheden en nog veel meer, zie site praat.org (demo) April 15, 2004 Fac. TBM - TUD
Corpus Gesproken Nederlands Vlaams-Nederlands initiatief 10 Mƒ, 10 M woorden (ca. 1000 uur spraak) start juni 1998, 5 jaar, 7 releases (audio + annotaties) allerlei spreekstijlen ook over telefoon, volwassenen, wel varianten ABN geen dialect t.b.v. taalkundigen, T/S technologie, en anderen rechten bij NTU (http://www.taalunie.nl/) voor informatie zie http://lands.let.kun.nl/cgn/ April 15, 2004 Fac. TBM - TUD
Onderdelen CGN corpusontwerp en -opbouw opname en digitalisering orthografische transcriptie lemmatisering en (POS) part-of-speech tagging lexicologische koppeling (CGN lexicon) brede fonetische transcriptie signaalkoppeling syntactische annotatie prosodische annotatie exploitatiesoftware COREX April 15, 2004 Fac. TBM - TUD
Conclusies menselijke spraakproduktie en -perceptie minstens zo interessant als machinale spraaktechnologie is niet alleen synth. / herk. spraakcodering, taalherkenning, sprekerverificatie, keyword spotting, document retrieval, vertalen, web avatars, etc. zeer interdisciplinair vakgebied veel potentie in toepassingssfeer, maar… bedankt voor jullie aandacht April 15, 2004 Fac. TBM - TUD