Language & Speech Technology Arjan van Hessen + * Franciska de Jong* Roeland Ordelman* * Computer science, University Twente + Speech & Language group,

Slides:



Advertisements
Verwante presentaties
1 Dependency Parsing by Inference over High-recall Dependency Predictions Sander Canisius Toine Bogers
Advertisements

Advancing Dutch Through Intensive Instruction: Planning for Success with Backward Design and Social Media Language Matters Series Texas Language Center.
Update on EduStandard: public-private platform in Dutch education Henk Nijstad, Kennisnet / november 2013.
Requirements -People are able to make their own memorial page, called a memori -The website will be build first in Dutch for extension.nl, then copied.
Een alternatief voorstel Naar aanleiding van bestudering van de IAASB voorstellen denkt de NBA na over een alternatief. Dit alternatief zal 26 september.
Social Technographics Hoe ontwikkel je een succesvolle social media strategie? Reineke Reitsma Director, Consumer Technographics Forrester Research 11.
Digitale TV platforms op een rij Masterclass BrVA Dick van Smirren TNO ICT september 2005.
Deltion College Engels C1 Gesprekken voeren [Edu/002]/ subvaardigheid lezen thema: Order, order…. can-do : kan een bijeenkomst voorzitten © Anne Beeker.
Smart Style on the Semantic Web Lynda Hardman CWI, Multimedia and Human-Computer Interaction TU/e, Multimedia and Internet Technology.
Niels Chavannes MD PhD Associate Professor
1 Co-Design at Chess-iT Guus Bosman. 2 Afstuderen bij Chess Net.Footworks tot augustus 2003 Afstuderen augustus 2003 tot maart 2004 Chess full-time vanaf.
Hoogwaardig internet voor hoger onderwijs en onderzoek Amsterdam, 23 November 2005 Walter van Dijk SURFnet Development of LCPM decision-making models and.
Teams on the frontline Geert Stroobant De Heide - Balans
Scaling up testing and counselling as it looks from treatment data monitoring perspectives: The applied research outcomes and the policy implications it.
Voorziening levensonderhoud Religieuze Instituten Paul Op Heij ‘s-Hertogenbosch, 25 september 2013 The future depends on what you do today.
Vaardig? Een spectrum aan vaardigheden! Van informatie- naar media- naar exploratievaardig? Of e-Research & e-learning literate? Collaboration literate??
Accessible Instructional Materials. § Discussion: Timely access to appropriate and accessible instructional materials is an inherent component.
Nieuwe wegen in ontwerpen met CAD
© 2004 IBM Corporation Guts Wissema, OpenSource & Linux Sales, IBM Open Document Format.
VVW Toervaren. Onderwerpen Type AIS transponders Verplichting / Toelating gebruik Praktijk voorbeelden van op het schip Praktijk voorbeelden vanop de.
Beyond Big Grid – Amsterdam 26 september 2012 Enquette 77 ingevulde enquettes, waarvan 60 met gebruikservaring = Mainly Computer Science.
Blackboard + Weblog Ik gebruik ik een weblog naast Blackboard. –Waarom ? –Hoe ? –Wat levert het op [=meerwaarde] ?
Identification Documents Port of Ghent All documents in this leaflet are copies of identification/legitimation documents that authorise persons to access.
SQL injections en meer... PERU. web application vulnerabilities Cross Site Scripting (21.5%) SQL Injection (14%) PHP includes (9.5%) Buffer overflows.
Woensdag 23 juli 2014 volgende vorige algemeen ziekenhuis Sint-Jozef Malle Dementia pathway: a condition specific approach Patrick De Wit, MD Thierry Laporta,
In samenwerking met het Europees Sociaal Fonds en het Hefboomkrediet The role of APEL in career coaching and competence management Competence navigation.
ontwik idee - keling dag 3 goals today Develop “criteria” to help you evaluate & select your ideas Some tools from Tassouls book to help you do this.
ERIC Combine search terms with Boolean operators Next = click.
Netwerk Algorithms: Shortest paths1 Shortest paths II Network Algorithms 2004.
1 Van Harvard naar MIPS. 2 3 Van Harvard naar MIPS Microprocessor without Interlocked Pipeline Stages Verschillen met de Harvard machine: - 32 Registers.
in de eerste 2 weken na een herseninfarct ?
Tussentoets Digitale Techniek. 1 november 2001, 11:00 tot 13:00 uur. Opmerkingen: 1. Als u een gemiddeld huiswerkcijfer hebt gehaald van zes (6) of hoger,
Hidden Markov Models Introductie Project: 1. Initializatie 2. Training.
From computer power and human reason. Joseph Weizenbaum.
D-LUCEA Database of the Longitudinal Utrecht Collection of English Accents Hugo QuenéRosemary Orr UiL OTSUCU Universiteit Utrecht CLARIN-NL Call 3 Kickoff.
De onderste lagen van het OSI model
Geheugen, distributie en netwerken Netwerken: de basis voor distributie van gegevens en taken (processen) –bestaan zo’n 40 jaar, zeer snelle ontwikkeling.
ANTWOORDEN DIAGNOSTISCHE TOETS MODELOMGEVING. Syntaxis = Syntaxis (van het Oudgriekse συν- syn-, "samen", en τάξις táxis, "regeling") is binnen de theoretische.
Deltion College Engels B1 Gesprek voeren [Edu/001]
Deltion College Engels C1 Schrijven [Edu/002] thema: CV and letter of application can-do : kan complexe zakelijke teksten schrijven © Anne Beeker Alle.
Deltion College Engels B1 Gesprekken voeren [Edu/005] thema: applying for a job can-do : kan een eenvoudig sollicitatiegesprek voeren © Anne Beeker Alle.
Deltion College Engels C1 Gesprekken voeren [Edu/004]/ thema: There are lies, damned lies and statistics... can-do : kan complexe informatie en adviezen.
Deltion College Engels B2 Schrijven [Edu/004] thema: (No) skeleton in the cupboard can-do: kan een samenhangend verhaal schrijven © Anne Beeker Alle rechten.
Deltion College Engels C1 Luisteren [Edu/001] thema: It’s on tv can-do : kan zonder al te veel inspanning tv-programma’s begrijpen.
Deltion College Engels B2 Gesprekken voeren [Edu/006]/subvaardigheid schrijven notulen en kort voorstel thema: ‘What shall we do about non- active group.
Deltion College Engels B1 En Spreken/Presentaties [Edu/007] Thema: Soap(s) can-do : kan met enig detail verslag doen van ervaringen, in dit geval, rapporteren.
Deltion College Engels En Projectopdracht [Edu/001] thema: research without borders can-do/gesprekken voeren : 1. kan eenvoudige feitelijke informatie.
Deltion College Engels C1 Spreken/Presentaties [Edu/006] thema ‘I hope to convince you of… ‘ can-do : kan een standpunt uiteenzetten voor een publiek van.
Deltion College Engels B1 Schrijven [Edu/004]/ subvaardigheid lezen thema: reporting a theft can-do : kan formulieren waarin meer informatie gevraagd wordt,
Deltion College Engels C1 Gesprekken voeren [Edu/006] thema: ‘I was wondering what you think of…’ can-do : kan deelnemen aan de conversatie bij zeer formele.
Writing exercise This one goes into your language portfolio!!! You have until the end of the week to hand it in… (So you have a little longer than it says.
Telecommunicatie en Informatieverwerking UNIVERSITEIT GENT Didactisch materiaal bij de cursus Academiejaar
Rational Unified Process RUP Jef Bergsma. Iterations –Inception –Elaboration –Construction –Transition De kernbegrippen (Phases)
"Genetisch Gewijzigde Organismen in relatie tot de voedselvoorziening in 't algemeen, en in 't bijzonder in ontwikkelingslanden” Discussie Forum 28 Januari.
© Shopping 2020 TITLE Date Subtitle Logo Gastheer Logo Voorzitter.
Ontbijtsessie 2 juli 2014 Kwaliteitsverbeteringen in Infra Projecten.
Combining pattern-based and machine learning methods to detect definitions for eLearning purposes Eline Westerhout & Paola Monachesi.
Ondernemer in de btw René N.G. van der Paardt. Met Fuchs is de grens van het ondernemerschap wel bereikt? De vaste inrichting in de btw zou hetzelfde.
Mining Dutch History: researching public debate in the nineteenth century Dr José de Kruif Researcher Research Institute for History and Culture Utrecht.
Birthdays Contents 1. School birthdays 2. Childrens’ parties 3. Songs and games.
Ecce ama! Is een EQUAL project van ESF: bijdragen tot de ontwikkeling van de werkgelegenheid door het bevorderen van inzetbaarheid, ondernemerschap, aanpasbaarheid.
THE SACK OF LOUVAIN How to use in education?. Concept and principles Flexibility Image analysis Demand driven Co operative learning Document study Creative.
Deltion College Engels C1 Spreken [Edu/002] thema: A book that deserves to be read can-do : kan duidelijke, gedetailleerde samenvatting geven van een gelezen.
Deltion College Engels B1 En Spreken/Presentaties [Edu/006] Thema: “The radio station“ can-do : kan een publiek toespreken, kan verzonnen gebeurtenissen.
Deltion College Engels B2 Spreken [Edu/001] thema: What’s in the news? can-do : kan verslag doen van een gebeurtenis en daarbij meningen met argumenten.
Deltion College Engels B1 Spreken [Edu/001] thema: song texts can-do : kan een onderwerp dat mij interesseert op een redelijk vlotte manier beschrijven.
Deltion College Engels B2 Lezen[Edu/001] /subvaardigheid schrijven korte samenvattingen thema: Exotic news can-do : lezen om informatie op te doen - kan.
Deltion College Engels B2 Schrijven [Edu/005] thema: Writing a hand-out can-do: kan een begrijpelijke samenvatting schrijven © Anne Beeker Alle rechten.
Deltion College Engels B1 Lezen [Edu/002] thema: But I ‘ve read it in… can-do : kan hoofdthema en belangrijkste argumenten begrijpen van eenvoudige teksten.
Key Process Indicator Sonja de Bruin
Transcript van de presentatie:

Language & Speech Technology Arjan van Hessen + * Franciska de Jong* Roeland Ordelman* * Computer science, University Twente + Speech & Language group, TeleCats

DRUD Document Retrieval Using Intelligent Disclosure

DRUID “Developing Tools for the Indexing & Retrieval of Multi Media Content”  time-coded indexing with DUTCH speech recogniser  television news broadcast  benchmark international SDR research  parallel sources available (teletext, auto cues)

Druid: what Extract information from non-textual content Classify and index the information Give access to the information via linked time codes

Druid: how –Speech recognition Large vocabulary, speaker independent –Recognition of visual objects –Story detection –Linking to related information

Large vocabulary recognition Indexing & Retrieval

Druid Speech recogniser –ABBOT speech recogniser (Cambridge, Sheffield) –Feature extraction –Phone classification (NN) –Word recognition (HMM)

B roadcast news –Pro’s Easy available Often high quality, undisturbed speech Availability of related sources –(auto-cues, news papers) –Contra’s Mixed languages Different quality of speech (wide & narrow band), mixed together

Development –British English  Dutch TNO-NRC corpus: 10h read speech (newspaper data) –Additional phoneme training Groningen corpus: 20h read speech Speech Styles corpus: 16h spontaneous speech –Final training Broadcast corpus: 50 x “8 o’clock news” broadcasts (10h speech) Corpus Spoken Dutch: 1000h spontaneous speech (to be done in 2002)

Language modelling Acoustic recognition stops at a certain level Recognition can only improve with: –Statistical language models (large vocabulary recognition) –Finite state grammars (small vocabulary recognition)

Large vocabulary recognition Recognition is directed by –Acoustic features –Word frequency (= 65K most used words) –Bi-grams (65K 2 combinations) –Tri-grams (65K 3 combinations)

Large vocabulary recognition Building reliable acoustic feature requires  100 hours of speech Building reliable LM requires  hours of text Different context models (sport, finance, politics etc.)

Language modelling Standard LM procedure text normalisation Dutch diseases: spelling reform 90’s compounding foreign words increase of English

Text collection Nederlandse Persdata bank –Electronic version of 4 major Dutch newspapers ( ) NOS Auto cues –Daily Auto-cues of the 8 o’clock news and the news for children ( ) TeleText –Daily recording of the teletext of the news, discussion & sport programs ( ) WWW –Daily downloading of news providers & papers ( )

Text collection YearNum of wordsNum unique words Spellings reform Number of words of the newspaper collection after normalisation

Phonetic transcriptions Phonetic dictionaries –Celex (300k, SAMPA) –VLIS database (1300k, Van Dale Data Format) –Rule-based decompounded-compounded dictionary (600k, SAMPA) G2P tool –Machine learning algorithm (vd Bosch) –95% correct (without syllable & stress information)

Text normalisation I Cleaning of punctuation marks Expansion –Numbers, abbreviations Statistical capital letter reduction –Rotterdam, rotterdam, ROTTERDAM  Rotterdam –KOK, Kok, kok  kok Spelling correction –Reduction of “doubles” caused by the spelling reform of the nineties (pannekoek  pannenkoek) –Removal, correction, or adding of accentuation marks cafe, café, cafeé, cafë etc.  café hét, hèt  het

Text normalisation II German and Dutch are “compound” languages Increased number of words Relative high number of “new” words –(Eclipsbril = Eclipse glasses) Lowe lexical coverage  High OOV –LC = #word/(#distinct words) –OOV = 1- LC

Text normalisation III drugbeleid drugbestrijding drugbezit drugdealer drugdealers drugdeals drugdelict drugdistributeur druggebruik druggebruiker druggebruikers drughandel drugkartels drugmisbruik drugrunner drugsaanpak drugsactie drugsacties drugsactiviteiten drugsadviseur drugsafdeling drugsaffaire drugsaffaires drugsafrekeningen drugsattributen drugsavonturen drugsavontuur drugsbaas drugsbanden drugsbaron drugsbaronnen drugsbazen drugsbedrijf drugsbeleid drugsbende drugsbendes drugsbestaan drugsbestellingen drugsbestrijdend drugsbestrijder drugsbestrijders drugsbestrijding drugsbezit drugsbezitters drugsboef drugsboeven drugsbonzen drugsbrigade drugsbrigades drugsbron drugsbuisje drugsbureau drugsbusiness drugsbuurt drugscafé drugscafés drugscampagnes drugscare drugscircuit drugsclans drugsclip drugscocktail drugscocktails drugsconferentie drugsconflict drugsconnecties drugsconsument drugsconsumptie drugscontainers drugscontrole drugscontroles drugsconventie drugscriminaliteit drugscrimineel drugscriminelen drugsdaglicht drugsdeal drugsdealen drugsdealend drugsdealende drugsdealer drugsdealers drugsdeals drugsdebat drugsdelict drugsdelicten drugsdeskundige drugsdiscussie drugsdode drugsdoden drugsdollars drugsdominee drugsdood drugsdossier drugsdossiers drugsdraaiboek drugseconomie drugseenheid drugsellende drugsexcessen drugsexperiment drugsexpert drugsexperts drugsexport drugsfabricage drugsfabrikanten drugsfamilie drugsfunctionaris drugsgebied drugsgebruik drugsgebruiker drugsgebruikers drugsgebruikster drugsgeld drugsgelden drugsgelieerde drugsgeschiedenis drugsgeschillen drugsgewoonte drugsgoeroe drugsgroeperingen drugsgrondstoffen drugshaarden drugshandel drugshandelaar drugshandelaars drugshandelaarster drugshandelaren drugshandlangers drugshel drugshoertje drugshol drugshond drugshonden drugshoofdstad drugshuizen drugshulpverleners drugshulpverlening drugsimago drugsimport drugsindustrie drugsinkomsten drugsinstelling drugsinval drugsinvoer drugsjacht drugsjagende drugsjager drugsjaren drugsjongens drugskartel drugskartels

Text normalisation VI Decompounding –Low frequency compounds are decompounded if decompounding improves the Lexical Coverage –50% of the unique words that were not in one of the phonetic dictionaries could be successfully decompounded although some error were made: zeeroverschatten  zeerover + schatten  zeerovers + chatten

Most / least frequent words TOP 10 de van het en een in dat is op te DOWN 10 milko39 miljardenovername39 mifune's39 middeninkomen39 michelingids39 mexx39 metaalnijverheid39 metaaldetectoren39 mesquita39 mervyn39

Language modelling Language corpus UK WSJ IT Sole24 FR Le monde NL PDB D FR #words 37M27M38M22M36M #distinct words 165K200K280K320K650K 20K coverage 97.5%96.3%94.7%93.0%90.0% 65K coverage 99.6%99.0%98.3%97.5%95.1%

Language modelling data# words# unique words ratio Original ,04 After decompounding ,22 change+ 2.1%-32.6%+51.6% Effect on the ratio after decompounding

Different language models First use the general LM to detect the sub-category Use the politic LM to improve recognition results

Segmentation I Full news broadcasts are too long (20 min.) Retrieved items may start and/or stop in the middle of phrases different LM has to be assigned to different “stories”

Segmentation II Segmentation in phrases, sentences, and paragraphs –Prosodic information F0 Pauses –Different LM assigning

Results descriptionOOVWER Basic, 44K words5.07%68.5% +forward/backward training5.07%62.4% + newspaper corpus5.07%53.5% + newspaper corpus + FB training 5.07%50.2% + 65K words3.54%46.3%

Results WERextra Read speech30% (OOV = 2.5%)15 hrs training material Broadcast news36.9% (OOV = 14%)5 hrs training material Historical archives90% (OOV = 20%)1933 Historical archives60% (OOV = 10%)1940 Historical archives43% (OOV = 14%)1960

DRUID “de Israëlische premier Chevron houdt vanavond en televisie toespraak zullen ingaan op de crisis die is ontstaan na de bloedige aanslagen van het weekend in Jeruzalem en hij vaak zo'n kwam vanochtend vroeg terug uit Amerika heeft gesproken met president Bush het ene op het vliegveld van Tel Aviv pasje om met ministers pers en ben een Jezus met weinig gevoel voor huizen vanavond is het kabinet kabinet beraadt geweld gaat ook vanochtend door op de westelijke Jordaan oever bijen is z'n vijven dertig jarige Palestijn door Israëlische militairen gedood die bij controle proberen te vluchten of stonden Shiva heeft pech” “de Israëlische premier Sharon houdt vanavond ‘n televisie toespraak. Hij zal dan ingaan op de crisis die is ontstaan na de bloedige aanslagen van dit weekend in Jeruzalem en Haifa. Sharon kwam vanochtend vervroegd terug uit Amerika; daar heeft hij gesproken met president Bush. Meteen al op het vliegveld van TelAviv sprak Sharon met de ministers Peres en Ben Illiëzer en met veiligheidsfunctionarissen. Vanavond is het kabinet kabinetsberaadt. ‘t geweld gaat ook vanochtend door, op de westelijke Jordaanoever bij Jinien is 'n vijfendertig jarige Palestijn door Israëlische militairen gedood toen ie bij controle probeerden te vluchten. Correspondent: Shivra Hertzberg” December :142 3 December :14

OOV problems  20% (  14k) of the 65k most frequent words (MFW) are not in the phonetic dictionary  86% of these 14k words starts with a capital letter 50% of these 14k words are names (family, geographic, companies) that are not in the phonetic dictionary and are difficult to transcribe by G2P because they often do not follow Dutch transcription rules

Demo 8 o’clock TV news Daily radio news Adjust

DRUID Evaluation –A time consuming, boring, but necessary process!!

Questions ?