Hergebruik van taal- en spraakdata in e-health Remco van Veenendaal projectleider TST-Centrale Ehealth4com Nijmegen 3 oktober 2013
Onderzoek Wie van u… Maakt of verzamelt taal- en spraakdata? –(Bijv. teksten, spraakopnames, videomateriaal) Deelt taal- en spraakdata met anderen of hergebruikt taal- en spraakdata van anderen?
Neelie Kroes: “Data zijn het nieuwe goud.” Waarom hergebruik? Daan Roosegaarde: “Delen is het nieuwe hebben.”
Ehealth4com en hergebruik Symposiumwebsite: –“Ontwikkelingen in de taal- en spraaktechnologie dragen bij aan toepassingen voor de behandeling en ondersteuning van mensen met een communicatieve beperking. (…) Speciale aandacht gaat uit naar het verzamelen van taal- en spraakdata om geavanceerde e-healthtoepassingen te ontwikkelen, gericht op diagnostiek en behandeling van communicatieve beperkingen.” Anders, concreter: –U kunt door de behandeling en ondersteuning van mensen met een communicatieve beperking bijdragen aan ontwikkelingen in de taal- en spraaktechnologie, bijvoorbeeld door speciale aandacht te schenken aan het verzamelen van taal- en spraakdata. En: –De TST-Centrale kan u daarbij helpen. Samen zorgen we er zo voor dat er geavanceerde e-healthtoepassingen ontwikkeld kunnen worden.
Ja, maar… Geen Big Science –Big budgets –Big staffs –Big machines –Big laboratories Maar “Small Science” –Beperkte budgetten –Kleine organisaties –Geringe commerciële interesse –Grote diversiteit aan behoeften
De Taalunie schept kansen Samenwerking Nederland, Vlaanderen en Suriname STEVIN: onderzoek naar en basistaalmaterialen voor taal- en spraaktechnologie (TST) TST-Centrale –Advisering –Beheer en onderhoud –Beschikbaarstelling en ondersteuning
Advisering Makelen en schakelen: wat is elders (al) beschikbaar? Welke standaarden en (open) formaten? Welke afspraken met uw “leveranciers”? –Contracten, sprekerformulieren Welke afspraken tussen u en ons? –Samenwerkingsovereenkomst Welke afspraken met gebruik(ers)? –Gebruikerslicenties
Beheer en onderhoud Beheer (medio 2013) Voorbeelden onderhoud –Updates van formaatversies –Verbetering (online) zoekapplicaties –Aanvulling en verbetering (‘bugfixing’) van data
Beschikbaarstelling en ondersteuning Licenties (medio 2013) –Excl. webapplicaties –Incl. GoogleGoogle Voorbeelden ondersteuning –Gastcolleges –Data op maat –Hulp bij contract met uitgever
Beschikbaarstelling ook via Europese CLARIN CLARIN werkt aan makkelijke en duurzame toegang tot digitale taaldata en geavanceerde taaltools, waar deze zich ook bevindenCLARIN Taalunie lid van CLARIN ERIC TST-Centrale verzorgt Nederlands-Vlaams knooppunt in CLARIN-infrastructuur
Taal- en spraakdata voor e-healthtoepassingen Corpus Gesproken Nederlands –Trainen spraakherkenning en spraaksynthese –Computerprogramma dat ondersteuning biedt bij het lezen, spreken en schrijven –Woordvoorspeller bij spreken, voor mensen met een communicatieve beperking Cornetto: tekst-naar-pictogram-omzetter (poster Vandeghinste en Schuurman)Cornetto SoNaR: algoritmen uit andere talen testen met Nederlandstalige dataSoNaR Zie ook rapporten “TST en communicatieve beperkingen” (beschikbaar online en in onze stand)TST en communicatieve beperkingen
Meer taal- en spraakdata (e- health) SPACE (IWT-SBO-project Vlaanderen)IWT –Universiteiten Leuven, Gent, Brussel en Antwerpen) COPAS (Corpus Pathologische en Normale Spraak)COPAS –Opnames Dutch Intelligibility Assessment (DIA), voorgelezen tekstpassages, zinnen en spontane spraak. –Geannoteerde opnames van bijna 200 Vlaamse pathologische sprekers en 122 Vlaamse controlesprekers. CHOREC (Children's Oral Reading Corpus)CHOREC –130 uur spraak afkomstig van 400 Vlaamse kinderen die teksten en woordenlijsten voorlezen voor leesvaardigheidsontwikkeling en -toetsen. –Leesstrategie en soorten leesfouten geannoteerd.
Meer taal- en spraakdata (kinderen) JASMIN-spraakcorpus –Aanvulling op Corpus Gesproken Nederlands –Jongeren, anderstaligen en senioren –Voorgelezen teksten en mens-machinedialogen –STEVIN-project van Radboud Universiteit, K.U. Leuven en TalkingHome BasiLex – wat lezen basisschoolleerlingen?BasiLex –NWO-project van universiteiten Radboud, Tilburg, Amsterdam en Leiden) BasiScript – hoe schrijven basisschoolleerlingen?BasiScript –NWO-project van universiteiten Radboud, Tilburg, Groningen en Amsterdam)
Samenvatting Door bij uw werk aandacht te besteden aan het verzamelen, bewaren en delen van taal- en spraakdata … … kan de taal- en spraaktechnologie zich blijven ontwikkelen … … en kunnen toepassingen ontwikkeld worden die bijdragen aan de diagnostiek, behandeling en ondersteuning van mensen met een communicatieve beperking. Wij helpen u graag, zodat u vooral ook uw werk goed kunt blijven doen.
Nederland Bezoekadres Lange Voorhout EB Den Haag Postadres TST-Centrale p/a NTU Postbus HN Den Haag Nederland België Bezoekadres Universiteit Antwerpen - Stadscampus (gebouw R) Kamer R2.21 Rodestraat Antwerpen Postadres TST-Centrale p/a Universiteit Antwerpen CST, R2.21 Prinsstraat Antwerpen België Vragen of opmerkingen? Spreek ons gerust aan of kom langs in onze stand