Dutch Parallel Corpus Een multilinguaal & multifunctioneel corpus Accenta 2007 Donderdag 20 september.

Slides:



Advertisements
Verwante presentaties
Een exploratief onderzoek naar zorgbehoeften van druggebruikers en hun tevredenheid over het bestaande hulpverleningsaanbod Lic. Joke De Wilde Lic. Wouter.
Advertisements

Lieve De Wachter Jordi Heeren
Studiedag en boekvoorstelling over academisch erfgoed in Vlaanderen 15/05/2014 Interuniversitair Platform voor Academisch Erfgoed i.s.m. ETWIE.
Kant-en-klare bouwstenen voor de CLARIN-infrastructuur
Cartografie met als medium het ‘World Wide Web’
Via BaTaVo en prioriteitenlijst op weg naar een (betere) TST-infrastructuur voor het Nederlands Helmer Strik en vele anderen.
Hergebruik van taal- en spraakdata in e-health Remco van Veenendaal projectleider TST-Centrale Ehealth4com Nijmegen 3 oktober 2013.
Vlaams Parlement, 28 februari 2014
Huidige pagina.
Stichting RechtenOnline ICT in het juridisch onderwijs.
“Brouwerij” Ronse Interactieve bijscholingsnamiddag Symposium
Eerste bijeenkomst van de begeleidingscommissies ‘t Elzenveld, Antwerpen woensdag 18 april 2007.
CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator.
Blended learning medisch Frans voor de zorgsector.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 4 mei 2004 Modellering van spontane spraak Jacques Duchateau
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS - 22 oktober 2003 Statistische Taalmodellen voor Spontane Spraak Jacques Duchateau
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Gebruikerscommissie 4 mei 2004 Patrick Wambacq.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
CLARIN: een introductie Ineke Schuurman Coördinator CLARIN-Vlaanderen.
Onderzoeksmethodologie HRM Dr. Sophie De Winne 03/ (Lessius) 016/ (K.U.Leuven) 27 september Onderzoeksmethodologie.
Grensoverschrijdende samenwerking tussen Kortrijk, Rijsel en Bergen
Taalwetenschap in de CKI-bachelor
Universiteit Gent – Oktober 2013 Universiteit Gent.
7/26/2014 | 1 Zoeken naar literatuur Duits. 7/26/2014 | 2 Bibliotheek Rijksuniversiteit Groningen Universiteitsbibliotheek Bibliotheek Letteren ›Bibliotheek.
Natuurlijke taalverwerking week 4
Zoeken naar literatuur
Digitalenklasconsortium Informatiebijeenkomst voor Hoger Onderwijsinstellingen Sake Jager (RUG), Alessandra Corda (ULeiden) 11 september 2003.
Computers en Visueel Gehandicapten
27 september 2013Europese dag van de talen27 september 2013 Europese dag van de talen in Vlaanderen UITREIKING EUROPEES LABEL VOOR INNOVATIEF TALENONDERWIJS.
Samenwerken om te verbeteren “Netwerking als middel voor organisatieontwikkeling”
Vierde bijeenkomst van de begeleidingscommissie Het Elzenveld Antwerpen Maandag 22 juni 2009.
Binnen of buiten de tang Binnen of buiten de tang Een corpusgebaseerd onderzoek naar de positie van voorzetselconstituenten in vertaald en origineel Nederlands.
Kan een online databank een hefboom zijn voor een Learning Community? L. Coertjens, Universiteit Antwerpen G. Vanthournout, Universiteit Antwerpen Prof.
Dutch Parallel Corpus Multilinguaal & multifunctioneel
Bibliotheek Uhasselt: Introductie
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
Digitalenklas Symposium ICT en Talen Sake Jager Faculteit Letteren UU 24 april 2002.
Assessmentvormen in een competentiegerichte lerarenopleiding Katholieke Hogeschool Kempen Katholieke Hogeschool Limburg CVO Limburgse Lerarenopleiding.
Mr P.C. Slangen Projectleider Schakelzone Recht
K.U.Leuven – Instituut voor de Overheid Universiteit Antwerpen Universiteit Gent Hogeschool Gent
1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010.
Barnum & Bailey Circus Revisited 1901 Van een wild idee naar een fascinerend erfgoedproject!
Zin en onzin van draagvlak de discussie in Nederland
Systemen die het opstellen van digitale wetgeving ondersteunen Rik De Busser ICRI/LIIR – K.U.Leuven
BIDIPLOMERING Traject 1: KU Leuven: Master Handelsingenieur UCL: Master en ingénieur de gestion Traject 2: KU Leuven: Master Handelsingenieur in de.
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Hans BennisMeertens Instituut (KNAW)
SE-Seneca voorbereiding op CE 2013!
Digitalenklas: Toepassing van ICT in het hoger talenonderwijs Presentatie UU Sake Jager 28 mei 2002.
Studiereisinformatieavond Vlaanderen Programma van vandaag  Dagindeling  Praktische zaken  Geldzaken  Studiereisopdracht  Gegevens controleren.
BIDIPLOMERING KU Leuven: Master Handelsingenieur in de Beleidsinformatica FUNDP: Master en ingénieur de gestion – management de l’information.
Bidiplomering HIR Wat ? Bij bidiplomering wordt een gemeenschappelijk
Onderzoeksmaster Rechten 5 november Wat is de onderzoeksmaster? Uniek programma in Vlaanderen Samenwerking met Universiteit Tilburg Afzonderlijke.
Taalbeheersing Rotterdam, 00 januari 2007 Deze week: Geen individuele begeleiding! Inleiding af Intervisie op taal en inhoud Uitleg middenstuk Zelf zoeken.
Taal- en Spraaktechnologie (TST) voor het Nederlands: Status 2015 Jan Odijk (UU) Taalcongres Brussel, 10 oktober
Doc. Mgr. Marketa Štefková, PhD. Hyperdiversiteit aan bronteksten, terminologieën en opdrachtgevers versus kwaliteit en professionaliteit: dagelijks dilemma.
School of Education Bruggen bouwen en onderhouden.
WOORDENBOEK VAN DE VLAAMSE DIALECTEN (WVD) Universiteit Gent Vakgroep Taalkunde - Nederlands.
Smart Computer-Aided Translation Environment 31 maart 2016 Hasselt.
TST voor de archiefsector | Het NA en TST Welke raakvlakken heeft het NA met taal- en spraaktechnologie (TST)? Remco van Veenendaal Adviseur.
Leren lezen, spellen en rekenen. Vooral een kwestie van goed onderwijs
11 oktober 2016 Studeren in het buitenland Erasmus+ programma Mogelijkheden buiten Europa.
WoordenlijstBeheer Terminologie centraal in de archiefsector
Ze durven de taal die ik geef niet meer te gebruiken
Wij hebben (al heel lang) een Bijbel.
Syntactische Annotatie CHILDES
Leren lezen, spellen en rekenen. Vooral een kwestie van goed onderwijs
Onderzoeksmaster Rechten
Transcript van de presentatie:

Dutch Parallel Corpus Een multilinguaal & multifunctioneel corpus Accenta 2007 Donderdag 20 september

Dutch Parallel Corpus Corpus: Gestructureerde verzameling van elektronische teksten Parallel Corpus: Verzameling van vertaalde teksten Dutch Parallel Corpus: Gestructureerde verzameling van vertaalde teksten uit het Nederlands

Corpus van 10 miljoen woorden Kwalitatief hoogstaand Ontwikkeling van een parallel corpus als prioriteit van het STEVIN−programma STEVIN: Spraak− en Taaltechnologische Essentiële Voorzieningen In het Nederlands Dutch Parallel Corpus

2 taalparen: –Nederlands − Engels –Nederlands − Frans 4 vertaalrichtingen Gedeeltelijk drietalig: Frans − Nederlands − Engels Een multilinguaal corpus

Nederlands  Nederlands als scharniertaal Nederlands Engels Frans Min woorden per vertaalrichting

Parallel corpus als vertaalhulpmiddel Parallel corpus als didactisch hulpmiddel Departement Vertaalkunde Hogeschool Gent CALL-onderzoeksgroep KU Leuven – campus Kortrijk Een multifunctioneel corpus

DPC Vertaalhulpmiddel (CAT) Automatische vertaling Didactisch hulpmiddel (CALL) Meertalige terminologie-extractie Meertalige informatie- extractie Vertaalwetenschappen Contrastieve taalkunde Een multifunctioneel corpus

Kwalitatieve tekstleveranciers Voorkeur voor gepubliceerd tekstmateriaal Variatie aan teksttypes: Fictie/ Non−fictie IPR−overeenkomst (copyright) noodzakelijk voor openbaar maken van teksten. Samenstelling corpus

Alignering op zinsniveau Taalkundige annotatie Metadata Corpusstructuur

 Zin a in brontaal komt overeen met zin 1 in doeltaal Zin a Zin b Zin c Zin d Nederlands Zin 2 Zin 1 Zin 3 Zin 4 Zin 5 Alignering op zinsniveau Frans

Markeren van woorden, woordsoort, lemma, zinnen, syntactische structuren Taalkundige annotatie

Metadata maken het opsporen van parallelle zinnen makkelijker –Datum publicatie –Vertaalrichting –Vertaalmodaliteiten –Directe vs. indirecte vertalingen –Kwaliteitslabel Metadata

Consulteren van corpus via webinterface Elementen die het ontsluiten van corpusdata vergemakkelijken: –Zinsalignering –Taalkundige annotatie –Metadata Corpusontsluiting

Kernteam Onderzoekspartners Gebruikersgroep DPC consortium

K.U. Leuven campus Kortrijk Prof. Dr. Piet Desmet Dr. Hans Paulussen Dr. Julia Trushkina Lic. Maribel Montero Perez Hogeschool Gent Departement Vertaalkunde Prof. Dr. Willy Vandeweghe Dra. Lieve Macken Lic. Lidia Rura Kernteam

Rijksuniversiteit Groningen Radboud Universiteit Nijmegen Universiteit van Tilburg Katholieke Universiteit Leuven Universiteit Antwerpen Universiteit Gent Onderzoekspartners

Potentiële gebruikers van een vertaalcorpus, geselecteerd uit de academische wereld en de bedrijfswereld –Academische partners Universiteit Antwerpen Vlekho Hogeschool, Brussel Lessius Hogeschool, Antwerpen Hogeschool Gent Katholieke Universiteit Leuven Universiteit Gent –Industriële partners Indiegroup, Kortrijk Xplanation, Leuven Gebruikersgroep

Via TST−centrale (Taal− en Spraaktechnologie) Distributie

Informatie