Dutch Parallel Corpus Multilinguaal & multifunctioneel Lieve Macken Hogeschool Gent
Dutch Parallel Corpus Parallel corpus 10 miljoen woorden Teksten + vertaling Gealigneerd op zinsniveau 10 miljoen woorden Nederlands – Engels / Nederlands - Frans Kwalitatief Compatibel met Corpus Geschreven Nederlands
Voorgeschiedenis Departement Vertaalkunde Hogeschool Gent CALL-onderzoeksgroep KU Leuven – Campus Kortrijk Parallel corpus als didactisch hulpmiddel Parallel corpus als vertaalhulpmiddel
Gebruikers en toepassingen Vertaalhulpmiddel (CAT) Automatische vertaling Meertalige terminologie-extractie Didactisch hulpmiddel (CALL) DPC Meertalige informatie-extractie Vertaalwetenschappen Contrastieve taalkunde
Automatische vertaling Training- en testmateriaal voor corpus-gebaseerde MT Example Based MT Statistical MT P. Khoen 2005: 110 SMT-systemen getraind op Europarl-corpus Voorbeeld uitvoer Fins-Engels: we know very well that the current treaties are not enough and that in future , it is necessary to develop a better structure for the union and , therefore perustuslaillisempi structure , which also expressed more clearly what the member states and the union is concerned .
Terminologie-extractie Screenshot van Multiterm Extract (Trados)
Vertaalhulpmiddel Hulpmiddel tijdens vertaalproces Bij zoektocht naar meest geschikte term, woord, stijl, idiomatisch taalgebruik, ... Aanvulling op bilinguale woordenboeken Uitbreiding op monolinguaal ‘googelen’ Woorden in context Voorbeeld: TransSearch (Canadian Hansards) Simard & Macklovitch 2005 TransSearch: gebruikers zijn vooral professionele vertalers (En-Fr) Vertaalafdeling van Canadese overheid Tienduizenden queries/maand
CorpusCall Computerondersteund talenonderwijs Woorden in context Leeractiviteiten Referentiemateriaal Woorden in context Authentiek materiaal in leertaal Ondersteuning in moedertaal Voorbeeld Nederlex Leesomgeving voor Franstalige studenten Ontwikkeling leesomgeving: FUNDP, Namur Compilatie parallel corpus: REBECA project (K.U.Leuven Campus Kortrijk) Vertaalcorpora ook nuttig in didactische context Voorbereiding leeractiviteiten, tijdens leeractiviteiten
Nederlex Franstaligge studenten die Nederlands leren Nederlandse teksten op web lezen Info vragen over woorden die ze niet begrijpen Geen woordenboek, maar parallelle KWIC-index op LEMMA ?? Wat gebeurt er als woord niet gevonden wordt in corpus? Meer context opvragen via klikken op zin
Vertaalwetenschappen Studie van het vertaalproduct Vertaaluniversalia en translationese Vertaalproces Parallelle en vergelijkbare corpora Engelse en Franse teksten Nederlandse teksten Nederlandse vertalingen Engelse en Franse vertalingen Vertaalwetenschappen = discipline die zich bezig houdt met studie van vertalingen en vertaalde teksten. Eén van de onderzoeksvragen is of er universele tendensen waar te nemen zijn (vertaaluniversalia of negatief translationese) Methodologie: kijk naar vertaalproduct en vergelijkt vertaalde teksten met niet-vertaalde teksten in dezelfde taal of met bronteksten Andere onderzoeksvragen hebben meer betrekking tot vertaalproces (welke vertaalstrategieën) ahv vertaalproduct
Verschillende gebruikers … Taaltechnologische toepassingen Automatische vertaling / terminologie-extractie Andere NLP-toepassingen (bijv. WSD) Training- en testmateriaal Menselijke gebruikers Vertaalhulpmiddel / didactisch hulpmiddel Concordantieprogramma’s Aanvulling bilinguale woordenboeken Fundamenteel Onderzoek Vertaalwetenschap / contrastieve taalkunde Parallel en vergelijkbaar corpus Verschillende types gebruikers
… stellen verschillende eisen Samenstelling Corpus Metadata Taalkundige annotatie Kwaliteitsvereisten Corpusontsluiting Verschillende eisen betreffende verschillende aspecten van het corpus
Samenstelling Corpus letterlijk Brontekstgericht Non-Fictie Doeltaalgericht Fictie vrij Automatische vertaling Vertaalhulpmiddel Terminologie-extractie Didactisch hulpmiddel Onderscheid letterlijke en vrije vertalingen eeuwenoud letterlijke vertalingen: Brontekstgericht Blijven dicht bij vormen van brontekst Vrije vertalingen: doeltaalgericht Meer natuurlijke taalgebruik van doeltaal, meer idiomatische uitdrukkingen, etc.
Samenstelling corpus /2 Fictie Non-fictie Essayistische teksten Journalistieke teksten Zakelijke teksten Technische teksten Ambtelijke teksten Categorieën voorzien in DPC-project
Metadata Vertaalrichting Vertaalmodaliteiten Engels → Nederlands vs. Nederlands → Engels Vertaalmodaliteiten Menselijke vertaling, CAT, MT Directe vs. indirecte vertalingen Indirect via Engels (vb. Europarl) Afhankelijk van type gebruker: minder of meer strenge eisen aan vertalingen. Stengste eisen vertaalwetenschappen (vertaalproces): Vertaalrichting: onmisbaar voor vertaalwetenschappen (onderscheid tussen vertaald vs. niet-vertaalde teksten Directe vertalingen Vertaalmodaliteiten Voor andere toepassingen minder cruciaal
Taalkundige annotatie Basiselementen Paragrafen, zinnen, woorden Taalkundige verrijking Lemma Woordsoort Syntactische structuren Iedere toepassing: woorden/woorgroepen + zinnen wil extraheren Sommige toepassingen meer context nodig (bijv. menselijke gebruikers in didactische toepassingen + vertaalhulpmiddel) Extra taalkundige verrijkeing (lemma & woorsoort) wenselijk
Kwaliteitsvereisten Verschillende niveaus Kwaliteitslabel Volledig manuele verificatie Manuele steekproeven Automatische controleprocedures Kwaliteitslabel Hoge kwaliteitsvereisten qua alignatie en annotatie voor menselijke gebruikers Niet zo cruciaal voor corpusgebaseerde taaltechnologische toepassingen (vaak statistische filter ingebouwd; wordt gefilterd op basis van frequentie)
Corpusontsluiting Webinterface Volledige teksten Gebruiksvriendelijk Beperkte technische know-how bij taaldocenten & vertalers Volledige teksten Lerende systemen (data-driven automatic learning) Statistische MT Webinterface: queries vs. XML data – volledige teksten
Corpus Geschreven Nederlands Compatibiliteit Corpus Geschreven Nederlands Codering metadata PoS tagger - Belangrijk voor gebruiker - Samenwerking corpus geschreven Nederlands (ook met Stevin-geld)
Gebruikerscommissie Geconsulteerd bij belangrijke ontwerpbeslissingen Industriële partners Computer-assisted language learning Vertaaldiensten Terminologie-extractie Informatie-extractie Academische partners Taaltechnologie Vertaalwetenschappen Contrastieve taalkunde Hoe gaan we rekening houden met verschillende gebruikers? vaste gebrukerscommissie samengesteld Wordt geconsulteerd bij elke belangrijke ontwerpstap Zeer binnenkort: samenstelling van het corpus
Kernteam KULeuven – Campus Kortrijk HoGent – Departement Vertaalkunde Prof. Dr. Piet Desmet Dr. Hans Paulussen HoGent – Departement Vertaalkunde Prof. Dr. Willy Vandeweghe Dra. Lieve Macken