De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Dutch Parallel Corpus Multilinguaal & multifunctioneel

Verwante presentaties


Presentatie over: "Dutch Parallel Corpus Multilinguaal & multifunctioneel"— Transcript van de presentatie:

1 Dutch Parallel Corpus Multilinguaal & multifunctioneel
Lieve Macken Hogeschool Gent

2 Dutch Parallel Corpus Parallel corpus 10 miljoen woorden
Teksten + vertaling Gealigneerd op zinsniveau 10 miljoen woorden Nederlands – Engels / Nederlands - Frans Kwalitatief Compatibel met Corpus Geschreven Nederlands

3 Voorgeschiedenis Departement Vertaalkunde Hogeschool Gent
CALL-onderzoeksgroep KU Leuven – Campus Kortrijk Parallel corpus als didactisch hulpmiddel Parallel corpus als vertaalhulpmiddel

4 Gebruikers en toepassingen
Vertaalhulpmiddel (CAT) Automatische vertaling Meertalige terminologie-extractie Didactisch hulpmiddel (CALL) DPC Meertalige informatie-extractie Vertaalwetenschappen Contrastieve taalkunde

5 Automatische vertaling
Training- en testmateriaal voor corpus-gebaseerde MT Example Based MT Statistical MT P. Khoen 2005: 110 SMT-systemen getraind op Europarl-corpus Voorbeeld uitvoer Fins-Engels: we know very well that the current treaties are not enough and that in future , it is necessary to develop a better structure for the union and , therefore perustuslaillisempi structure , which also expressed more clearly what the member states and the union is concerned .

6 Terminologie-extractie
Screenshot van Multiterm Extract (Trados)

7 Vertaalhulpmiddel Hulpmiddel tijdens vertaalproces
Bij zoektocht naar meest geschikte term, woord, stijl, idiomatisch taalgebruik, ... Aanvulling op bilinguale woordenboeken Uitbreiding op monolinguaal ‘googelen’ Woorden in context Voorbeeld: TransSearch (Canadian Hansards) Simard & Macklovitch 2005 TransSearch: gebruikers zijn vooral professionele vertalers (En-Fr) Vertaalafdeling van Canadese overheid Tienduizenden queries/maand

8 CorpusCall Computerondersteund talenonderwijs Woorden in context
Leeractiviteiten Referentiemateriaal Woorden in context Authentiek materiaal in leertaal Ondersteuning in moedertaal Voorbeeld Nederlex Leesomgeving voor Franstalige studenten Ontwikkeling leesomgeving: FUNDP, Namur Compilatie parallel corpus: REBECA project (K.U.Leuven Campus Kortrijk) Vertaalcorpora ook nuttig in didactische context Voorbereiding leeractiviteiten, tijdens leeractiviteiten

9 Nederlex Franstaligge studenten die Nederlands leren
Nederlandse teksten op web lezen Info vragen over woorden die ze niet begrijpen Geen woordenboek, maar parallelle KWIC-index op LEMMA ?? Wat gebeurt er als woord niet gevonden wordt in corpus? Meer context opvragen via klikken op zin

10 Vertaalwetenschappen
Studie van het vertaalproduct Vertaaluniversalia en translationese Vertaalproces Parallelle en vergelijkbare corpora Engelse en Franse teksten Nederlandse teksten Nederlandse vertalingen Engelse en Franse vertalingen Vertaalwetenschappen = discipline die zich bezig houdt met studie van vertalingen en vertaalde teksten. Eén van de onderzoeksvragen is of er universele tendensen waar te nemen zijn (vertaaluniversalia of negatief translationese) Methodologie: kijk naar vertaalproduct en vergelijkt vertaalde teksten met niet-vertaalde teksten in dezelfde taal of met bronteksten Andere onderzoeksvragen hebben meer betrekking tot vertaalproces (welke vertaalstrategieën) ahv vertaalproduct

11 Verschillende gebruikers …
Taaltechnologische toepassingen Automatische vertaling / terminologie-extractie Andere NLP-toepassingen (bijv. WSD) Training- en testmateriaal Menselijke gebruikers Vertaalhulpmiddel / didactisch hulpmiddel Concordantieprogramma’s Aanvulling bilinguale woordenboeken Fundamenteel Onderzoek Vertaalwetenschap / contrastieve taalkunde Parallel en vergelijkbaar corpus Verschillende types gebruikers

12 … stellen verschillende eisen
Samenstelling Corpus Metadata Taalkundige annotatie Kwaliteitsvereisten Corpusontsluiting Verschillende eisen betreffende verschillende aspecten van het corpus

13 Samenstelling Corpus letterlijk Brontekstgericht Non-Fictie
Doeltaalgericht Fictie vrij Automatische vertaling Vertaalhulpmiddel Terminologie-extractie Didactisch hulpmiddel Onderscheid letterlijke en vrije vertalingen eeuwenoud letterlijke vertalingen: Brontekstgericht Blijven dicht bij vormen van brontekst Vrije vertalingen: doeltaalgericht Meer natuurlijke taalgebruik van doeltaal, meer idiomatische uitdrukkingen, etc.

14 Samenstelling corpus /2
Fictie Non-fictie Essayistische teksten Journalistieke teksten Zakelijke teksten Technische teksten Ambtelijke teksten Categorieën voorzien in DPC-project

15 Metadata Vertaalrichting Vertaalmodaliteiten
Engels → Nederlands vs. Nederlands → Engels Vertaalmodaliteiten Menselijke vertaling, CAT, MT Directe vs. indirecte vertalingen Indirect via Engels (vb. Europarl) Afhankelijk van type gebruker: minder of meer strenge eisen aan vertalingen. Stengste eisen vertaalwetenschappen (vertaalproces): Vertaalrichting: onmisbaar voor vertaalwetenschappen (onderscheid tussen vertaald vs. niet-vertaalde teksten Directe vertalingen Vertaalmodaliteiten Voor andere toepassingen minder cruciaal

16 Taalkundige annotatie
Basiselementen Paragrafen, zinnen, woorden Taalkundige verrijking Lemma Woordsoort Syntactische structuren Iedere toepassing: woorden/woorgroepen + zinnen wil extraheren Sommige toepassingen meer context nodig (bijv. menselijke gebruikers in didactische toepassingen + vertaalhulpmiddel) Extra taalkundige verrijkeing (lemma & woorsoort) wenselijk

17 Kwaliteitsvereisten Verschillende niveaus Kwaliteitslabel
Volledig manuele verificatie Manuele steekproeven Automatische controleprocedures Kwaliteitslabel Hoge kwaliteitsvereisten qua alignatie en annotatie voor menselijke gebruikers Niet zo cruciaal voor corpusgebaseerde taaltechnologische toepassingen (vaak statistische filter ingebouwd; wordt gefilterd op basis van frequentie)

18 Corpusontsluiting Webinterface Volledige teksten Gebruiksvriendelijk
Beperkte technische know-how bij taaldocenten & vertalers Volledige teksten Lerende systemen (data-driven automatic learning) Statistische MT Webinterface: queries vs. XML data – volledige teksten

19 Corpus Geschreven Nederlands
Compatibiliteit Corpus Geschreven Nederlands Codering metadata PoS tagger - Belangrijk voor gebruiker - Samenwerking corpus geschreven Nederlands (ook met Stevin-geld)

20 Gebruikerscommissie Geconsulteerd bij belangrijke ontwerpbeslissingen
Industriële partners Computer-assisted language learning Vertaaldiensten Terminologie-extractie Informatie-extractie Academische partners Taaltechnologie Vertaalwetenschappen Contrastieve taalkunde Hoe gaan we rekening houden met verschillende gebruikers? vaste gebrukerscommissie samengesteld Wordt geconsulteerd bij elke belangrijke ontwerpstap Zeer binnenkort: samenstelling van het corpus

21 Kernteam KULeuven – Campus Kortrijk HoGent – Departement Vertaalkunde
Prof. Dr. Piet Desmet Dr. Hans Paulussen HoGent – Departement Vertaalkunde Prof. Dr. Willy Vandeweghe Dra. Lieve Macken


Download ppt "Dutch Parallel Corpus Multilinguaal & multifunctioneel"

Verwante presentaties


Ads door Google