Dutch Parallel Corpus Multilinguaal & multifunctioneel

Slides:



Advertisements
Verwante presentaties
REBELS: Race and Ethnicity Based Education; Local Solutions
Advertisements

1 Facilitating Online Learning Conversations Exploring tool affordances in higher education Jakko van der Pol IVLOS, UU/ Onderwijscentrum VU.
Zoeken in het Nederlands: toepassingen voor ontwikkeling en beheer van thesauri Dennis de Vries.
Toledo en de resultaten van het onderzoek door IBM Wim Machiels.
Accessible Instructional Materials. § Discussion: Timely access to appropriate and accessible instructional materials is an inherent component.
“Projectmanagement in het hoger onderwijs”
Katrien Depuydt Track 3: Historische lexicondata.
Informeel leren en….. social media
Taalbeleid op school: in de leer bij Brussel?
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
….. en met Han van Ruler.
Stefan Kolgen – C.H.I.P.S. vzw 1. “ Web 2.0 is the business revolution in the computer industry caused by the move to the internet as platform, and an.
Dutch Parallel Corpus Een multilinguaal & multifunctioneel corpus Accenta 2007 Donderdag 20 september.
LEESVAARDIGHEID Tips & Tricks.
Math-Bridge een internationale wiskunde-brug tussen VO en HO ook voor informatica studenten Johan Jeuring, Josje Lodder Open Universiteit Nederland.
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
Ellips en het Digitalenklasconsortium Alessandra Corda (Universiteit Leiden) 2 december 2003.
Workshop DigiTalenKlas 21 januari 2002 Suggesties voor het gebruik van een DLO in het talenonderwijs Alessandra Corda ICT&O coördinator Faculteit der Letteren.
Grammar Chapter 3 – G3 One en Ones.
Audiovisuele middelen (en andere media) in BRICKS Biology
1 Challenge the future Placement Test Engels. 2 Challenge the future Situatie op de TU: ITAV Instituut voor Talen en Academische Vaardigheden 7 docenten.
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Hans BennisMeertens Instituut (KNAW)
Deltion College Engels A2 Gesprekken voeren [Edu/006]
Deltion College Engels B1 Gesprekken voeren [Edu/006] thema: Look, it says ‘No smoking’… can-do : kan minder routinematige zaken regelen © Anne Beeker.
1 The Legal Concepts and the Layman’s Terms Bridging the Gap through Ontology-Based Reasoning about Liability Ronny van Laarschot, Wouter van Steenbergen,
Deltion College Engels A1 Gesprekken voeren [Edu/003] thema: A rainy day…. can-do : kan eenvoudige informatie geven over het weer © Anne Beeker Alle rechten.
Deltion College Engels B2 Spreken [Edu/001] thema: What’s in the news? can-do : kan verslag doen van een gebeurtenis en daarbij meningen met argumenten.
Master in de Meertalige Professionele Communicatie Visualization of agreement and discussion processes during computer-supported collaborative learning.
Deltion College Engels B2 Schrijven [Edu/005] thema: Writing a hand-out can-do: kan een begrijpelijke samenvatting schrijven © Anne Beeker Alle rechten.
APP Platform Rivium, 5 maart 2013 Rik Vietsch.
Deltion College Engels B2 Schrijven [Edu/002] thema: how we celebrate birthdays can-do : kan een samenhangend verhaal schrijven.
Karel Vlieghe - Utrecht 29 januari 2005 Veranderscenario’s voor e-Learning systemen Evolutie van e-Learning systemen door de jaren heen.
Juridische taalcursussen UCT  Welke talen en voor wie?  Doelstellingen  Thema´s  Organisatorische details.
Deltion College Engels B2 (telefoon)gesprekken voeren[Edu/002] /subvaardigheid lezen/schrijven thema: I am so sorry for you… can-do : kan medeleven betuigen.
Deltion College Engels A1 Lezen/ Schrijven [Edu/001] thema: you’ve got mail can-do : kan korte, eenvoudige berichten begrijpen/ kan een korte mededeling.
Kom, ga met ons mee Come, go with us. ‘Wij vertrekken nu naar het land dat de Heer ons beloofd heeft. Ga met ons mee! Je zult het goed hebben bij ons.
MTAS Multi Tier Annotation Search
Flexible Learning in European Retail Presentatie 5 de Meeting in Ceske Budejovice.
STUDIE NEDERLANDS dr. habil. Marketa Štefková Comenius Universiteit Bratislava, Slowakije De beste keuze van mijn leven !
EPALE Vlaanderen INFOSESSIE Europese subsidieprogramma’s 14 januari 2016 Brugge Boeverbos With the support of the Erasmus+ Programme of the European Union.
EPALE Vlaanderen INFOSESSIE Europese subsidieprogramma’s 27 oktober 2015 Gent With the support of the Erasmus+ Programme of the European Union.
DOCENTENKAMER 1 APRIL 2014 MOOC´S: WAT IS HET EN WAT MOETEN WE ERMEE?
Automatisch Vertalen SMT Lieve Macken Vakgroep Vertalen, Tolken en Communicatie.
Disruption in Retailing Customer will buy differently Prof Dr Cor Molenaar RSM/ErasmusUniversity eXQuo consultancy.
ELRC Training Workshop in België, 13 april 2016 Moderator: Véronique Hoste Panel: Taal- en vertaaldata in België. Waar vinden we die? 1.
EPALE With the support of the Erasmus+ Programme of the European Union Wat? Voor wie? Waar? Waarom? Hoe? En jullie?
Tandem Project Rapport Sara Pas & Brice Limbourg.
“De geesteswetenschappelijke discipline heeft afstand genomen van haar taak om leraren op te leiden en richt zich nu ook voornamelijk op onderzoek. Geesteswetenschappen.
Smart Computer-Aided Translation Environment 31 maart 2016 Hasselt.
OPEN brainstorm.
EPALE electronic platform for adult learning in Europe
Justian Knobbout Promovendus bij het lectoraat Digital Smart Services
Taalontwikkelend lesgeven: een didactische methode voor álle docenten!
Localizing the SDGs – Brussels, 16/5/2017
WoordenlijstBeheer Terminologie centraal in de archiefsector
Sector, Firm Size and ICT investments
Woordvolgorde in Engelse bevestigende en vragende zinnen.
Dictionary Skills!?.
Werkwijze Hoe zullen we als groep docenten te werk gaan?
De taaltaak
Coherentierelaties annoteren
Syntactische Annotatie CHILDES
ACTION RESEARCH MODULE 14: COHORT 2 YEAR 3.
Zuyd Lectoraat Employability Impact van technologie en digitalisering nieuwe competenties voor werknemers Dr. Jol Stoffers Erik Canisius MSc Rik Loffeld.
Working in Europe to Connect Talent Development in Higher Education
Meaning maning by public leaders in times of crisis
Onderzoek en wetenschapsonderwijs
Leerlingen zeiden: “Je MOET hem loslaten
The Future Teacher 3.0.
KOM NAAR DE INFOSESSIE OVER INTERNATIONALE STUDENTENUITWISSELINGEN
Transcript van de presentatie:

Dutch Parallel Corpus Multilinguaal & multifunctioneel Lieve Macken Hogeschool Gent

Dutch Parallel Corpus Parallel corpus 10 miljoen woorden Teksten + vertaling Gealigneerd op zinsniveau 10 miljoen woorden Nederlands – Engels / Nederlands - Frans Kwalitatief Compatibel met Corpus Geschreven Nederlands

Voorgeschiedenis Departement Vertaalkunde Hogeschool Gent CALL-onderzoeksgroep KU Leuven – Campus Kortrijk Parallel corpus als didactisch hulpmiddel Parallel corpus als vertaalhulpmiddel

Gebruikers en toepassingen Vertaalhulpmiddel (CAT) Automatische vertaling Meertalige terminologie-extractie Didactisch hulpmiddel (CALL) DPC Meertalige informatie-extractie Vertaalwetenschappen Contrastieve taalkunde

Automatische vertaling Training- en testmateriaal voor corpus-gebaseerde MT Example Based MT Statistical MT P. Khoen 2005: 110 SMT-systemen getraind op Europarl-corpus Voorbeeld uitvoer Fins-Engels: we know very well that the current treaties are not enough and that in future , it is necessary to develop a better structure for the union and , therefore perustuslaillisempi structure , which also expressed more clearly what the member states and the union is concerned .

Terminologie-extractie Screenshot van Multiterm Extract (Trados)

Vertaalhulpmiddel Hulpmiddel tijdens vertaalproces Bij zoektocht naar meest geschikte term, woord, stijl, idiomatisch taalgebruik, ... Aanvulling op bilinguale woordenboeken Uitbreiding op monolinguaal ‘googelen’ Woorden in context Voorbeeld: TransSearch (Canadian Hansards) Simard & Macklovitch 2005 TransSearch: gebruikers zijn vooral professionele vertalers (En-Fr) Vertaalafdeling van Canadese overheid Tienduizenden queries/maand

CorpusCall Computerondersteund talenonderwijs Woorden in context Leeractiviteiten Referentiemateriaal Woorden in context Authentiek materiaal in leertaal Ondersteuning in moedertaal Voorbeeld Nederlex Leesomgeving voor Franstalige studenten Ontwikkeling leesomgeving: FUNDP, Namur Compilatie parallel corpus: REBECA project (K.U.Leuven Campus Kortrijk) Vertaalcorpora ook nuttig in didactische context Voorbereiding leeractiviteiten, tijdens leeractiviteiten

Nederlex Franstaligge studenten die Nederlands leren Nederlandse teksten op web lezen Info vragen over woorden die ze niet begrijpen Geen woordenboek, maar parallelle KWIC-index op LEMMA ?? Wat gebeurt er als woord niet gevonden wordt in corpus? Meer context opvragen via klikken op zin

Vertaalwetenschappen Studie van het vertaalproduct Vertaaluniversalia en translationese Vertaalproces Parallelle en vergelijkbare corpora Engelse en Franse teksten Nederlandse teksten Nederlandse vertalingen Engelse en Franse vertalingen Vertaalwetenschappen = discipline die zich bezig houdt met studie van vertalingen en vertaalde teksten. Eén van de onderzoeksvragen is of er universele tendensen waar te nemen zijn (vertaaluniversalia of negatief translationese) Methodologie: kijk naar vertaalproduct en vergelijkt vertaalde teksten met niet-vertaalde teksten in dezelfde taal of met bronteksten Andere onderzoeksvragen hebben meer betrekking tot vertaalproces (welke vertaalstrategieën) ahv vertaalproduct

Verschillende gebruikers … Taaltechnologische toepassingen Automatische vertaling / terminologie-extractie Andere NLP-toepassingen (bijv. WSD) Training- en testmateriaal Menselijke gebruikers Vertaalhulpmiddel / didactisch hulpmiddel Concordantieprogramma’s Aanvulling bilinguale woordenboeken Fundamenteel Onderzoek Vertaalwetenschap / contrastieve taalkunde Parallel en vergelijkbaar corpus Verschillende types gebruikers

… stellen verschillende eisen Samenstelling Corpus Metadata Taalkundige annotatie Kwaliteitsvereisten Corpusontsluiting Verschillende eisen betreffende verschillende aspecten van het corpus

Samenstelling Corpus letterlijk Brontekstgericht Non-Fictie Doeltaalgericht Fictie vrij Automatische vertaling Vertaalhulpmiddel Terminologie-extractie Didactisch hulpmiddel Onderscheid letterlijke en vrije vertalingen eeuwenoud letterlijke vertalingen: Brontekstgericht Blijven dicht bij vormen van brontekst Vrije vertalingen: doeltaalgericht Meer natuurlijke taalgebruik van doeltaal, meer idiomatische uitdrukkingen, etc.

Samenstelling corpus /2 Fictie Non-fictie Essayistische teksten Journalistieke teksten Zakelijke teksten Technische teksten Ambtelijke teksten Categorieën voorzien in DPC-project

Metadata Vertaalrichting Vertaalmodaliteiten Engels → Nederlands vs. Nederlands → Engels Vertaalmodaliteiten Menselijke vertaling, CAT, MT Directe vs. indirecte vertalingen Indirect via Engels (vb. Europarl) Afhankelijk van type gebruker: minder of meer strenge eisen aan vertalingen. Stengste eisen vertaalwetenschappen (vertaalproces): Vertaalrichting: onmisbaar voor vertaalwetenschappen (onderscheid tussen vertaald vs. niet-vertaalde teksten Directe vertalingen Vertaalmodaliteiten Voor andere toepassingen minder cruciaal

Taalkundige annotatie Basiselementen Paragrafen, zinnen, woorden Taalkundige verrijking Lemma Woordsoort Syntactische structuren Iedere toepassing: woorden/woorgroepen + zinnen wil extraheren Sommige toepassingen meer context nodig (bijv. menselijke gebruikers in didactische toepassingen + vertaalhulpmiddel) Extra taalkundige verrijkeing (lemma & woorsoort) wenselijk

Kwaliteitsvereisten Verschillende niveaus Kwaliteitslabel Volledig manuele verificatie Manuele steekproeven Automatische controleprocedures Kwaliteitslabel Hoge kwaliteitsvereisten qua alignatie en annotatie voor menselijke gebruikers Niet zo cruciaal voor corpusgebaseerde taaltechnologische toepassingen (vaak statistische filter ingebouwd; wordt gefilterd op basis van frequentie)

Corpusontsluiting Webinterface Volledige teksten Gebruiksvriendelijk Beperkte technische know-how bij taaldocenten & vertalers Volledige teksten Lerende systemen (data-driven automatic learning) Statistische MT Webinterface: queries vs. XML data – volledige teksten

Corpus Geschreven Nederlands Compatibiliteit Corpus Geschreven Nederlands Codering metadata PoS tagger - Belangrijk voor gebruiker - Samenwerking corpus geschreven Nederlands (ook met Stevin-geld)

Gebruikerscommissie Geconsulteerd bij belangrijke ontwerpbeslissingen Industriële partners Computer-assisted language learning Vertaaldiensten Terminologie-extractie Informatie-extractie Academische partners Taaltechnologie Vertaalwetenschappen Contrastieve taalkunde Hoe gaan we rekening houden met verschillende gebruikers? vaste gebrukerscommissie samengesteld Wordt geconsulteerd bij elke belangrijke ontwerpstap Zeer binnenkort: samenstelling van het corpus

Kernteam KULeuven – Campus Kortrijk HoGent – Departement Vertaalkunde Prof. Dr. Piet Desmet Dr. Hans Paulussen HoGent – Departement Vertaalkunde Prof. Dr. Willy Vandeweghe Dra. Lieve Macken