ELRC-Workshop in Den Haag, Nederland, 19.04.2016 Languages and Language Technologies Wat voor Data zijn Nodig? Waarom? Carole Tiberius (Instituut voor.

Slides:



Advertisements
Verwante presentaties
Verwijs naar je bronnen
Advertisements

Requirements -People are able to make their own memorial page, called a memori -The website will be build first in Dutch for extension.nl, then copied.
Deltion College Engels C1 Gesprekken voeren [Edu/002]/ subvaardigheid lezen thema: Order, order…. can-do : kan een bijeenkomst voorzitten © Anne Beeker.
ETHOS PROJECT: PROGRESS Follow-up & feedback end of year 1.
User Centred Development
A16 Aanmaken en communiceren van glossarium Composer un glossaire et le communiquer Comité consultatif : BPR van het Federaal Agentschap voor.
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
Delivering Value for Less A cceleration C enter for E ngagements Templates Oubollig of Agile Maurice Siteur ACE Service Manager Testing.
Deltion College Engels B2 Spreken/presentaties/subvaardigheid lezen [Edu/003] thema: Holland – coffee shops and euthanasia? can-do : kan een duidelijk.
Deltion College Engels B1 Lezen [no. 001] can-do : 2 products compared.
Safety Minute - february 2015
Deltion College Engels B1 Gesprekken voeren [Edu/008] theme: ‘I have to arrest you, you’ve stolen my heart’ … can-do : kan een eenvoudig face-to-face gesprek.
 Monsieur Ibrahim la fin  Trientsje - présentation  Voyages unité 7  Unité 7 p. 54/55  San Francisco Chanson Aujourd’hui nous sommes le 4 février.
Deltion College Engels B1 Schrijven [Edu/003] thema: what have I done wrong…? can-do : kan s/ brieven schrijven over persoonlijke zaken © Anne Beeker.
Deltion College Engels B1 Gesprekken voeren [Edu/006] thema: Look, it says ‘No smoking’… can-do : kan minder routinematige zaken regelen © Anne Beeker.
Deltion College Engels B2 Schrijven [Edu/006] thema: Euromail can-do : kan in persoonlijke s nieuws en standpunten van een ander becommentariëren.
Deltion College Engels C1 Spreken/Presentaties [Edu/004] thema ‘Today I will talk to you about… ‘ can-do : kan duidelijke, gedetailleerde beschrijving.
Deltion College Engels C1 Spreken [Edu/002] thema: A book that deserves to be read can-do : kan duidelijke, gedetailleerde samenvatting geven van een gelezen.
Deltion College Engels B2 Gesprekken voeren [Edu/005]/subvaardigheid luisteren thema: ‘Pink pop and air-controllers on strike’ can-do : kan in een telefoongesprek.
Overzicht modellen / Résumé des Modèles Cloud vs On-Premise Model/ModèleOn-Premise (client/server) HybrideCloud (Full Cloud) Oplossing ter plaatse bij.
Informatievaardigheden Feedback BPE Marja Maclaine Pont Bibliotheek Wageningen UR 30 september 2010.
Deltion College Engels B1 En Spreken/Presentaties [Edu/006] Thema: “The radio station“ can-do : kan een publiek toespreken, kan verzonnen gebeurtenissen.
Deltion College Engels B1 Schrijven [Edu/006] thema: to a prisoner – Amnesty International can-do : kan korte tekst schrijven volgens een vast format ©
Deltion College Engels C1 Schrijven [Edu/006] thema: Dear editor,
Nothing Is As It Seems Lesson 7 What’s the Story?.
Deltion College Engels B2 Lezen [Edu/003] thema: Topical News Lessons: The Onestop Magazine can-do: kan artikelen en rapporten begrijpen die gaan over.
Deltion College Engels B2 Spreken [Edu/001] thema: What’s in the news? can-do : kan verslag doen van een gebeurtenis en daarbij meningen met argumenten.
Informatievaardigheden Feedback BPE Marja Maclaine Pont Bibliotheek Wageningen UR 29 september 2011.
Deltion College Engels B1 Spreken [Edu/001] thema: song texts can-do : kan een onderwerp dat mij interesseert op een redelijk vlotte manier beschrijven.
Deltion College Engels C1 Gesprekken voeren [Edu/001]/ subvaardigheid lezen thema: What a blooper…. can-do : kan taal flexibel en effectief gebruiken voor.
Deltion College Engels B2 Lezen[Edu/001] /subvaardigheid schrijven korte samenvattingen thema: Exotic news can-do : lezen om informatie op te doen - kan.
Deltion College Engels B2 Gesprekken voeren [Edu/009] thema: ‘We’d better go to…’ can-do : kan in vertrouwde situaties actief meedoen aan discussies over.
Deltion College Engels B2 Schrijven [Edu/005] thema: Writing a hand-out can-do: kan een begrijpelijke samenvatting schrijven © Anne Beeker Alle rechten.
Deltion College Engels B2 Schrijven [Edu/002] thema: how we celebrate birthdays can-do : kan een samenhangend verhaal schrijven.
Deltion College Engels B1 En Spreken/Presentaties [Edu/003]/ Subvaardigheid lezen Thema: Once upon a time… can-do : kan een verhaal(tje) vertellen © Anne.
Deltion College Engels B1 Lezen [Edu/002] thema: But I ‘ve read it in… can-do : kan hoofdthema en belangrijkste argumenten begrijpen van eenvoudige teksten.
Deltion College Engels B2 Gesprekken voeren [Edu/007] thema: ‘With this mobile you can…’ can-do : kan op betrouwbare wijze gedetailleerde informatie doorgeven.
Algebra met Inzicht Bijeenkomst 11 december 2009.
Deltion College Engels B2 (telefoon)gesprekken voeren[Edu/002] /subvaardigheid lezen/schrijven thema: I am so sorry for you… can-do : kan medeleven betuigen.
Deltion College Engels C1 Lezen [Edu/002]/ subvaardigheid schrijven thema: Hwaet! (Old) English literature can-do: kan snel belangrijke detailinformatie.
Creating local Europeana related networks Europeana taskforce Hans van der Linden 17/4/15.
GegevensAnalyse Les 2: Bouwstenen en bouwen. CUSTOMER: The Entity Class and Two Entity Instances.
Mavo 4.  Goal(s)  Letter Puzzle  Write a letter  Check the letters  Do assignments 4A, 5A, 6A & 7 in Student Book page 50  Evaluation.
1 KPN Mobiel – Introductie Repository Object Browser & Designer 10 Designer 10g & Repository Object Browser Maandag 28 februari 2005 Lucas Jellema (AMIS)
EPALE Vlaanderen INFOSESSIE Europese subsidieprogramma’s 27 oktober 2015 Gent With the support of the Erasmus+ Programme of the European Union.
Lamb to the Slaughter Who or what is ‘the Lamb to the Slaughter’ in this story?
De lidwoorden Kleine woorden met grote gevolgen!! Welke ken je? (ne en fa du)
29 / 30 March /20 Business English Werkboek B1 Sector Administratie N3-4 Unit 8.
1 functie Presentation TEEB-stad tool The value of green infrastructure in cities Lian Merkx Platform31.
The Research Process: the first steps to start your reseach project. Graduation Preparation
Prof. dr. Fons Coomans UNESCO Chair ‘Human Rights and Peace’
Les 4 havo Leesvaardigheistraining;
Key Process Indicator Sonja de Bruin
De milieuprioriteiten van het Pools Voorzitterschap Les priorités environnementales pour la présidence polonaise Marie-Hélène LAHAYE (Cabinet Huytebroeck)-
Processing Structured Hypermedia
SDI from a technological perspective: Architecture
Werkwijze Hoe zullen we als groep docenten te werk gaan?
Tool WB-1: Natuurwetenschappen in de beroepspraktijk
Today: Chapter 2 Discuss SO 2 What to study for your test?
<Typ titel via Beeld, Koptekst en voettekst, Koptekst>
Analyse du Semestre européen Analyse van het Europees Semester 2018
Expeditie Doppio – Expédition Doppio
A National Strategy for Public Libraries in the Netherlands
Assignment: calling for a meeting about internet use at work
Agro Data Cube: Big Data faciliteit voor open innovatie
Meaning maning by public leaders in times of crisis
Mixed-Signal Design Engineer
DE NAYER INSTITUUT Hogeschool voor Wetenschap & Kunst
Leerlingen zeiden: “Je MOET hem loslaten
Transcript van de presentatie:

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Wat voor Data zijn Nodig? Waarom? Carole Tiberius (Instituut voor de Nederlandse Taal) 1

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Voornaamste benadering: data-driven paradigma  MT systemen leren aan de hand van bestaande data  Focus voor ELRC: Data in alle talen (EU/CEF) Taalbronnen komen uit:  Documenten & data  Van belang dat u ons helpt met de data die u heeft of waar u van weet Welke soort data? Vertalingen 2

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Alles dat “woorden” bevat, voorkeur voor “zinnen”, zelfs voor zinnen in meerdere talen, e.g. –Rapporten, –Speeches, –Inhoud op webpagina’s, –Brochures, etc. “woordenverzamelingen”, “zinnen”, meerdere verzamelingen Wat telt als Data voor MT? 3

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Welke soorten data? Vertalingen 4

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Welke soort data? Parallele tekst 5

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Welke soort data? Parallele tekst 6

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Welke soort data? Parallele tekst 7 Dutch Parallel Corpus

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Welke soort data? Parallele tekst 8

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Alignering op zinsniveau 9

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Welke soort data? Parallele teksten 10 Dutch Parallel Corpus

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Welke soort data? “Gealigneerde” Vertalingen 11

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Vergelijkbare Collecties 12 Bron: Eerste zinnen van de artikelen over Telecommunicatie van de Engelse, Griekse en Spaanse Wikipedias English Τelecommunication occurs when the exchange of information between two or more entities (communication) includes the use of technology. Communication technology uses channels to transmit information (as electrical signals), either over a physical medium (such as signal cables), or in the form of electromagnetic waves. The word is often used in its plural form, telecommunications, because it involves many different technologies. Greek Με τον γενικό όρο τηλεπικοινωνίες, (telecommunications), χαρακτηρίζεται η κάθε μορφής ενσύρματη ή ασύρματη, ηλεκτρομαγνητική, ηλεκτρική, κ.λπ., ακουστική και οπτική επικοινωνία που πραγματοποιείται ανεξαρτήτως απόστασης. Στους σύγχρονους καιρούς, αυτή η διαδικασία σχεδόν πάντα περιλαμβάνει την αποστολή ηλεκτρομαγνητικών κυμάτων ή ηλεκτρικών σημάτων από κατάλληλες ηλεκτρονικές συσκευές, όπως το τηλέφωνο ή ο ασύρματος, αλλά παλαιότερα περιελάμβανε τη χρήση ακουστικών σημάτων, όπως τυμπάνων, ή οπτικών, όπως ο σηματοφόρος καπνός ή η λάμψη της φωτιάς. Spanish Una telecomunicación es toda transmisión y recepción de señales de cualquier naturaleza, típicamente electromagnéticas, que contengan signos, sonidos, imágenes o, en definitiva, cualquier tipo de información que se desee comunicar a cierta distancia. Por metonimia, también se denomina telecomunicación (o telecomunicaciones, indistintamente) a la disciplina que estudia, diseña, desarrolla y explota aquellos sistemas que permiten dichas comunicaciones; de forma análoga, la ingeniería de telecomunicaciones resuelve los problemas técnicos asociados a esta disciplina.

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Woordenboeken / Terminologieën /Ontologieën 13 IDFRESEL 6905abandon scolaireabandono escolarδιακοπή της σχολικής φοίτησης 920abatsdespojoπαραπροϊόντα σφαγίων 1857abattage d'animauxsacrificio de animalesσφαγή ζώων 6621abrogationderogaciónκατάργηση 5075AbruzzesAbruzosΑβρουζία 5339absentéismeabsentismo συστηματική απουσία από την εργασία 5984abstentionnismeabstencionismoαποχή 2abus de confianceabuso de confianzaαπιστία 96abus de droitabuso de derechoκατάχρηση δικαιώματος 186abus de pouvoirabuso de poderκατάχρηση εξουσίας 280accès à l'éducationacceso a la educaciónπρόσβαση στην εκπαίδευση 372accès à l'emploiacceso al empleoπρόσβαση στην αγορά εργασίας cornetto.inl.nl

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Anything that contains “words”, preferences for “sentences”, even for sentences expressed in multiple languages Examples: reports, speeches, web pages, brochures, etc. Bags of “words”, “sentences”, multiple bags –Especially documents or parts of them with their translations in one or more languages 14 Engels Frans Welke soort data? Vertalingen

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Waar is de data te vinden? Digitale Wereld 15

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Welk formaat ? Digitale tekstdata 16

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Gedocumenteerde Data (Metadata) 17 Dublin Core Metadata Element Set 1.Titel 2.Maker 3.Onderwerp 4.Omschrijving 5.Uitgever 6.Bijdrager 7.Datum 8.Type 9.Formaat 10.Identificatiecode 11.Bron 12.Taal 13.Relatie 14.Dekking 15.Rechten

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Hoe worden taalbronnen (Language Resources) gemaakt uit de data 18

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Wat is een 'schone' pagina? 19 Red: unwanted boilerplate; Yellow: Captions (titles, sub-titles, headings, etc.); Green: wanted running text. (Stemle & Evert 2015)

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Van Data naar Language Resource 20

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Automatisering van het proces kan resulteren in zgn. Taalbronnenproductiefabriek We beginnen het liefst vanuit Digitaal materiaal –OCR kan overwogen worden voor talen met minder digitaal materiaal Een simpele voorbeeld Een Taalbronnenfabriek 21

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Behandeling van Tweetalige Data Voorbeeld (1/4) 22 Word docs from Financements innovants pour l’agriculture, la sécurité alimentaire et la nutrition, Ministère des Affaires étrangères et du Développement internationalhttp:// Engelse versie Franse versie

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Behandeling van Tweetalige Data Voorbeeld (1/4) 23 Leading Group on Innovative Financing for Development at its 9th plenary session in Mali (Bamako) in June report rapport Groupe pilote sur les finance- ments innovants pour le développement lors de sa 9e session plénière, qui s’est tenue au Mali (Bamako) en juin rapport report Comité d’experts expert Com- mittee

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Behandeling van Tweetalige Data Voorbeeld (3/4) 24 Executive Summary This report is the result of a collective work carried out by the high-level expert Committee and a writing team commissioned by the Task Force on Innovative Financing for agriculture, food security and nutrition created by the Leading Group on Innovative Financing for Development at its 9th plenary session in Mali (Bamako) in June The report includes an analysis of the need for innovating financing dedicated to the agricultural, food security and nutrition sector, a critical review of existing and possible mechanisms and a proposed selection of avenues for the development of such mechanisms on the basis of the expertise of a high- level Committee of experts, literature review, meetings with relevant profes­sional actors and an on- line consultation on the Global Forum on food security and nutrition (FSN Forum)1. The setting up of the Task Force on Innovative Financing for agriculture, food security and nutri­tion responds to current and future crucial challenges faced by the international community [...] Résumé Le présent rapport résulte d’un travail collectif mené par le Comité d’experts de haut niveau et une équipe de rédacteurs désignés à cette fin par le groupe de travail sur les financements innovants pour l’agriculture, la sécurité alimentaire et la nutrition. Ce groupe de travail a été créé par le Groupe pilote sur les financements innovants pour le développement lors de sa 9e session plénière, qui s'est tenue au Mali (Bamako) en juin Le présent rapport comporte une analyse des raisons pour lesquelles des financements innovants dédiés à l'agriculture, à la sécurité alimentaire et à la nutrition sont nécessaires, propose un examen critique des mécanismes existants et possibles, et présente une sélection de méthodes pour mettre au point ces mécanismes. Il s'appuie à ces fins sur l'expertise du Comité d'experts de haut niveau, une analyse bibliographique, des réunions avec les professionnels concernés et la consultation en ligne organisée par le Forum global sur la sécurité alimentaire et la nutrition (Forum FSN)1. Le groupe de travail sur les financements innovants pour l’agriculture, la sécurité alimentaire et la nutrition a été créé pour relever les défis majeurs, actuels et futurs, auxquels la communauté [...] Engelse versie – Ruwe tekst Franse versie – Ruwe tekst

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies S1. Résumé S2. Le présent rapport résulte d’un travail collectif mené par le Comité d’experts de haut niveau et une équipe de rédacteurs désignés à cette fin par le groupe de travail sur les financements innovants pour l’agriculture, la sécurité alimentaire et la nutrition. S3. Ce groupe de travail a été créé par le Groupe pilote sur les financements innovants pour le développement lors de sa 9e session plénière, qui s'est tenue au Mali (Bamako) en juin S4. Le présent rapport comporte une analyse des raisons pour lesquelles des financements innovants dédiés à l'agriculture, à la sécurité alimentaire et à la nutrition sont nécessaires, propose un examen critique des mécanismes existants et possibles, et présente une sélection de méthodes pour mettre au point ces mécanismes. S5. Il s'appuie à ces fins sur l'expertise du Comité d'experts de haut niveau, une analyse bibliographique, des réunions avec les professionnels concernés et la consultation en ligne organisée par le Forum global sur la sécurité alimentaire et la nutrition (Forum FSN)1. S6. Le groupe de travail sur les financements innovants pour l’agriculture, la sécurité alimentaire et la nutrition a été créé pour relever les défis majeurs, actuels et futurs, auxquels la communauté [...] Behandeling van Tweetalige Data Voorbeeld (4/4) 25 S1. Executive Summary S2. This report is the result of a collective work carried out by the high-level expert Committee and a writing team commissioned by the Task Force on Innovative Financing for agriculture, food security and nutrition created by the Leading Group on Innovative Financing for Development at its 9th plenary session in Mali (Bamako) in June S3. The report includes an analysis of the need for innovating financing dedicated to the agricultural, food security and nutrition sector, a critical review of existing and possible mechanisms and a proposed selection of avenues for the development of such mechanisms on the basis of the expertise of a high- level Committee of experts, literature review, meetings with relevant profes­sional actors and an on- line consultation on the Global Forum on food security and nutrition (FSN Forum)1. S4. The setting up of the Task Force on Innovative Financing for agriculture, food security and nutri­tion responds to current and future crucial challenges faced by the international community [...] Afstemming van Engelse en Franse versies

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Voorbeeld: Handelingen van de Tweede Kamer 26

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Van Data naar Language Resource 27

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Van Data naar Language Resource 28

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies ILSP Gerichte Crawler Onderzoeksprototype voor verwerven van algemene of domein-specifieke een- en tweetalige corpora Input: Domeindefinities (terminologie) Zaai-URLs Modules (open-source libraries/toolkits): –Pagina ophalen/Tekstextractie –Normalisatie en Metadata -extractie –Standaardtekst Detectie (Boilerpipe) –Taaldetectie (d > 50 talen ) –Tekstclassificatie –Exacte en benaderde ontdubbeling –Detectie van parallelle documenten –zinsalignering (onder andere Hunalign) Genereert lijsten met –documentparen endocumentparen –segmentparen in TMX bestandensegmentparen 29

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Dit proces kan een taalbronnenproductiefabriek (automatisering van de procedure) worden met uw steun (Verzamel alle documenten, rapporten, bestanden, etc.) 30

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Zichtbare versus bestaande data 31

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Onze bijdrage … Deep web 32

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Zulke documenten bestaan al; –In documentatiecentra (vertaalde rapporten, folders, brochures, speeches, webpagina’s, etc.) –Bij de Language Service Providers (LSP), aan wie de vertalingen worden uitbesteed Help ons bij het identificeren en onderhouden van contact met beide bronnen – (zie Panel interactie) Een beter alternatief 33

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Uw betrokkenheid is essentieel dus laten we alstublieft samenwerken 34 BRING YOUR OWN TaalBronnen Lever uw eigen Taalbronnen AAN BRING YOUR OWN Language Resources

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Uw betrokkenheid is essentieel dus laten we alstublieft samenwerken 35

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies 36

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies 37  Hoe kunt u helpen data te uploaden  Bekijk hiervoor de informatie op de REPOSITORY setup  Hoeveel data is nodig?

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies 38 Aantal tekstpagina’s/miljoen woorden Een algemeen gebruikt maatsysteem (kwaliteitsbeoordeling)

ELRC-Workshop in Den Haag, Nederland, Languages and Language Technologies Hoe wordt data geproduceerd: herbestemmen en herverpakken van bestaande data Waarom belangrijk: het data-driven paradigma is zeer efficiënt We moeten de waarde van onze bronnen niet onderschatten Hoe kunt u bijdragen aan en profiteren van CEF.AT? –(volgende sessies) CONCLUSIES 39