CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Studiedag ICT in de.

Slides:



Advertisements
Verwante presentaties
Wilt u meer weten over Regelhulp.nl? Kijk op of stuur een naar
Advertisements

Lindenhout gaat 2.0, jij ook?
Wilt u meer weten over Regelhulp.nl? Kijk op of stuur een naar
Sudoku puzzels: hoe los je ze op en hoe maak je ze?
Het Forum Hoe ga je te werk met het forum?
“Digitaal delen is het nieuwe hebben” 9 vragen over de toekomst van overheidsinformatie ICTU Café 11 februari 2014.
Impact van EU-regels op aanbieders betaaldiensten Simon Lelieveldt.
Woensdag 29 september 2004 Open Source Software en Open Standaarden bij de overheid Van Doorne 2004 Harry van Zon, ministerie BZK, IIOS.
Ontwikkeling van het Netwerk Naamkunde
Masterproef DGK
Hoofd Afdeling Digitale Biblitheekvoorzieningen
DRIVER België: op weg naar samenwerking KBR - 19/11/2007 Karen Van Godtsenhoven.
Online leerplatform voor het Nederlands als pluricentrische taal Dit project werd gefinancierd met de steun van de Europese Commissie. ('Grant Agreement'-nr.:
Aandachtspunten voor een jeugdtraining
E-RADEN Roadmap. AGENDA • Overzicht van nieuwe ontwikkelingen 2009 • Interfaces • Document Types : Meta-data • E-raden gratis ? • Perspectieven.
INITIATIECURSUS COMPUTER EN INTERNET VOOR ONTHAALOUDERS.
Dienstencatalogus 24 november Programma Wat is een productencatalogus Alle componenten op een rij – De generieke informatie – De specifieke informatie.
The CAF Procedure voor externe feedback
Welkom 1 aan het bestuur en de leden van OXO aan alle (plus)ouders en (plus)grootouders aan alle aanwezigen.
C-DSD: Curating the Dutch Song Database (Nederlandse Liederenbank) C-DSD Martine de Bruin.
DARE Wetenschappelijke communicatie in beweging Werkgemeenschap Informatiewetenschappen, 27 februari 2004 Lilian van der Vaart.
Hoofdstuk 5. par 5 Help! De wereld krimpt!
CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator.
Vakliteratuur opzoeken Lieve Devos. LibriSource+ Nieuw portaal voor toegang tot elektronische bronnen Gemeenschappelijk platform.
DigiHist Oude teksten, moderne technologie: Geleerdenbrievenproject In eke Schuurman (K.U.Leuven) ism Jan Odijk (U.Utrecht)
CLARIN: een introductie Ineke Schuurman Coördinator CLARIN-Vlaanderen.
Onderzoeksmethodologie HRM Dr. Sophie De Winne 03/ (Lessius) 016/ (K.U.Leuven) 27 september Onderzoeksmethodologie.
Een strakke workflow als hulpmiddel voor online samenwerking. Jikke de Groot Universiteitsbibliotheek/ Universiteit Utrecht Sector Innovatie & Ontwikkeling.
 Opdracht van de federale overheid  Georganiseerd door het OCMW  Dit in iedere stad  Gemeubelde woning  Basisbehoeften  OCMW zorgt ook voor sociale.
Eerst je Bachelor, dan een baan,... en dan pas een Master Jan Bransen Onderwijsdag 2007.
Onderzoeksdata in de Bibliotheek: Tijd voor een nieuw Informatie-specialisme? Ervaringen uit de praktijk Rob Grim Research Data Specialist/e-Science Coordinator.
Sneeuwschuivers en leren sneeuwschuiven myResearch Portal en het belang van workflow data analyse Richard L. Zijdeman DAI: info:eu-repo/dai/nl/
Wet inburgering Heleen Veringa
23 mei 2007JEMH van Bronswijk, Technische Universiteit Eindhoven 1 Harmonie of conflict? Wetenschappelijke kring Tilburg Leeftijdsbestendig wonen prof.dr.
Introductie/Agenda 1 Cor Verbaas 1.Business Analist. 2.Werkzaam bij AEP sinds juni Verantwoordelijk voor de business applicaties binnen AEP. 4.MFGPro.
Oudere software op een nieuwe PC De andere manier is het gebruik van virtual p.c. Het gebruik van virtual pc heeft als voor/nadeel het standaard operatings-
Digitalisering Digitale duurzaamheid Hans Jansen 11 december 2008.
Datasets, verrijkte publicaties …en de rol van DANS 1Maarten Hoogerwerf, , NVB.
Waarom een standaard Een norm of standaard is een procedure of een maat waarvan een groep mensen met elkaar heeft afgesproken dat ze hem zullen gebruiken.
Cijfers over o.a. Europa Hans de Ruiter Gent, 19 november 2010.
Digitale duurzaamheid: (ook) een kwestie van organiseren Inge Angevaare, coördinator Nationale Coalitie Digitale Duurzaamheid DEN conferentie - 10 december.
Het UNESCO Charter en de Guidelines for the Preservation of the Digital Heritage na 8 jaar 4 november 2011, Naar een toekomstvaste AV-collectie NL.
Log InGuest. Username Password New account Agenda Docu- ments Themes Search Contact De European Researsch Network on Learning to Write Effectively is.
Data Maarten Terpstra en Peter le Clerq. 1.Wij denken dat bedrijven in toenemende mate data gebruiken voor toepassingen in marketing, sales, service,
19 juni 2008 PRESERVERING Van beleid naar praktijk.
.NET-productiviteit verhogen met een gepast gebruikt van lambda's en F# TETRA project proposal 2015.
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Hans BennisMeertens Instituut (KNAW)
Personeelsessie LOKO.
Mijn Ogen.
Connecting the world. Het logistieke netwerk. D-Street Consultancy.
CENTER-TBI has received funding from the European Union Seventh Framework Programme (FP7/ ) under grant agreement n° PERSCONFERENTIE 20 LANDEN.
Aardrijkskunde Hoofdstuk 2 – les 3.
Gemakkelijker onderzoekend leren in de klas dankzij de online leermiddelenbank van Scientix.
SKILLS KWARTAAL 4 Kwartaal 4 les 1. Indeling kwartaal 4 WeekInhoud les Week 1Canvas business model en oefenen Week 2Theorie over schrijven technisch paper.
Taal- en Spraaktechnologie (TST) voor het Nederlands: Status 2015 Jan Odijk (UU) Taalcongres Brussel, 10 oktober
EPALE Vlaanderen INFOSESSIE Europese subsidieprogramma’s 14 januari 2016 Brugge Boeverbos With the support of the Erasmus+ Programme of the European Union.
EPALE Vlaanderen INFOSESSIE Europese subsidieprogramma’s 27 oktober 2015 Gent With the support of the Erasmus+ Programme of the European Union.
De tijd is rijp voor Open Cultuur Data Door: Tom Kunzler Studiemiddag Archieven en Open Data (29 oktober 2015)
EPALE With the support of the Erasmus+ Programme of the European Union Wat? Voor wie? Waar? Waarom? Hoe? En jullie?
VLIR - EQUAL Projectvoorstel - Deel II - 1 maart EQUAL VLIR – Gelijke Kansenproject HRM-instrumentarium voor gelijke kansen aan universiteiten “Equality.
Communicatie na rampen en terreur. Internationale good practices.
Onderzoekend leren in de natuurwetenschappen
Tool WF-1: Docenten natuurwetenschappen en carrièreadvies
Tool IJ-3: De potentie van OL om essentiële vaardigheden te bevorderen
Samen de psychische gezondheid in Nederland verbeteren
HR in tijden van GDPR/AVG – 6 februari 2018 – VAC Gent
Tool IE-1: Het verkennen van onderzoeksopdrachten en -activiteiten
Studiereis Schotland/Edinburgh
Onderzoekend leren in de natuurwetenschappen
Transcript van de presentatie:

CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Studiedag ICT in de Humane Wetenschappen Leuven

Conference Place yyyy-mm-dd CLARIN?  ESFRI-project  European Strategy Forum on Research Infrastructures The ESFRI Roadmap identifies new Research Infrastructure (RI) of pan-European interest corresponding to the long term needs of the European research communities, covering all scientific areas, regardless of possible location.  Eerste roadmap (2006): 34 projecten gehonoreerd, waaronder …

Conference Place yyyy-mm-dd Over CLARIN Social Science & Humanities  CLARIN (Common LAnguage Resources and technology INitiative) plus  CESSDA-PPP (Council of European Social Science Data Archives)  DARIAH (DigitAl Research Infrastructure for the Arts and Humanities)  ESSPrep (The European Social Survey)  SHARE-PREP (Survey of Health, Ageing and Retirement in Europe)

Conference Place yyyy-mm-dd Doel CLARIN Doel: Het beschikbaar maken van tools en resources uit de taal- en spraaktechnologie (TST) voor alle onderzoekers in de humane en sociale wetenschappen (HSW), i.e. voor iedereen die onderzoek doet waarin taal (geschreven, gesproken, multi-mediaal) centraal staat. Dekking: Alle talen die in de betrokken Europese landen worden gesproken en/of bestudeerd (±100)

Conference Place yyyy-mm-dd CLARIN (looptijd) Looptijd CLARIN: … 1.Voorbereidingsfase Constructiefase Exploitatiefase2015-… 1e fase: Europese + nationale fondsen 2e en 3e fase: enkel nationale fondsen Naast Europees CLARIN-project ook vele nationale CLARIN- projecten

Conference Place yyyy-mm-dd CLARIN (opzet) Pan-Europees project  meeste lidstaten EU zijn betrokken  Partners en leden  Partners: ‘Europese’ luik (32 in 22 landen)  Leden: nationale luiken (119 (151) in 32 landen) Voor België:  partner en nationaal coördinator: K.U.Leuven (CCL)  leden: ESAT, itec, LIIR (Leuven), CNTS (Antwerpen), ELIS, LT3 (Gent), ETRO (Brussel) Nationale fondsen: EWI (dus Vlaanderen, niet België)

Conference Place yyyy-mm-dd CLARIN schematisch  Alle landen betrokken bij CLARIN-EU, maar niet alle  officieel  in even grote mate CLARIN-EU CLARIN- nat.1 CLARIN-nat13 CLARIN-nat 22 CLARIN-nat 30

Conference Place yyyy-mm-dd CLARIN inventarisatie Eén van de taken in de eerste fase:  Inventarisatie: welke tools en resources zijn voorhanden voor de verschillende talen (specifiek voor die talen, of ‘taalneutraal’)  Stand :  768 resources (woordenboeken, treebanks, corpora, …), monolinguaal en multilinguaal  132 tools (tokenizers, parsers, spraakherkenners, …) Nuttig, maar slechts één (klein) onderdeel van het bouwen van een onderzoeksinfrastructuur !! VRAAG: Hoe maak je dit alles bereikbaar en bruikbaar ?

Conference Place yyyy-mm-dd CLARIN voorbereidingsfase Hoe-vraag (techniek)  Hoe maak je dit alles bereikbaar en bruikbaar voor niet- TST’ers? Wat-vraag (kruisbestuiving TST – HSW)  Hoe maak je dit alles interessant en bruikbaar voor HSW’ers? Waar is behoefte aan? Mogelijkheid om laatste te achterhalen: Door samen aan de slag te gaan. Probleem: geen CLARIN-EU -fondsen hiervoor

Conference Place yyyy-mm-dd CLARIN: behoefte?  Waar is behoefte aan?  En vooral: Bestaat er al behoefte? E-science duikt meer en meer op:  Uitrusting voor nodig (tools en resources)  Aangepaste opleiding  Momenteel nog ‘ver van m’n bed’ voor veel onderzoekers Moeilijk voor hen te bepalen wat ze willen/nodig hebben  Probleem: hoe kom je met alle HSW-onderzoekers in contact? Alle hulp welkom!

Conference Place yyyy-mm-dd CLARIN: behoefte? Eén duidelijke behoefte tekent zich al af: veel meer digitale, machine-readable, teksten, vooral ook (iets) oudere teksten van Vlaamse oorsprong

Conference Place yyyy-mm-dd ClARIN meer technisch Vraag: hoe stel je alles ter beschikking aan de HSW’er? Van ‘Redt u zich maar’ naar ‘Alsjeblieft!’  Hoe vind je wat je zoekt?  Hoe werkt het?  Mag je er wel mee werken?  ‘Maar toen ik het vorige week gebruikte kreeg ik andere resultaten’

Conference Place yyyy-mm-dd CLARIN: (infra)structuur

Conference Place yyyy-mm-dd CLARIN Centra  Ideaal: alles bijeen  Realiteit: zal nooit lukken, bv omdat landen hun ‘cultureel erfgoed’ niet uit handen willen geven  Dus: per land één of meer centra waar tools en resources worden beheerd (vgl TST-centrale). Alle centra werken nauw samen waardoor gebruiker niet merkt dat hij met meerdere centra te maken heeft.

Conference Place yyyy-mm-dd CLARIN centra Verschillende typen (5) centra in infrastructuur: Sommige heel centraal, met *gegarandeerd* lange levensduur Andere bieden bv alleen eigen spullen aan, of zijn geen lid van CLARIN (maar bieden wel dingen aan die voor CLARIN essentieel zijn) Gebruiker ziet enkel de ‘buitenkant’, hij wordt niet vermoeid met interne organisatie

Conference Place yyyy-mm-dd CLARIN: trust domain Elke gebruiker krijgt één ‘identiteit’ (toegekend door bv de universiteit) Tussen de identity provider en service provider worden afspraken vastgelegd over rechten en plichten Gebruiker kan ongestoord z’n gang gaan zonder zich steeds opnieuw aan allerlei administratieve details te moeten storen Gebruiker kan virtuele collectie bouwen van spullen op verschillende plaatsen (want toegang etc is al geregeld)

Conference Place yyyy-mm-dd CLARIN: Persistent IDentifier service Essentieel: stabiele referenties – Voor gebruiker (bv in artikel) – Voor CLARIN zelf Klassieke URL’s niet stabiel genoeg CLARIN: gebruiker vermeldt PID, wanneer je daarop klikt kom je via een PID-service terecht bij bv het bedoelde paper. Er wordt dus met een ‘tussenstation’ gewerkt. Alleen daar hoeven veranderingen in URL’s bijgehouden te worden. Deze taak wordt uitgevoerd door een centrum met gegarandeerd lange levensduur!

Conference Place yyyy-mm-dd CLARIN: concept registry service Praktijk: iedereen defineert begrippen vanuit eigen taal, theoretische achtergrond Die begrippen moeten worden gerelateerd aan geregistreerde definities om interacties mogelijk te maken Gebaseerd op ISOcat, TC3/SC4, ISO 12620

Conference Place yyyy-mm-dd CLARIN: Component Metadata Tools en resources moeten zo beschreven worden dat ze ‘opspoorbaar’ zijn (mens en machine!) Er kan een profiel worden gemaakt en bijgehouden voor gebruiker, om hem te helpen bij zoektocht Idem voor bepaalde subdomeinen (sign language, virtual reality, specch generation’,…)

Conference Place yyyy-mm-dd CLARIN: virtual collection ‘virtuele collecties’ (met bv elementen van verschillende herkomst, domeinen) kunnen worden geconsolideerd, en krijgen dan bv een identity (metadata, pid) Kan voor een bepaalde gebruiker, of voor een bredere groep Voor interoperabiliteit zijn mogelijk bv wrappers nodig

Conference Place yyyy-mm-dd CLARIN: long term preservation Tools: kort bestaan Resources: moeten blijvend ter beschikking staan: – vensters op culturen en talen – ‘Reproduceerbaarheid’ van onderzoek inhoud ( Eindhoven corpus!) ‘vorm’ (drager, archief) Essentieel onderdeel CLARIN!

Conference Place yyyy-mm-dd CLARIN: standaarden, best practice CLARIN is op zoek naar standaarden en ‘best practice’ (SBP) op velerlei gebied Leidraad voor nieuwe tools, resources Aanpassingen aan oude Leidraad voor wrappers. ‘transfer regels’, etc Om te komen tot

Conference Place yyyy-mm-dd

Conference Place yyyy-mm-dd CLARIN: juridisch  IPR e.d. moet op Europees niveau worden geregeld, nu zijn er vele verschillende nationale regelingen, waarvan implicaties niet steeds duidelijk te overzien zijn.  Los daarvan nog hele resem andere problemen:  Wat is bv de status van een spraakcorpus in een Afrikaanse taal waarvan de mensen die het materiaal hebben verschaft en toestemming voor gebruik hebben gegeven, de conse- quenties niet kunnen overzien (omdat ze niet vertrouwd zijn met ICT)?  Waar CLARIN-EU uitgaat van IPR e.d. voor onderzoek, wil Vlaanderen het graag wat meer open trekken. Wat zijn daarvan de implicaties?

Conference Place yyyy-mm-dd CLARIN en governance  2e en 3e fase CLARIN: enkel nationale fondsen  Die moeten dus worden verzekerd !!!  Voor het Nederlands: deels bi-nationaal? Wat zijn de voors en de tegens?  Dragen nationale overheden ook bij aan de kosten van de grote, centrale centra in andere landen? Waarom wel/niet? Wat zijn de consequenties?  En wat als bepaalde BLARK-tools en resources ontbreken voor een bepaalde taal? Wat behoort voor HSW tot zo’n BLARK? (BLARK: Basic LAnguage Resources tool Kit)

Contact: Ineke Schuurman http: // CLARIN has received funding from the European Community's Seventh Framework Programme under grant agreement n° CLARIN-Vlaanderen wordt gefinancierd door Department Economie, Wetenschap en Innovatie van de Vlaamse Gemeenschap