Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdDavid Verbeke Laatst gewijzigd meer dan 10 jaar geleden
1
CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven ineke.schuurman@ccl.kuleuven.be Studiedag ICT in de Humane Wetenschappen Leuven 27-03-2009
2
Conference Place yyyy-mm-dd www.clarin.eu CLARIN? ESFRI-project European Strategy Forum on Research Infrastructures The ESFRI Roadmap identifies new Research Infrastructure (RI) of pan-European interest corresponding to the long term needs of the European research communities, covering all scientific areas, regardless of possible location. Eerste roadmap (2006): 34 projecten gehonoreerd, waaronder …
3
Conference Place yyyy-mm-dd www.clarin.eu Over CLARIN Social Science & Humanities CLARIN (Common LAnguage Resources and technology INitiative) www.mpi.nl/clarin plus CESSDA-PPP (Council of European Social Science Data Archives) www.nsd.uib.no/cessda DARIAH (DigitAl Research Infrastructure for the Arts and Humanities) www.dariah.eu ESSPrep (The European Social Survey) www.europeansocialsurvey.org SHARE-PREP (Survey of Health, Ageing and Retirement in Europe) www.share-project.org
4
Conference Place yyyy-mm-dd www.clarin.eu Doel CLARIN Doel: Het beschikbaar maken van tools en resources uit de taal- en spraaktechnologie (TST) voor alle onderzoekers in de humane en sociale wetenschappen (HSW), i.e. voor iedereen die onderzoek doet waarin taal (geschreven, gesproken, multi-mediaal) centraal staat. Dekking: Alle talen die in de betrokken Europese landen worden gesproken en/of bestudeerd (±100)
5
Conference Place yyyy-mm-dd www.clarin.eu CLARIN (looptijd) Looptijd CLARIN:01-01-2008 -- … 1.Voorbereidingsfase2008-2010 2.Constructiefase2011-2014 3.Exploitatiefase2015-… 1e fase: Europese + nationale fondsen 2e en 3e fase: enkel nationale fondsen Naast Europees CLARIN-project ook vele nationale CLARIN- projecten
6
Conference Place yyyy-mm-dd www.clarin.eu CLARIN (opzet) Pan-Europees project meeste lidstaten EU zijn betrokken Partners en leden Partners: ‘Europese’ luik (32 in 22 landen) Leden: nationale luiken (119 (151) in 32 landen) Voor België: partner en nationaal coördinator: K.U.Leuven (CCL) leden: ESAT, itec, LIIR (Leuven), CNTS (Antwerpen), ELIS, LT3 (Gent), ETRO (Brussel) Nationale fondsen: EWI (dus Vlaanderen, niet België)
7
Conference Place yyyy-mm-dd www.clarin.eu CLARIN schematisch Alle landen betrokken bij CLARIN-EU, maar niet alle officieel in even grote mate CLARIN-EU CLARIN- nat.1 CLARIN-nat13 CLARIN-nat 22 CLARIN-nat 30
8
Conference Place yyyy-mm-dd www.clarin.eu CLARIN inventarisatie Eén van de taken in de eerste fase: Inventarisatie: welke tools en resources zijn voorhanden voor de verschillende talen (specifiek voor die talen, of ‘taalneutraal’) Stand 25-03-2009: 768 resources (woordenboeken, treebanks, corpora, …), monolinguaal en multilinguaal 132 tools (tokenizers, parsers, spraakherkenners, …) Nuttig, maar slechts één (klein) onderdeel van het bouwen van een onderzoeksinfrastructuur !! VRAAG: Hoe maak je dit alles bereikbaar en bruikbaar ?
9
Conference Place yyyy-mm-dd www.clarin.eu CLARIN voorbereidingsfase Hoe-vraag (techniek) Hoe maak je dit alles bereikbaar en bruikbaar voor niet- TST’ers? Wat-vraag (kruisbestuiving TST – HSW) Hoe maak je dit alles interessant en bruikbaar voor HSW’ers? Waar is behoefte aan? Mogelijkheid om laatste te achterhalen: Door samen aan de slag te gaan. Probleem: geen CLARIN-EU -fondsen hiervoor
10
Conference Place yyyy-mm-dd www.clarin.eu CLARIN: behoefte? Waar is behoefte aan? En vooral: Bestaat er al behoefte? E-science duikt meer en meer op: Uitrusting voor nodig (tools en resources) Aangepaste opleiding Momenteel nog ‘ver van m’n bed’ voor veel onderzoekers Moeilijk voor hen te bepalen wat ze willen/nodig hebben Probleem: hoe kom je met alle HSW-onderzoekers in contact? Alle hulp welkom!
11
Conference Place yyyy-mm-dd www.clarin.eu CLARIN: behoefte? Eén duidelijke behoefte tekent zich al af: veel meer digitale, machine-readable, teksten, vooral ook (iets) oudere teksten van Vlaamse oorsprong
12
Conference Place yyyy-mm-dd www.clarin.eu ClARIN meer technisch Vraag: hoe stel je alles ter beschikking aan de HSW’er? Van ‘Redt u zich maar’ naar ‘Alsjeblieft!’ Hoe vind je wat je zoekt? Hoe werkt het? Mag je er wel mee werken? ‘Maar toen ik het vorige week gebruikte kreeg ik andere resultaten’
13
Conference Place yyyy-mm-dd www.clarin.eu CLARIN: (infra)structuur
14
Conference Place yyyy-mm-dd www.clarin.eu CLARIN Centra Ideaal: alles bijeen Realiteit: zal nooit lukken, bv omdat landen hun ‘cultureel erfgoed’ niet uit handen willen geven Dus: per land één of meer centra waar tools en resources worden beheerd (vgl TST-centrale). Alle centra werken nauw samen waardoor gebruiker niet merkt dat hij met meerdere centra te maken heeft.
15
Conference Place yyyy-mm-dd www.clarin.eu CLARIN centra Verschillende typen (5) centra in infrastructuur: Sommige heel centraal, met *gegarandeerd* lange levensduur Andere bieden bv alleen eigen spullen aan, of zijn geen lid van CLARIN (maar bieden wel dingen aan die voor CLARIN essentieel zijn) Gebruiker ziet enkel de ‘buitenkant’, hij wordt niet vermoeid met interne organisatie
16
Conference Place yyyy-mm-dd www.clarin.eu CLARIN: trust domain Elke gebruiker krijgt één ‘identiteit’ (toegekend door bv de universiteit) Tussen de identity provider en service provider worden afspraken vastgelegd over rechten en plichten Gebruiker kan ongestoord z’n gang gaan zonder zich steeds opnieuw aan allerlei administratieve details te moeten storen Gebruiker kan virtuele collectie bouwen van spullen op verschillende plaatsen (want toegang etc is al geregeld)
17
Conference Place yyyy-mm-dd www.clarin.eu CLARIN: Persistent IDentifier service Essentieel: stabiele referenties – Voor gebruiker (bv in artikel) – Voor CLARIN zelf Klassieke URL’s niet stabiel genoeg CLARIN: gebruiker vermeldt PID, wanneer je daarop klikt kom je via een PID-service terecht bij bv het bedoelde paper. Er wordt dus met een ‘tussenstation’ gewerkt. Alleen daar hoeven veranderingen in URL’s bijgehouden te worden. Deze taak wordt uitgevoerd door een centrum met gegarandeerd lange levensduur!
18
Conference Place yyyy-mm-dd www.clarin.eu CLARIN: concept registry service Praktijk: iedereen defineert begrippen vanuit eigen taal, theoretische achtergrond Die begrippen moeten worden gerelateerd aan geregistreerde definities om interacties mogelijk te maken Gebaseerd op ISOcat, TC3/SC4, ISO 12620
19
Conference Place yyyy-mm-dd www.clarin.eu CLARIN: Component Metadata Tools en resources moeten zo beschreven worden dat ze ‘opspoorbaar’ zijn (mens en machine!) Er kan een profiel worden gemaakt en bijgehouden voor gebruiker, om hem te helpen bij zoektocht Idem voor bepaalde subdomeinen (sign language, virtual reality, specch generation’,…)
20
Conference Place yyyy-mm-dd www.clarin.eu CLARIN: virtual collection ‘virtuele collecties’ (met bv elementen van verschillende herkomst, domeinen) kunnen worden geconsolideerd, en krijgen dan bv een identity (metadata, pid) Kan voor een bepaalde gebruiker, of voor een bredere groep Voor interoperabiliteit zijn mogelijk bv wrappers nodig
21
Conference Place yyyy-mm-dd www.clarin.eu CLARIN: long term preservation Tools: kort bestaan Resources: moeten blijvend ter beschikking staan: – vensters op culturen en talen – ‘Reproduceerbaarheid’ van onderzoek inhoud ( Eindhoven corpus!) ‘vorm’ (drager, archief) Essentieel onderdeel CLARIN!
22
Conference Place yyyy-mm-dd www.clarin.eu CLARIN: standaarden, best practice CLARIN is op zoek naar standaarden en ‘best practice’ (SBP) op velerlei gebied Leidraad voor nieuwe tools, resources Aanpassingen aan oude Leidraad voor wrappers. ‘transfer regels’, etc Om te komen tot
23
Conference Place yyyy-mm-dd www.clarin.eu
24
Conference Place yyyy-mm-dd www.clarin.eu CLARIN: juridisch IPR e.d. moet op Europees niveau worden geregeld, nu zijn er vele verschillende nationale regelingen, waarvan implicaties niet steeds duidelijk te overzien zijn. Los daarvan nog hele resem andere problemen: Wat is bv de status van een spraakcorpus in een Afrikaanse taal waarvan de mensen die het materiaal hebben verschaft en toestemming voor gebruik hebben gegeven, de conse- quenties niet kunnen overzien (omdat ze niet vertrouwd zijn met ICT)? Waar CLARIN-EU uitgaat van IPR e.d. voor onderzoek, wil Vlaanderen het graag wat meer open trekken. Wat zijn daarvan de implicaties?
25
Conference Place yyyy-mm-dd www.clarin.eu CLARIN en governance 2e en 3e fase CLARIN: enkel nationale fondsen Die moeten dus worden verzekerd !!! Voor het Nederlands: deels bi-nationaal? Wat zijn de voors en de tegens? Dragen nationale overheden ook bij aan de kosten van de grote, centrale centra in andere landen? Waarom wel/niet? Wat zijn de consequenties? En wat als bepaalde BLARK-tools en resources ontbreken voor een bepaalde taal? Wat behoort voor HSW tot zo’n BLARK? (BLARK: Basic LAnguage Resources tool Kit)
26
Contact: Ineke Schuurman http: //www.ccl.kuleuven.be/CLARIN CLARIN has received funding from the European Community's Seventh Framework Programme under grant agreement n° 212230 CLARIN-Vlaanderen wordt gefinancierd door Department Economie, Wetenschap en Innovatie van de Vlaamse Gemeenschap
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.