De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Studiedag ICT in de.

Verwante presentaties


Presentatie over: "CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Studiedag ICT in de."— Transcript van de presentatie:

1 CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Studiedag ICT in de Humane Wetenschappen Leuven

2 Conference Place yyyy-mm-dd CLARIN?  ESFRI-project  European Strategy Forum on Research Infrastructures The ESFRI Roadmap identifies new Research Infrastructure (RI) of pan-European interest corresponding to the long term needs of the European research communities, covering all scientific areas, regardless of possible location.  Eerste roadmap (2006): 34 projecten gehonoreerd, waaronder …

3 Conference Place yyyy-mm-dd Over CLARIN Social Science & Humanities  CLARIN (Common LAnguage Resources and technology INitiative) plus  CESSDA-PPP (Council of European Social Science Data Archives)  DARIAH (DigitAl Research Infrastructure for the Arts and Humanities)  ESSPrep (The European Social Survey)  SHARE-PREP (Survey of Health, Ageing and Retirement in Europe)

4 Conference Place yyyy-mm-dd Doel CLARIN Doel: Het beschikbaar maken van tools en resources uit de taal- en spraaktechnologie (TST) voor alle onderzoekers in de humane en sociale wetenschappen (HSW), i.e. voor iedereen die onderzoek doet waarin taal (geschreven, gesproken, multi-mediaal) centraal staat. Dekking: Alle talen die in de betrokken Europese landen worden gesproken en/of bestudeerd (±100)

5 Conference Place yyyy-mm-dd CLARIN (looptijd) Looptijd CLARIN: … 1.Voorbereidingsfase Constructiefase Exploitatiefase2015-… 1e fase: Europese + nationale fondsen 2e en 3e fase: enkel nationale fondsen Naast Europees CLARIN-project ook vele nationale CLARIN- projecten

6 Conference Place yyyy-mm-dd CLARIN (opzet) Pan-Europees project  meeste lidstaten EU zijn betrokken  Partners en leden  Partners: ‘Europese’ luik (32 in 22 landen)  Leden: nationale luiken (119 (151) in 32 landen) Voor België:  partner en nationaal coördinator: K.U.Leuven (CCL)  leden: ESAT, itec, LIIR (Leuven), CNTS (Antwerpen), ELIS, LT3 (Gent), ETRO (Brussel) Nationale fondsen: EWI (dus Vlaanderen, niet België)

7 Conference Place yyyy-mm-dd CLARIN schematisch  Alle landen betrokken bij CLARIN-EU, maar niet alle  officieel  in even grote mate CLARIN-EU CLARIN- nat.1 CLARIN-nat13 CLARIN-nat 22 CLARIN-nat 30

8 Conference Place yyyy-mm-dd CLARIN inventarisatie Eén van de taken in de eerste fase:  Inventarisatie: welke tools en resources zijn voorhanden voor de verschillende talen (specifiek voor die talen, of ‘taalneutraal’)  Stand :  768 resources (woordenboeken, treebanks, corpora, …), monolinguaal en multilinguaal  132 tools (tokenizers, parsers, spraakherkenners, …) Nuttig, maar slechts één (klein) onderdeel van het bouwen van een onderzoeksinfrastructuur !! VRAAG: Hoe maak je dit alles bereikbaar en bruikbaar ?

9 Conference Place yyyy-mm-dd CLARIN voorbereidingsfase Hoe-vraag (techniek)  Hoe maak je dit alles bereikbaar en bruikbaar voor niet- TST’ers? Wat-vraag (kruisbestuiving TST – HSW)  Hoe maak je dit alles interessant en bruikbaar voor HSW’ers? Waar is behoefte aan? Mogelijkheid om laatste te achterhalen: Door samen aan de slag te gaan. Probleem: geen CLARIN-EU -fondsen hiervoor

10 Conference Place yyyy-mm-dd CLARIN: behoefte?  Waar is behoefte aan?  En vooral: Bestaat er al behoefte? E-science duikt meer en meer op:  Uitrusting voor nodig (tools en resources)  Aangepaste opleiding  Momenteel nog ‘ver van m’n bed’ voor veel onderzoekers Moeilijk voor hen te bepalen wat ze willen/nodig hebben  Probleem: hoe kom je met alle HSW-onderzoekers in contact? Alle hulp welkom!

11 Conference Place yyyy-mm-dd CLARIN: behoefte? Eén duidelijke behoefte tekent zich al af: veel meer digitale, machine-readable, teksten, vooral ook (iets) oudere teksten van Vlaamse oorsprong

12 Conference Place yyyy-mm-dd ClARIN meer technisch Vraag: hoe stel je alles ter beschikking aan de HSW’er? Van ‘Redt u zich maar’ naar ‘Alsjeblieft!’  Hoe vind je wat je zoekt?  Hoe werkt het?  Mag je er wel mee werken?  ‘Maar toen ik het vorige week gebruikte kreeg ik andere resultaten’

13 Conference Place yyyy-mm-dd CLARIN: (infra)structuur

14 Conference Place yyyy-mm-dd CLARIN Centra  Ideaal: alles bijeen  Realiteit: zal nooit lukken, bv omdat landen hun ‘cultureel erfgoed’ niet uit handen willen geven  Dus: per land één of meer centra waar tools en resources worden beheerd (vgl TST-centrale). Alle centra werken nauw samen waardoor gebruiker niet merkt dat hij met meerdere centra te maken heeft.

15 Conference Place yyyy-mm-dd CLARIN centra Verschillende typen (5) centra in infrastructuur: Sommige heel centraal, met *gegarandeerd* lange levensduur Andere bieden bv alleen eigen spullen aan, of zijn geen lid van CLARIN (maar bieden wel dingen aan die voor CLARIN essentieel zijn) Gebruiker ziet enkel de ‘buitenkant’, hij wordt niet vermoeid met interne organisatie

16 Conference Place yyyy-mm-dd CLARIN: trust domain Elke gebruiker krijgt één ‘identiteit’ (toegekend door bv de universiteit) Tussen de identity provider en service provider worden afspraken vastgelegd over rechten en plichten Gebruiker kan ongestoord z’n gang gaan zonder zich steeds opnieuw aan allerlei administratieve details te moeten storen Gebruiker kan virtuele collectie bouwen van spullen op verschillende plaatsen (want toegang etc is al geregeld)

17 Conference Place yyyy-mm-dd CLARIN: Persistent IDentifier service Essentieel: stabiele referenties – Voor gebruiker (bv in artikel) – Voor CLARIN zelf Klassieke URL’s niet stabiel genoeg CLARIN: gebruiker vermeldt PID, wanneer je daarop klikt kom je via een PID-service terecht bij bv het bedoelde paper. Er wordt dus met een ‘tussenstation’ gewerkt. Alleen daar hoeven veranderingen in URL’s bijgehouden te worden. Deze taak wordt uitgevoerd door een centrum met gegarandeerd lange levensduur!

18 Conference Place yyyy-mm-dd CLARIN: concept registry service Praktijk: iedereen defineert begrippen vanuit eigen taal, theoretische achtergrond Die begrippen moeten worden gerelateerd aan geregistreerde definities om interacties mogelijk te maken Gebaseerd op ISOcat, TC3/SC4, ISO 12620

19 Conference Place yyyy-mm-dd CLARIN: Component Metadata Tools en resources moeten zo beschreven worden dat ze ‘opspoorbaar’ zijn (mens en machine!) Er kan een profiel worden gemaakt en bijgehouden voor gebruiker, om hem te helpen bij zoektocht Idem voor bepaalde subdomeinen (sign language, virtual reality, specch generation’,…)

20 Conference Place yyyy-mm-dd CLARIN: virtual collection ‘virtuele collecties’ (met bv elementen van verschillende herkomst, domeinen) kunnen worden geconsolideerd, en krijgen dan bv een identity (metadata, pid) Kan voor een bepaalde gebruiker, of voor een bredere groep Voor interoperabiliteit zijn mogelijk bv wrappers nodig

21 Conference Place yyyy-mm-dd CLARIN: long term preservation Tools: kort bestaan Resources: moeten blijvend ter beschikking staan: – vensters op culturen en talen – ‘Reproduceerbaarheid’ van onderzoek inhoud ( Eindhoven corpus!) ‘vorm’ (drager, archief) Essentieel onderdeel CLARIN!

22 Conference Place yyyy-mm-dd CLARIN: standaarden, best practice CLARIN is op zoek naar standaarden en ‘best practice’ (SBP) op velerlei gebied Leidraad voor nieuwe tools, resources Aanpassingen aan oude Leidraad voor wrappers. ‘transfer regels’, etc Om te komen tot

23 Conference Place yyyy-mm-dd

24 Conference Place yyyy-mm-dd CLARIN: juridisch  IPR e.d. moet op Europees niveau worden geregeld, nu zijn er vele verschillende nationale regelingen, waarvan implicaties niet steeds duidelijk te overzien zijn.  Los daarvan nog hele resem andere problemen:  Wat is bv de status van een spraakcorpus in een Afrikaanse taal waarvan de mensen die het materiaal hebben verschaft en toestemming voor gebruik hebben gegeven, de conse- quenties niet kunnen overzien (omdat ze niet vertrouwd zijn met ICT)?  Waar CLARIN-EU uitgaat van IPR e.d. voor onderzoek, wil Vlaanderen het graag wat meer open trekken. Wat zijn daarvan de implicaties?

25 Conference Place yyyy-mm-dd CLARIN en governance  2e en 3e fase CLARIN: enkel nationale fondsen  Die moeten dus worden verzekerd !!!  Voor het Nederlands: deels bi-nationaal? Wat zijn de voors en de tegens?  Dragen nationale overheden ook bij aan de kosten van de grote, centrale centra in andere landen? Waarom wel/niet? Wat zijn de consequenties?  En wat als bepaalde BLARK-tools en resources ontbreken voor een bepaalde taal? Wat behoort voor HSW tot zo’n BLARK? (BLARK: Basic LAnguage Resources tool Kit)

26 Contact: Ineke Schuurman http: //www.ccl.kuleuven.be/CLARIN CLARIN has received funding from the European Community's Seventh Framework Programme under grant agreement n° CLARIN-Vlaanderen wordt gefinancierd door Department Economie, Wetenschap en Innovatie van de Vlaamse Gemeenschap


Download ppt "CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Studiedag ICT in de."

Verwante presentaties


Ads door Google