CLARIN: een introductie Ineke Schuurman Coördinator CLARIN-Vlaanderen
2 Doel van CLARIN? WAT? Infrastructuur –digitale ‘resources’ (+ ‘tools’) VOOR WIE? Onderzoekers in de humane en sociale wetenschappen. WANNEER? voorbereiding constructie 2016-….. beschikbaar
3 Doel van CLARIN? WAAROM? Steeds meer digitale bronnen Leveren tal van (onvermoede) mogelijkheden voor onderzoek Moeten goed beheerd worden (en gedocumenteerd en toegankelijk gemaakt en opspoorbaar en ……..) → infrastructuur !
4 Probleemstelling Veel data in digitale archieven zijn’talig’ Enkel bekend bij een beperkt publiek Archieven staan op zich Elk archief hanteert eigen standaarden (opslag, metadata) Bevat vaak enkel gewone files (tekst, audio, video) SSH onderzoekers zijn geen taal- en/of spraaktechnologen Vaak zijn deze onderzoekers zich niet bewust van de mogelijkheden van TST in hun domein De beschikbare tools zijn niet altijd even gemakkelijk te gebruiken.
5 De CLARIN missie Wat: Creëren van een infrastructuur die resources en tools uit de wereld van de taal- en spraaktechnologie (TST) beschikbaar maakt voor andere wetenschappers Hoe: Virtueel samen- brengen van be- staande digitale archieven, toegan- kelijk via het web Ter beschikking stellen van TST-tools in de vorm van web- services die bv bewerkingen uit- voeren op data in de archieven.
6 Waarom Europees? Ieder (land) voor zich –te gefragmenteerd –lage zichtbaarheid –geen samenwerking –continuïteit niet gegarandeerd Nodige expertise is voorhanden, maar niet in elk land Taalonafhankelijke tools kunnen worden ‘gedeeld’ Taalafhankelijke tools kunnen vaak worden aangepast Financieel aantrekkelijker
7 Over CLARIN Europa CLARIN consortium: 22 partners (…, CCL, …) CLARIN community: 148 leden in 32 landen ( ) Vlaanderen CLIF: CCL Leuven CNTS Antwerpen ELIS Gent ESAT Leuven itec Kortrijk ETRO Brussel LIIR Leuven LT3 Gent
8 4-dimensionele aanpak gedurende eerste fase : ontwerp Techniek Hoe kan het? Talen Wat is er? Gebruiker Wat wil men? Overheden, IPR Wat kan/mag er?
9 Talen Alle talen die in de bij CLARIN betrokken landen worden gesproken en/of bestudeerd worden afgedekt Geen focus op ‘grote’ talen Er wordt een BLARK (Basic Language Resources Toolkit) gedefinieerd voor al deze talen Voor implementatie zijn fondsen van derden nodig
10 Wat is er al? (stand 02-09) Algemeen : Resources: 689 Tools: 119 Nederlands: Resources: 80 Tools: 5 Duits: Resources: 41 Tools: 5 Taalonafhankelijk Tools: 25
11 Gebruiker Onderzoek op gebied van “talige informatie” CLARIN: “Weten WIJ wat zij willen?” “Weten ZIJ wat ze zouden (kunnen) willen?” -corpusonderzoek -topic detection -neerslag in versch kranten van ‘Europees’ topic -Vergelijken van vertalingen van bepaald boek -…
12 Wensen? Vlaamse corpora met (ook) oudere teksten (“vorige spelling”) Meer digitale bronnen … Laat ons jullie noden en wensen weten!