1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010.

1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010

2 Overzicht Taal- en Spraaktechnologie Geesteswetenschappers? CLARIN-NL Maximaal Open Data Standaarden Onderwijs

3 Taal- & Spraaktechnologie bieden grote mogelijkheden om grote hoeveelheden talige data waar geesteswetenschappers mee werken te ontsluiten –Spraak –Tekst

4 Taal- & Spraaktechnologie Ontsluiting audio en videobestanden mbv spraaktechnologie –Herkenning, Oplijning, indexering  doorzoekbaarheid Journaaldemos –http://hmi.ewi.utwente.nl/showcases/Broadcast-news-demohttp://hmi.ewi.utwente.nl/showcases/Broadcast-news-demo –http://hmi.ewi.utwente.nl/?page=8uurjournaal_en_kranthttp://hmi.ewi.utwente.nl/?page=8uurjournaal_en_krant Radio Oranje (NIOD) –http://niod.al-m.nl/nl/thema/10/http://niod.al-m.nl/nl/thema/10/ Buchenwald –http://www.buchenwald.nl/http://www.buchenwald.nl/ En vele andere …..

5 Taal- & Spraaktechnologie Automatisch ontleden van grote tekstbestanden + zoekfunctionaliteit –Voor taaltechnologen om de taaltechnologie te verbeteren –Voor geesteswetenschappers: empirische basis voor onderzoek Reeds gebruikt –Bij de ontwikkeling van Alpino (automatische ontleder voor het Nederlands)Alpino –Voor het automatisch opsporen van idiomatische uitdrukkingen (IRME project  DUELME databank)IRME DUELME –Voor verbeterde vraag-antwoordsystemen (IMIX)IMIX –Voor taalkundig onderzoek (Van Eynde 2009)Van Eynde 2009

6 Taal- & Spraaktechnologie Tokenisatie en opschoning van grote tekstbestanden –Opsplitsen tekstbestand in een sequentie van woordvoorkomens –Spellingscorrectie en -normalisatie –OCR-correctie TiCC (Tilburg), voor D-COI en SONAR tekstcorpora (500M woorden modern Nederlands) en i.s.m. de KBD-COISONAR

7 Taal- & Spraaktechnologie Verrijking van tekstcorpora met annotaties –Woordsoorttoekenning –Lemmatisering –Oppervlakkige ontleding (“chunking”) –Semantische annotatie (argumentrollen, locatie en tijdsbepalingen) –“named entity” recognition –Coreferentie annotatie

8 Taal- & Spraaktechnologie STEVIN:STEVIN D-COI, SONAR Al deze annotatiesD-COISONAR COREA annotatie van coreferentierelatiesCOREA LASSY syntactische ontledingLASSY DPC parallelle corpora + annotatiesDPC …

9 Taal- & Spraaktechnologie De hoeveelheid beschikbare data –is zeer groot en –zal alleen maar groeien. Uitgebreide en diepgaande analyse is alleen mogelijk met behulp van digitale taal- en spraaktechnologische technieken

10 Geesteswetenschappers? moet bruikbaar zijn voor geesteswetenschappelijke onderzoekers  de taaltechnologische tools en de data moeten naadloos op elkaar aansluiten –compatibel met elkaar qua vorm en betekenis (interoperabel zijn)  op eenvoudige wijze (zonder dat uitgebreide technische kennis noodzakelijk is)

11 Geesteswetenschappers? Vereist een gezamenlijke inspanning van –Taal- en spraaktechnologen en –Geesteswetenschappers –om tot overeenstemming te komen over de daarvoor benodigde standaarden voor formele en semantische interoperabiliteit –Om behoeftes en technische mogelijkheden op elkaar af te stemmen

12 CLARIN-NL CLARIN-NL doet precies dit! Kadert in een Europese inspanning geïnitieerd door het CLARIN voorbereidingsprojectCLARIN voorbereidingsproject Partners:Partners –Universiteiten, KNAW-instituten, (Sociale) geschiedenis instituten, Koninklijke Bibliotheek, Data Centra –Taal- en spraaktechnologen en informatici (enablers), geesteswetenschappers (gebruikers), data centra en KB (dataleveranciers/beheerders) Nauwe samenwerking met SURF, SARA, … 2009-2014 Budget: 9.01M euro

13 CLARIN-NL Specificatie, implementatie, exploitatie van een gedistribueerde technische infrastructuur voor geesteswetenschappers (IIP)IIP –CLARIN-centra (MPI, MI, INL, DANS) Gebruikersonderzoek Data en tools (webservices) beschikbaar via CLARIN portaal (initiële versie: Virtual Language Observatory)Virtual Language Observatory Data en tools vindbaar via metadata (Metadata Project)Metadata Project Data en metadata doorzoekbaar met tekstuele en structurele zoekfunctionaliteit (Search&Develop) Data en tools sluiten naadloos op elkaar aan, gebaseerd op overeengekomen standaarden en best practicesstandaarden en best practices Webservices beschikbaar in workflows (TTNWW, NL +VL)TTNWW

14 CLARIN-NL INTER-VIEWS project;INTER-VIEWS project –Datacuratie en doorzoekbaar maken van interviews met veteranen van het Veteraneninstituut AAM-LR –Tool als annotatiehulp voor (veld)linguïsten –markering van spraak/niet spraak –Markeren van verschillende sprekers

15 CLARIN-NL TTNWW (spraak)TTNWW –Opzet gebruikersvriendelijke workflow services voor indexering en doorzoekbaarheid van (een beperkte set) audio en videodata –Ten behoeve van sociaal historici (Aletta, KDC, KADOC, M2P) TICClops (Tilburg)TICClops –tekstopschoning, spellingscorrectie en – normalisatie

16 CLARIN-NL Adelheid (Nijmegen)Adelheid –tekstopschoning, woordsoorttoekenning en lemmatisering –historische Nederlandse teksten (13e eeuw) –Tbv historisch taalkundig onderzoek Geleerdenbrievenproject (CKCC) –Verrijking van “geleerdenbrieven” met syntactische en semantische annotaties –Volgens CLARIN standaarden –tbv onderzoek naar de circulatie van kennis in brieven van geleerden in NL in de 17e eeuw

17 CLARIN-NL LASSY demo:LASSY demo –Eenvoudige (‘Google-style’) zoekinterface op automatisch ontlede tekstcorpora TTNWW (tekst)TTNWW –Opzet gebruikersvriendelijke workflow services voor verrijking van tekstcorpora met annotaties –Ten behoeve van literatuurwetenschappers (Huygens) en archeologen (Salagassos)

18 CLARIN-NL Standaardisatie en integratie van taalkundige data en tools (tbv taalkundig onderzoek) –En Garde/DUELME-LMF (UU)En Garde/DUELME-LMF DUELME database van multi-word expressies –WFT-GTB (Fryske Akademy)WFT-GTB Integratie Wurdboek fan ‘e Fryske Taal met Geintegreerde Taaldatabank –ADEPT (UG)ADEPT Adaptatie edit-distance tool tbv dialect en historisch onderzoek

19 CLARIN-NL Standaardisatie en integratie van taalkundige data en tools (tbv taalkundig onderzoek) –MIMORE (MI, UU)MIMORE Microcomparative Morphosyntax Research Tool –TDS-Curator (UU)TDS-Curator Curation of the Typological Database System –TQE (RU)TQE Transcription Quality Evaluation –Sign-LinC (RU)Sign-LinC Verbindt lexicale databanken en geannoteerde corpora van gebarentalen

20 CLARIN-NL En er komen meer projecten –Nieuwe oproep te verwachten begin Juli 2010 –Samenwerking tussen beoogde gebruikers en enablers is verplicht in deze projecten De CLARIN infrastructuur kan alleen een succes worden als aan een aantal andere voorwaarden ook voldaan wordt:

21 Maximaal Open Data  in door de overheid gesubsidieerde onderzoeksprojecten moeten  onderzoeksdata,  onderzoeksresultaten  ontwikkelde tools  maximaal vrij beschikbaar gesteld worden aan de onderzoeksgemeenschap  in een omgeving die hergebruik door andere onderzoekers eenvoudig toelaat.

22 Standaarden Bestaande data en tools moeten aangepast worden aan de voorgestelde standaarden –En waar nodig ook andersom! het maken van nieuwe onderzoeksdata en tools volgens deze standaarden moet systematisch als verplicht onderdeel in onderzoeksprojecten ingebouwd worden gestimuleerd worden door universiteiten en afgedwongen worden door subsidiërende instanties, activiteiten hiervoor dienen gesubsidieerd te worden!

23 Onderwijs  Studenten en jonge onderzoekers moeten vertrouwd gemaakt worden met deze nieuwe manier van werken  door gerichte cursussen  ISOCAT tutorial ISOCAT tutorial  Metadata tutorial Metadata tutorial  En er komt meer!  door deze aanpak in het normale curriculum op te nemen!!

24 Dank voor uw aandacht Meer informatie: http://www.clarin.nl CLARIN-NL

1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010.

Verwante presentaties

Presentatie over: "1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010.

Verwante presentaties

Presentatie over: "1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback