1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010.

Slides:



Advertisements
Verwante presentaties
Kickoff Workspaces Hennie Brugman Technisch coordinator CATCHPlus.
Advertisements

De zin en onzin van escrow
Evaluatie van MS Exchange 2000 en opzetten van een server voor wereldwijde uitwisseling van projectinformatie Bertels David 3ICT1 Stageplaats: Acros Organics.
Roundtable 8 Teach as you preach: training in toepassen van het 4C-ID model volgens het model Symposium 4C-ID IV, 14 april 2011, Utrecht Studiecentrum.
Kant-en-klare bouwstenen voor de CLARIN-infrastructuur
Ook buiten de klas kennismaken met de taal van je ‘buren’!
Onderwerpen Oude situatie Eerste aanpak en problemen
ADOBE PRESENTER Willem vanden Berg Dienst Onderwijsondersteuning en –ontwikkeling KaHo Sint-Lieven 1.
Welkom Katja Goertz, commercieel adviseur Ascom Nederland.
E-RADEN Roadmap. AGENDA • Overzicht van nieuwe ontwikkelingen 2009 • Interfaces • Document Types : Meta-data • E-raden gratis ? • Perspectieven.
Op weg met e-Twist in 10 stappen
Metadata proces april 2009 train de trainers. Waar in het werkproces metadata Binnen de organisatie zal afgesproken moeten worden van welke data er metadata.
Europese e-Justice Marc van Opijnen sr. adviseur rechtsinformatica Raad voor de rechtspraak / spir-it
Workshop Nieuwe begroting
| S turen Betere resultaten door docent-student voortgangsinteractie Projectleider Ellen Zillig-Straatman M eten A nalyseren I nformeren.
Organisatie en sourcing van de DLWO Jacco Jasperse Informatie- en procesmanager Manager Dienst Informatievoorziening en Automatisering.
Inzet van docenten: planning, overzicht en kwaliteit
Ronde (Sport & Spel) Quiz Night !
Van idee tot digitaal materiaal
1 Migmap migratie in de 20e eeuw interactief in kaart Gerrit Bloothooft, UU, (coordinator) Jan Pieter Kunst, MI Folkert de Vriend, MI Frans van Poppel,
Op 23 september 2011 nam de Vlaamse Regering akte van de conceptnota “open data”. De conceptnota schetst de beleidscontext en het regelgevend kader voor.
C-DSD: Curating the Dutch Song Database (Nederlandse Liederenbank) C-DSD Martine de Bruin.
DARE Wetenschappelijke communicatie in beweging Werkgemeenschap Informatiewetenschappen, 27 februari 2004 Lilian van der Vaart.
© BeSite B.V www.besite.nl Feit: In 2007 is 58% van de organisaties goed vindbaar op internet, terwijl in 2006 slechts 32% goed vindbaar.
CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator.
DigiHist Oude teksten, moderne technologie: Geleerdenbrievenproject In eke Schuurman (K.U.Leuven) ism Jan Odijk (U.Utrecht)
CLARIN: een introductie Ineke Schuurman Coördinator CLARIN-Vlaanderen.
Eric Sieverts Sector Innovatie & Ontwikkeling Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatie Management Hogeschool van Amsterdam Moderne.
Kunnen we leren kiezen? Jan Bransen Alumnidag 2006.
Centrale voorlichtingsdag RuG,
Digitalenklasconsortium Informatiebijeenkomst voor Hoger Onderwijsinstellingen Sake Jager (RUG), Alessandra Corda (ULeiden) 11 september 2003.
Onderzoeksdata in de Bibliotheek: Tijd voor een nieuw Informatie-specialisme? Ervaringen uit de praktijk Rob Grim Research Data Specialist/e-Science Coordinator.
UBU en onderzoeksdata 23 april Agenda 1. Proefschriften plus 2. EJME 3.Dataverse.
Sneeuwschuivers en leren sneeuwschuiven myResearch Portal en het belang van workflow data analyse Richard L. Zijdeman DAI: info:eu-repo/dai/nl/
Werken aan Intergenerationele Samenwerking en Expertise.
Dutch Parallel Corpus Een multilinguaal & multifunctioneel corpus Accenta 2007 Donderdag 20 september.
Ruimtelijke ordening en buisleidingen Kennistafel 30 mei 2007.
PLAYBOY Kalender 2006 Dit is wat mannen boeit!.
nieuwe toepassingen 2008 Schoolbib 2.0 / VVBAD Mechelen, 5 november 2008 Rosemie Callewaert - Project Manager VCOB.
DANS is een instituut van KNAW en NWO Data Archiving and Networked Services NARCIS: nationale portal van onderzoekinformatie Elly Dijk SURFacademy ‘CRIS.
Wouter Jansweijer, 16 September, Literatuur zoeken Project informatiewetenschappen october 2002.
Een Module over Model Checking voor het VWO Frits Vaandrager1, David Jansen1 & Els Koopmans2 1Radboud Universiteit Nijmegen 2Olympus College Arnhem.
COAVA Demonstratie en curatie (CLARIN-NL, tweede ronde) Folkert de Vriend 09/02/2011.
ZijActief Koningslust 10 jaar Truusje Trap
Datasets, verrijkte publicaties …en de rol van DANS 1Maarten Hoogerwerf, , NVB.
Waarom een standaard Een norm of standaard is een procedure of een maat waarvan een groep mensen met elkaar heeft afgesproken dat ze hem zullen gebruiken.
Digitale duurzaamheid: (ook) een kwestie van organiseren Inge Angevaare, coördinator Nationale Coalitie Digitale Duurzaamheid DEN conferentie - 10 december.
Het KB e-Depot Waarom, wat en voor wie
3D Topografie bij Rijkswaterstaat Paul van Asperen (RWS-AGI) Louise de Jong (RWS-AGI) Edward Verbree (TU Delft) Jeroen van Winden (ESRI NL) GIN studiedag.
ECHT ONGELOOFLIJK. Lees alle getallen. langzaam en rij voor rij
Alfalab en de microtoponiemen-pilot van het Meertens Instituut Rob Zeeman Webprogrammeur Meertens Instituut (KNAW)
Opleiding CMS website Gent Bart Nelis Gent: #239/ docentengang Brussel: /naast bibliotheek
GIS-coördinator in Westerlo
De financiële functie: Integrale bedrijfsanalyse©
Van papier naar digitaal Casus Digital born materiaal
EMuziek Stand van zaken rond digitale muziek diensten voor bibliotheken Middelburg, 12, 13 en 14 december, Sander van Kempen (Bibliotheek.nl) en Margreet.
Sparkle een bewijssysteem voor Clean Maarten de Mol Katholieke Universiteit Nijmegen 11 januari 2002.
1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Hans BennisMeertens Instituut (KNAW)
Implementatie OSIRIS Susanne Wichman Implementatie OSIRIS.
KB Research Lab Lotte Wilms, Afdeling Onderzoek.
Van librije tot digitale bibliotheek: de universiteitsbibliotheek utrecht eric sieverts.
Taal- en Spraaktechnologie (TST) voor het Nederlands: Status 2015 Jan Odijk (UU) Taalcongres Brussel, 10 oktober
Syntactische Annotatie CHILDES
I-lab Waarom dit project, wat is het, wat is de stand van zaken en wat levert het op voor de onderzoeker?
CLARIAH-CORE Overzicht
DCAT-AP Vlaanderen voorlegging als standaard
Transcript van de presentatie:

1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010

2 Overzicht Taal- en Spraaktechnologie Geesteswetenschappers? CLARIN-NL Maximaal Open Data Standaarden Onderwijs

3 Taal- & Spraaktechnologie bieden grote mogelijkheden om grote hoeveelheden talige data waar geesteswetenschappers mee werken te ontsluiten –Spraak –Tekst

4 Taal- & Spraaktechnologie Ontsluiting audio en videobestanden mbv spraaktechnologie –Herkenning, Oplijning, indexering  doorzoekbaarheid Journaaldemos – – Radio Oranje (NIOD) – Buchenwald – En vele andere …..

5 Taal- & Spraaktechnologie Automatisch ontleden van grote tekstbestanden + zoekfunctionaliteit –Voor taaltechnologen om de taaltechnologie te verbeteren –Voor geesteswetenschappers: empirische basis voor onderzoek Reeds gebruikt –Bij de ontwikkeling van Alpino (automatische ontleder voor het Nederlands)Alpino –Voor het automatisch opsporen van idiomatische uitdrukkingen (IRME project  DUELME databank)IRME DUELME –Voor verbeterde vraag-antwoordsystemen (IMIX)IMIX –Voor taalkundig onderzoek (Van Eynde 2009)Van Eynde 2009

6 Taal- & Spraaktechnologie Tokenisatie en opschoning van grote tekstbestanden –Opsplitsen tekstbestand in een sequentie van woordvoorkomens –Spellingscorrectie en -normalisatie –OCR-correctie TiCC (Tilburg), voor D-COI en SONAR tekstcorpora (500M woorden modern Nederlands) en i.s.m. de KBD-COISONAR

7 Taal- & Spraaktechnologie Verrijking van tekstcorpora met annotaties –Woordsoorttoekenning –Lemmatisering –Oppervlakkige ontleding (“chunking”) –Semantische annotatie (argumentrollen, locatie en tijdsbepalingen) –“named entity” recognition –Coreferentie annotatie

8 Taal- & Spraaktechnologie STEVIN:STEVIN D-COI, SONAR Al deze annotatiesD-COISONAR COREA annotatie van coreferentierelatiesCOREA LASSY syntactische ontledingLASSY DPC parallelle corpora + annotatiesDPC …

9 Taal- & Spraaktechnologie De hoeveelheid beschikbare data –is zeer groot en –zal alleen maar groeien. Uitgebreide en diepgaande analyse is alleen mogelijk met behulp van digitale taal- en spraaktechnologische technieken

10 Geesteswetenschappers? moet bruikbaar zijn voor geesteswetenschappelijke onderzoekers  de taaltechnologische tools en de data moeten naadloos op elkaar aansluiten –compatibel met elkaar qua vorm en betekenis (interoperabel zijn)  op eenvoudige wijze (zonder dat uitgebreide technische kennis noodzakelijk is)

11 Geesteswetenschappers? Vereist een gezamenlijke inspanning van –Taal- en spraaktechnologen en –Geesteswetenschappers –om tot overeenstemming te komen over de daarvoor benodigde standaarden voor formele en semantische interoperabiliteit –Om behoeftes en technische mogelijkheden op elkaar af te stemmen

12 CLARIN-NL CLARIN-NL doet precies dit! Kadert in een Europese inspanning geïnitieerd door het CLARIN voorbereidingsprojectCLARIN voorbereidingsproject Partners:Partners –Universiteiten, KNAW-instituten, (Sociale) geschiedenis instituten, Koninklijke Bibliotheek, Data Centra –Taal- en spraaktechnologen en informatici (enablers), geesteswetenschappers (gebruikers), data centra en KB (dataleveranciers/beheerders) Nauwe samenwerking met SURF, SARA, … Budget: 9.01M euro

13 CLARIN-NL Specificatie, implementatie, exploitatie van een gedistribueerde technische infrastructuur voor geesteswetenschappers (IIP)IIP –CLARIN-centra (MPI, MI, INL, DANS) Gebruikersonderzoek Data en tools (webservices) beschikbaar via CLARIN portaal (initiële versie: Virtual Language Observatory)Virtual Language Observatory Data en tools vindbaar via metadata (Metadata Project)Metadata Project Data en metadata doorzoekbaar met tekstuele en structurele zoekfunctionaliteit (Search&Develop) Data en tools sluiten naadloos op elkaar aan, gebaseerd op overeengekomen standaarden en best practicesstandaarden en best practices Webservices beschikbaar in workflows (TTNWW, NL +VL)TTNWW

14 CLARIN-NL INTER-VIEWS project;INTER-VIEWS project –Datacuratie en doorzoekbaar maken van interviews met veteranen van het Veteraneninstituut AAM-LR –Tool als annotatiehulp voor (veld)linguïsten –markering van spraak/niet spraak –Markeren van verschillende sprekers

15 CLARIN-NL TTNWW (spraak)TTNWW –Opzet gebruikersvriendelijke workflow services voor indexering en doorzoekbaarheid van (een beperkte set) audio en videodata –Ten behoeve van sociaal historici (Aletta, KDC, KADOC, M2P) TICClops (Tilburg)TICClops –tekstopschoning, spellingscorrectie en – normalisatie

16 CLARIN-NL Adelheid (Nijmegen)Adelheid –tekstopschoning, woordsoorttoekenning en lemmatisering –historische Nederlandse teksten (13e eeuw) –Tbv historisch taalkundig onderzoek Geleerdenbrievenproject (CKCC) –Verrijking van “geleerdenbrieven” met syntactische en semantische annotaties –Volgens CLARIN standaarden –tbv onderzoek naar de circulatie van kennis in brieven van geleerden in NL in de 17e eeuw

17 CLARIN-NL LASSY demo:LASSY demo –Eenvoudige (‘Google-style’) zoekinterface op automatisch ontlede tekstcorpora TTNWW (tekst)TTNWW –Opzet gebruikersvriendelijke workflow services voor verrijking van tekstcorpora met annotaties –Ten behoeve van literatuurwetenschappers (Huygens) en archeologen (Salagassos)

18 CLARIN-NL Standaardisatie en integratie van taalkundige data en tools (tbv taalkundig onderzoek) –En Garde/DUELME-LMF (UU)En Garde/DUELME-LMF DUELME database van multi-word expressies –WFT-GTB (Fryske Akademy)WFT-GTB Integratie Wurdboek fan ‘e Fryske Taal met Geintegreerde Taaldatabank –ADEPT (UG)ADEPT Adaptatie edit-distance tool tbv dialect en historisch onderzoek

19 CLARIN-NL Standaardisatie en integratie van taalkundige data en tools (tbv taalkundig onderzoek) –MIMORE (MI, UU)MIMORE Microcomparative Morphosyntax Research Tool –TDS-Curator (UU)TDS-Curator Curation of the Typological Database System –TQE (RU)TQE Transcription Quality Evaluation –Sign-LinC (RU)Sign-LinC Verbindt lexicale databanken en geannoteerde corpora van gebarentalen

20 CLARIN-NL En er komen meer projecten –Nieuwe oproep te verwachten begin Juli 2010 –Samenwerking tussen beoogde gebruikers en enablers is verplicht in deze projecten De CLARIN infrastructuur kan alleen een succes worden als aan een aantal andere voorwaarden ook voldaan wordt:

21 Maximaal Open Data  in door de overheid gesubsidieerde onderzoeksprojecten moeten  onderzoeksdata,  onderzoeksresultaten  ontwikkelde tools  maximaal vrij beschikbaar gesteld worden aan de onderzoeksgemeenschap  in een omgeving die hergebruik door andere onderzoekers eenvoudig toelaat.

22 Standaarden Bestaande data en tools moeten aangepast worden aan de voorgestelde standaarden –En waar nodig ook andersom! het maken van nieuwe onderzoeksdata en tools volgens deze standaarden moet systematisch als verplicht onderdeel in onderzoeksprojecten ingebouwd worden gestimuleerd worden door universiteiten en afgedwongen worden door subsidiërende instanties, activiteiten hiervoor dienen gesubsidieerd te worden!

23 Onderwijs  Studenten en jonge onderzoekers moeten vertrouwd gemaakt worden met deze nieuwe manier van werken  door gerichte cursussen  ISOCAT tutorial ISOCAT tutorial  Metadata tutorial Metadata tutorial  En er komt meer!  door deze aanpak in het normale curriculum op te nemen!!

24 Dank voor uw aandacht Meer informatie: CLARIN-NL