CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator.

Slides:



Advertisements
Verwante presentaties
Sociologie Tweedaagse Sociologie 13 Oktober 2008 Jochem Tolsma.
Advertisements

In de doelstelling van Gam Care - Askimo staat de zelfredzaamheid
Plannen.
Wat is ons idee? • Grote tafels • Groot gebouw • 2 verdiepingen: -Een voor de hele klas -Een met ‘thema lokalen’ • Veel met computers/ tablets leren •
INTERCULTURELE TRAJECTBEGELEIDING UITGAANDE STUDENTEN.
Project ICT–ondersteuning voor kinderen met leerstoornissen
Ontstaan van steden.
Sprint & scannen. het document is niet digitaal beschikbaar “Zeker weten? … dan moet je het inscannen!” Dit gebeurt in verschillende stappen: • het papieren.
Lancering Inhoud • Voortraject • Doelstellingen • Wat • Materiaal • Enkele voorwaarden • Hoe • Wie • Demo.
Website voor bewonerscommissies
OPS Pro is het perfecte middel voor beamerpresentatie in uw samenkomsten!
Voorstelling van mijn werk. Als verantwoordelijke van Fondation Baska.
Digitaal Sociaal Huis 21 januari Agenda VanTot 12u13uBroodjes en koffie 13u13u45VERA : Operationele impact perceel 1 13u4514u15CORVE : Stand van.
SIMON: naar een oriënteringsproef voor het hoger onderwijs
Meer mogelijkheden en meer kansen
Heb het goed hou het goed Corrie Blijdorp De Driehoek
01 van 06 Portal4U Loe Hameleers Twan Saleming Klanten: Wat kost dat artikel? Wanneer wordt geleverd? Die werkt hier niet meer.. Die factuur ken ik niet.
Via BaTaVo en prioriteitenlijst op weg naar een (betere) TST-infrastructuur voor het Nederlands Helmer Strik en vele anderen.
Projectaanpak Workspaces Kickoff Workspaces 7 september 2011.
Hergebruik van taal- en spraakdata in e-health Remco van Veenendaal projectleider TST-Centrale Ehealth4com Nijmegen 3 oktober 2013.
Inleiding G!DS Z-O-U-T en CultuurUtrecht. Wat is G!DS?  Sociale en culturele kaart van de bibliotheken  Informatie op het sociale en culturele vlak.
C-DSD: Curating the Dutch Song Database (Nederlandse Liederenbank) C-DSD Martine de Bruin.
Voorlichting Sociologie Radboud Universiteit Nijmegen
De middeleeuwen: cultuur en literatuur
Vakliteratuur opzoeken Lieve Devos. LibriSource+ Nieuw portaal voor toegang tot elektronische bronnen Gemeenschappelijk platform.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Gebruikerscommissie 4 mei 2004 Patrick Wambacq.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 22 november 2001.
Katholieke Universiteit Leuven - ESAT, BELGIUM ATraNoS Workshop 17 september 2004 Patrick Wambacq.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 28 oktober 2002.
S1S1 S2S2 S3S3 Atranos Gebruikerscommissie 9 april 2003.
DigiHist Oude teksten, moderne technologie: Geleerdenbrievenproject In eke Schuurman (K.U.Leuven) ism Jan Odijk (U.Utrecht)
CLARIN: TST-infrastructuur voor de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Studiedag ICT in de.
CLARIN: een introductie Ineke Schuurman Coördinator CLARIN-Vlaanderen.
Eric Sieverts Sector Innovatie & Ontwikkeling Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatie Management Hogeschool van Amsterdam Moderne.
Taalwetenschap in de CKI-bachelor
WG archiveringVAC Brugge 17/01/ juli Op te volgen afspraken Aanduiden van coördinatoren per entiteit Contact opnemen met de beleidsdomeinarchivarissen.
Onderzoeksdata in de Bibliotheek: Tijd voor een nieuw Informatie-specialisme? Ervaringen uit de praktijk Rob Grim Research Data Specialist/e-Science Coordinator.
Kinderarbeid.
Onderwijsmiddag Geesteswetenschappen. Een eerste aanzet tot een facultaire onderwijsvisie Wim van den Doel.
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
Op zoek naar het uw verleden
1 CLARIN - NL Taal en Spraaktechnologie in een Infrastructuur voor Geesteswetenschappers Jan Odijk Utrecht, 11 juni 2010.
Persoonlijke en sociale vaardigheden van de commerciële professional
BLOK3 VAN ‘’PSYCHOLOGIE’ NAAR ‘SOCIALE PSYCHOLOGIE:
Enkele voorbeelden.
Modeltrajecten Master in Overheidsmanagement en - beleid K.U.Leuven Faculteit Sociale Wetenschappen Instituut voor de overheid.
Modeltrajecten Master in Overheidsmanagement en - beleid K.U.Leuven Faculteit Sociale Wetenschappen Instituut voor de overheid.
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken Sociologie  Website faculteitsbibliotheek  Catalogus LIBISng: boeken, eindwerken, tijdschriften.
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken  Website faculteitsbibliotheek  Catalogus LIBISng: boeken, eindwerken, tijdschriften  Databanken:artikels.
AGORA is méér dan een gebouw. Het is een concept: “een sociaal kruispunt van informatie, technologie en dienstverlening.” Dienstverlening Ruime openingstijden.
De samenwerking tussen de bibliotheken in Gelderland en Vrijwilligers van de Ouderenbonden Presentatie scholingsochtend Digitale overheid Yvonne Sinkeldam.
Wat kunnen wij samen doen aan laaggeletterdheid in Almere?
Perspresentatie Gemeenteraadsverkiezingen 14 oktober 2012.
CB-NL Launch Event Omdat we informatie op orde willen krijgen!!
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Hans BennisMeertens Instituut (KNAW)
Onze school, Albeda colege Schiedam Nieuwland.
SE-Seneca voorbereiding op CE 2013!
Les 24 november 1999 Lesbijdrage: Geschiedenis en multimedia Lesbijdrage: MS Access Overleg Bibliografisch zoeken: aanbod aan de K.U.Leuven Bibliografisch.
12/10/2015 | 1 ›Zoeken, vinden, opslaan, en gebruiken. Klassieke Talen Over het gebruik van catalogi en bestanden binnen de UB Groningen. Hoe vind je literatuur.
Empirical librarianship ceci n’est pas un texte De bibliotheek als onderzoeker Workshop - template kaartjes Jeroen Bosman & Bianca Kramer Universiteitsbibliotheek.
Wetenschap voor iedereen Wetenschap toegankelijk maken voor een breed publiek Amito Haarhuis Adjunct-directeur Science Center NEMO 9 december 2015.
Taal- en Spraaktechnologie (TST) voor het Nederlands: Status 2015 Jan Odijk (UU) Taalcongres Brussel, 10 oktober
Homcom Ledenvergadering 25/04/2016. Bots Doet ons denken aan robots Worden gebruikt om – Te spreken – Standaard conversaties te voeren Bv : al onze medewerkers.
Master Taal- en Letterkunde. Vervolgtraject na schakeljaar traject één taal: Nederlands, Frans, Engels, Duits, Latijn.
PROJECT WETENSCHAPSPOPULARISERING DIALECTLOKET. Dialectloket Website voor het brede publiek met  Informatie over dialecten  Bandencollectie vakgroep.
Master historische taal- en letterkunde Presentatie donderdag 8 mei 2008.
TST voor de archiefsector | Het NA en TST Welke raakvlakken heeft het NA met taal- en spraaktechnologie (TST)? Remco van Veenendaal Adviseur.
Hoe leg je meer focus op resultaat?
Typisch ‘optie Latijn’
Transcript van de presentatie:

CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator CLARIN-Vlaanderen

1. Bedoeling van CLARIN In de humane en sociale wetenschappen (HSS) is veel onderzoek taalgebaseerd:  Taalkunde  Letterkunde  Geschiedenis  Filofofie  Theologie  Communicatiewetenschappen  (Takken van) sociologie, rechten, psychologie

Bedoeling 2  HSS’ers laten profiteren van de tools en middelen ontwikkeld binnen de taal- en spraaktechnologie (TST).  MAAR: de TST-’spullen’ zijn niet goed beschikbaar voor HSS’ers, en omgekeerd:  HSS-onderzoekers kunnen er niet goed gebruik van maken  ERGO: groot potentieel, maar het gaat verloren  CLARIN wil hier iets aan doen => infrastructuur  laagdrempelig

Bedoeling 3  CLARIN wil hier iets aan doen ► infrastructuur bouwen  Laagdrempelig  Vooral ook: beantwoordend aan noden en wensen van HSS’ers  Samenwerking nodig tussen  HSS-onderzoekers (gebruikers)  Archieven, bibliotheken (‘leveranciers’ van onderzoeksmateriaal)  TST’ers (idem dito van onderzoeksmiddelen, -technieken)

Zoals …  Strings opsplitsen in woorden (tokenization)  Woordsoorttoekenning (PoS-tagging)  Lemmatisering  Oppervlakkige ontleding (chunking, shallow parsing)  Ontleding (parsing)  Allerlei semantische annotaties (rollen, sentiment, coreference, ‘named entities’,tijd en ruimte, …)  Etc etc etc Al deze technieken kunnen HSS’ers helpen bij hun onderzoekswerk! ►momenteel wel vaak voor ‘moderne’ teksten

voorbeelden  Binnen Clarin-NL:  Adelheid (tagger voor 13e eeuws Nederlands) In Vlaanderen plannen voor ook een tagger voor oude teksten (Antwerpen/Leuven)  Binnen Clarin-Vlaanderen:  Stylene (stylometrie) Samenwerking/overleg Nederland en Vlaanderen: geen verkwisting van middelen MAAR…

Voorwaarde  Tekst moet machine readable zijn (ocr, …). Een ‘image’ is niet voldoende  Gesproken documenten moeten getranscribeerd zijn. Vaak zijn ook niet-perfecte transcripties waardevol, bv om archief te kunnen doorzoeken (TTNWW)

Image niet voldoende… Tekst moet ‘machine readable’ zijn om er taal- en spraaktechnologie op los te kunnen laten Inscannen en dan OCR Maar: OCR niet altijd goede optie omdat de tekst zich daartoe niet leent  slechte staat origineel  handgeschreven ► veel correctiewerk

Nadeel intikken  Heel veel werkuren  Pas na vele jaren beschikbaar  Monnikenwerk  Ws vaak nieuwe mensen opleiden  Foutenmarge  Vraag die bij CLARIN-Vlaanderen rees:  Kunnen wij als taal- en spraaktechnologen hier niet iets betekenen ?

… DigiHist …

Dank … Vragen?