CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator CLARIN-Vlaanderen
1. Bedoeling van CLARIN In de humane en sociale wetenschappen (HSS) is veel onderzoek taalgebaseerd: Taalkunde Letterkunde Geschiedenis Filofofie Theologie Communicatiewetenschappen (Takken van) sociologie, rechten, psychologie
Bedoeling 2 HSS’ers laten profiteren van de tools en middelen ontwikkeld binnen de taal- en spraaktechnologie (TST). MAAR: de TST-’spullen’ zijn niet goed beschikbaar voor HSS’ers, en omgekeerd: HSS-onderzoekers kunnen er niet goed gebruik van maken ERGO: groot potentieel, maar het gaat verloren CLARIN wil hier iets aan doen => infrastructuur laagdrempelig
Bedoeling 3 CLARIN wil hier iets aan doen ► infrastructuur bouwen Laagdrempelig Vooral ook: beantwoordend aan noden en wensen van HSS’ers Samenwerking nodig tussen HSS-onderzoekers (gebruikers) Archieven, bibliotheken (‘leveranciers’ van onderzoeksmateriaal) TST’ers (idem dito van onderzoeksmiddelen, -technieken)
Zoals … Strings opsplitsen in woorden (tokenization) Woordsoorttoekenning (PoS-tagging) Lemmatisering Oppervlakkige ontleding (chunking, shallow parsing) Ontleding (parsing) Allerlei semantische annotaties (rollen, sentiment, coreference, ‘named entities’,tijd en ruimte, …) Etc etc etc Al deze technieken kunnen HSS’ers helpen bij hun onderzoekswerk! ►momenteel wel vaak voor ‘moderne’ teksten
voorbeelden Binnen Clarin-NL: Adelheid (tagger voor 13e eeuws Nederlands) In Vlaanderen plannen voor ook een tagger voor oude teksten (Antwerpen/Leuven) Binnen Clarin-Vlaanderen: Stylene (stylometrie) Samenwerking/overleg Nederland en Vlaanderen: geen verkwisting van middelen MAAR…
Voorwaarde Tekst moet machine readable zijn (ocr, …). Een ‘image’ is niet voldoende Gesproken documenten moeten getranscribeerd zijn. Vaak zijn ook niet-perfecte transcripties waardevol, bv om archief te kunnen doorzoeken (TTNWW)
Image niet voldoende… Tekst moet ‘machine readable’ zijn om er taal- en spraaktechnologie op los te kunnen laten Inscannen en dan OCR Maar: OCR niet altijd goede optie omdat de tekst zich daartoe niet leent slechte staat origineel handgeschreven ► veel correctiewerk
Nadeel intikken Heel veel werkuren Pas na vele jaren beschikbaar Monnikenwerk Ws vaak nieuwe mensen opleiden Foutenmarge Vraag die bij CLARIN-Vlaanderen rees: Kunnen wij als taal- en spraaktechnologen hier niet iets betekenen ?
… DigiHist …
Dank … Vragen?