De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator.

Verwante presentaties


Presentatie over: "CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator."— Transcript van de presentatie:

1 CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator CLARIN-Vlaanderen

2 1. Bedoeling van CLARIN In de humane en sociale wetenschappen (HSS) is veel onderzoek taalgebaseerd:  Taalkunde  Letterkunde  Geschiedenis  Filofofie  Theologie  Communicatiewetenschappen  (Takken van) sociologie, rechten, psychologie

3 Bedoeling 2  HSS’ers laten profiteren van de tools en middelen ontwikkeld binnen de taal- en spraaktechnologie (TST).  MAAR: de TST-’spullen’ zijn niet goed beschikbaar voor HSS’ers, en omgekeerd:  HSS-onderzoekers kunnen er niet goed gebruik van maken  ERGO: groot potentieel, maar het gaat verloren  CLARIN wil hier iets aan doen => infrastructuur  laagdrempelig

4 Bedoeling 3  CLARIN wil hier iets aan doen ► infrastructuur bouwen  Laagdrempelig  Vooral ook: beantwoordend aan noden en wensen van HSS’ers  Samenwerking nodig tussen  HSS-onderzoekers (gebruikers)  Archieven, bibliotheken (‘leveranciers’ van onderzoeksmateriaal)  TST’ers (idem dito van onderzoeksmiddelen, -technieken)

5 Zoals …  Strings opsplitsen in woorden (tokenization)  Woordsoorttoekenning (PoS-tagging)  Lemmatisering  Oppervlakkige ontleding (chunking, shallow parsing)  Ontleding (parsing)  Allerlei semantische annotaties (rollen, sentiment, coreference, ‘named entities’,tijd en ruimte, …)  Etc etc etc Al deze technieken kunnen HSS’ers helpen bij hun onderzoekswerk! ►momenteel wel vaak voor ‘moderne’ teksten

6 voorbeelden  Binnen Clarin-NL:  Adelheid (tagger voor 13e eeuws Nederlands) In Vlaanderen plannen voor ook een tagger voor oude teksten (Antwerpen/Leuven)  Binnen Clarin-Vlaanderen:  Stylene (stylometrie) Samenwerking/overleg Nederland en Vlaanderen: geen verkwisting van middelen MAAR…

7 Voorwaarde  Tekst moet machine readable zijn (ocr, …). Een ‘image’ is niet voldoende  Gesproken documenten moeten getranscribeerd zijn. Vaak zijn ook niet-perfecte transcripties waardevol, bv om archief te kunnen doorzoeken (TTNWW)

8 Image niet voldoende… Tekst moet ‘machine readable’ zijn om er taal- en spraaktechnologie op los te kunnen laten Inscannen en dan OCR Maar: OCR niet altijd goede optie omdat de tekst zich daartoe niet leent  slechte staat origineel  handgeschreven ► veel correctiewerk

9 Nadeel intikken  Heel veel werkuren  Pas na vele jaren beschikbaar  Monnikenwerk  Ws vaak nieuwe mensen opleiden  Foutenmarge  Vraag die bij CLARIN-Vlaanderen rees:  Kunnen wij als taal- en spraaktechnologen hier niet iets betekenen ?

10 … DigiHist …

11 Dank … Vragen?


Download ppt "CLARIN en oude teksten: Taal- en spraakinfrastructuur voor onderzoekers in de humane en sociale wetenschappen Ineke Schuurman CCL, K.U.Leuven Coördinator."

Verwante presentaties


Ads door Google