DigiHist Oude teksten, moderne technologie: Geleerdenbrievenproject In eke Schuurman (K.U.Leuven) ism Jan Odijk (U.Utrecht)
Oude teksten en TST Vanuit CLARIN: Interesse in oude teksten om ook daar onderzoekers te laten profiteren van wat taal- en spraaktechnologie (TST) te bieden hebben Nu: vooral recentere teksten (digitaly born, goed OCR-baar, goed corrigeerbaar (spelconventies),…) Want: ‘gewoon’ inscannen van een tekst, leidend tot een image, volstaat niet om er TST op los te kunnen laten
Image niet voldoende… Tekst moet ‘machine readable/ machine leesbaar’ zijn om er taal- en spraaktechnologie op los te kunnen laten Inscannen en dan OCR Maar: OCR niet altijd optie omdat de tekst zich daartoe niet leent slechte staat origineel handgeschreven Combinatie:oud handschrift
Machine leesbare bronnen Twee voorbeelden van oude handschriften die machine- readable gemaakt worden Leuvense Schepenbank (zie presentatie Marika Ceunen) Geleerdenbrieven In beide gevallen: puur menselijke inspanning (vrijwilligers, studenten) Loont het de moeite? JA !
Geleerdenbrievenproject Betrokken partijen: Koninklijke Nederlandse Academie van Wetenschappen (Huygensinstituut) Universiteit Utrecht Universiteit Amsterdam Koninklijke Bibliotheek DANS (Data Archiving and Networked Services) VKS (Virtual Knowledge Studio) Additionele technische ondersteuning van CLARIN-NL
Geleerdenbrievenproject 2 In 17e eeuw veel ontdekkingen grote toename informatie Belangrijke rol Republiek der Nederlanden Vraag: hoe verspreidde die kennis zich? Onderzoek brieven 17e eeuwse wetenschappers Constantijn en Christiaan Huygens (vader en zoon) Antoni van Leeuwenhoek: Hugo de Groot (Grotius) Casparus Barlaeus (Kasper van Baerle) Jan Swammerdam Renė Descartes (in Nederland )
Geleerdenbrievenproject 3 Optie 1: gewoon alles doorlezen in je luie stoel Optie 2: gebruik maken van moderne hulpmiddelen Gekozen voor optie 2, en eerst alles machine leesbaar gemaakt Daarna tools etc (verder) ontwikkeld voor oude teksten: text mining (spellingscorrectie, -normalisatie op enig niveau?) Syntactische en semantische annotaties
Geleerdenbrievenproject 4 Machine-leesbaar-maken: transcriptiewerk uitbesteed aan studenten en vrijwilligers, cf Schepenbank Ook zij mogelijk gebaat bij andere benadering
Dank voor uw aandacht ! Vragen ? Dirk Roorda