De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

DigiHist Oude teksten, moderne technologie: Geleerdenbrievenproject In eke Schuurman (K.U.Leuven) ism Jan Odijk (U.Utrecht)

Verwante presentaties


Presentatie over: "DigiHist Oude teksten, moderne technologie: Geleerdenbrievenproject In eke Schuurman (K.U.Leuven) ism Jan Odijk (U.Utrecht)"— Transcript van de presentatie:

1 DigiHist Oude teksten, moderne technologie: Geleerdenbrievenproject In eke Schuurman (K.U.Leuven) ism Jan Odijk (U.Utrecht)

2 Oude teksten en TST Vanuit CLARIN:  Interesse in oude teksten om ook daar onderzoekers te laten profiteren van wat taal- en spraaktechnologie (TST) te bieden hebben  Nu: vooral recentere teksten (digitaly born, goed OCR-baar, goed corrigeerbaar (spelconventies),…) Want: ‘gewoon’ inscannen van een tekst, leidend tot een image, volstaat niet om er TST op los te kunnen laten

3 Image niet voldoende… Tekst moet ‘machine readable/ machine leesbaar’ zijn om er taal- en spraaktechnologie op los te kunnen laten Inscannen en dan OCR Maar: OCR niet altijd optie omdat de tekst zich daartoe niet leent  slechte staat origineel  handgeschreven  Combinatie:oud handschrift

4 Machine leesbare bronnen  Twee voorbeelden van oude handschriften die machine- readable gemaakt worden  Leuvense Schepenbank (zie presentatie Marika Ceunen)  Geleerdenbrieven In beide gevallen:  puur menselijke inspanning (vrijwilligers, studenten) Loont het de moeite? JA !

5 Geleerdenbrievenproject Betrokken partijen:  Koninklijke Nederlandse Academie van Wetenschappen (Huygensinstituut)  Universiteit Utrecht  Universiteit Amsterdam  Koninklijke Bibliotheek  DANS (Data Archiving and Networked Services)  VKS (Virtual Knowledge Studio) Additionele technische ondersteuning van CLARIN-NL

6 Geleerdenbrievenproject 2  In 17e eeuw veel ontdekkingen  grote toename informatie  Belangrijke rol Republiek der Nederlanden Vraag: hoe verspreidde die kennis zich? Onderzoek 20.000 brieven 17e eeuwse wetenschappers  Constantijn en Christiaan Huygens (vader en zoon)  Antoni van Leeuwenhoek:  Hugo de Groot (Grotius)  Casparus Barlaeus (Kasper van Baerle)  Jan Swammerdam  Renė Descartes (in Nederland 1628-1648)

7 Geleerdenbrievenproject 3  Optie 1: gewoon alles doorlezen in je luie stoel  Optie 2: gebruik maken van moderne hulpmiddelen Gekozen voor optie 2, en eerst alles machine leesbaar gemaakt Daarna tools etc (verder) ontwikkeld voor oude teksten:  text mining  (spellingscorrectie, -normalisatie op enig niveau?)  Syntactische en semantische annotaties

8 Geleerdenbrievenproject 4  Machine-leesbaar-maken: transcriptiewerk uitbesteed aan studenten en vrijwilligers, cf Schepenbank Ook zij mogelijk gebaat bij andere benadering

9 Dank voor uw aandacht ! Vragen ? Dirk Roorda dirk.roorda@dans.knaw.nl


Download ppt "DigiHist Oude teksten, moderne technologie: Geleerdenbrievenproject In eke Schuurman (K.U.Leuven) ism Jan Odijk (U.Utrecht)"

Verwante presentaties


Ads door Google