Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdSimon Gerritsen Laatst gewijzigd meer dan 10 jaar geleden
1
BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team
2
Programma Workshop 13:00 – 13:15: Inloop 13:15 – 14:00: Introductie Antske Fokkens (computationale linguïstiek) en Serge ter Braake (geschiedenis) + vragen 14:00 – 14:45: Werkgroep sessie 1 (eenvoudige vraag) 14:45 – 15:00: Uitkomsten en discussie 15:00 – 15:15: Pauze 15:15 – 16:00: Werkgroep sessie 2 (moeilijke vraag) 16:00 – 16:30: Uitkomsten en discussie 16:30 – 17:00: Borrel
3
Digitale Tekstanalyse Gratis tools eenvoudig te vinden, maar niet toegespitst op historische teksten/historisch onderzoek Woorden en zinnen tellen: http://www.wordcounter.net/ http://www.wordcounter.net/ Wordcloud maken: http://www.wordle.net/http://www.wordle.net/ Woordfrequentie: http://www.writewords.org.uk/word_count.asp http://www.writewords.org.uk/word_count.asp
4
Test met de ‘Deductie van Johan de Witt’ (1654) Aantal woorden: 34.453 Aantal zinnen: 749 Aantal woorden per zin: 46 Tijd om voor te lezen: 5 uur Mark Rutte (Innovation Convention in Brussel op 10 maart 2014): 2.199 woorden, 16 woorden per zin
5
Wordcloud Deductie
6
Woordfrequentie Ende: 1275 keer Provinc/tie(n): 262 Acte: 72 Unie(n):72 Prince: 63 Vrede: 53 Seclusie: 50 Saecke:47 Tractaet: 41 Beverningk: 41 Nieupoort: 41 Oraigne: 31 Republiecque: 32 Godt: 27 keer (+ 10 keer een afgeleide) Vryheyt: 27 Bondtgenooten: 24 G(h)emeene:22 Bondtghenooten:12 Ondanckbaerheyt: 12 (samen met Ondanckbaerheydt) Publijcque: 5
7
Maar wat willen we nu echt automatisch uit een tekst halen? Kwantificeringen van ‘begrippen’, ‘periodes uit iemands leven’, ‘vergelijkingen met anderen’, ‘prosopografische analyses’, ‘leads in kwalitatieve onderzoeksvragen’ … Wat jullie … ? Een moeilijke taak, maar we gaan ons best doen
8
BiographyNet: Het blootleggen van relaties tussen mensen, plaatsen en gebeurtenissen Een interdisciplinair E-History project Wat is BiographyNet? Gefinancierd door het Nederlandse eScience Center Partners zijn het eScience Center, Huygens/ING en de Vrije Universiteit Amsterdam Startpunt: Het Biografisch Portaal van Nederland: www.biografischportaal.nl 125,000 korte biografische beschrijvingen (met een beperkte set metadata) uit een grote variëteit aan biografische bronnen 76,000 individuen
9
Hoofdvraag hier Hoe kunnen we deze grote massa aan biografische data intelligent doorzoekbaar maken voor historici? Huidig zoekformulier van het portaal is nog beperkt (maar gaan we wel hier gebruiken): http://www.biografischportaal.nl/zoek http://www.biografischportaal.nl/zoek
10
Plan van aanpak Interdisciplinariteit is fundamenteel voor het ontwikkelen van een bruikbare tool De computer redeneert niet over moeilijke vragen, maar levert informatie aan die de historicus helpt bij het beantwoorden van complexe vragen Focus van vandaag: welke informatie is nodig om een bepaalde vraag (deels) te kunnen beantwoorden?
11
Algemene Doelen Workshop 1. De computationele linguïst houvast bieden voor het ontwikkelen van een systeem waarmee historische vragen beantwoord kunnen worden 2. De deelnemers inzicht bieden in de mogelijkheden van digitaal historisch onderzoek met biografische data (nu en in de toekomst)
12
Specifieke Doelen Workshop 1) Welke informatie heeft u nodig om uw vraag/vragen te beantwoorden? 2) Hoe kan dit worden vertaald naar bouwstenen in RDF (het voorgestelde formaat) ? 3) Welke subtiliteiten gaan hierbij (eventueel) verloren? 4) Wat zijn de mogelijkheden, beperkingen en uitdagingen?
13
De Opdrachten Een eenvoudige vraag, om je met de mogelijkheden van het portaal en de bronnen bekend te maken Een moeilijke vraag, die een goed doordachte methodologische aanpak vereist De manier waarop je het zou aanpakken staat hier centraal, niet de resultaten
14
Automatische tekstanalyse Doelen van automatische tekstanalyse in dit project: 1.Automatische analyse van de inhoud van de tekst: Wat staat er in de tekst? 2.Automatische analyse van de tekst zelf en taalgebruik: Hoe worden dingen beschreven?
15
Tekst en Taalgebruik analyse Welke woorden en constructies worden gebruikt? – Gebruik van modale hulpwerkwoorden of nuancerende bijwoorden – Neutrale woorden of woorden die een waarde oordeel bevatten Welke thema’s komen voor? Waar ligt de nadruk op? – Welke begrippen komen in verschillende bronnen voor?
16
Informatie extractie Doel van de extractie: – Wat staat er (precies) in de tekst? – Wat wordt er beweert en door wie? Representatie: – De geïdentificeerde informatie moet op doorzoekbare wijze worden weergegeven – Uitdaging: hoe kunnen we informatie uitgedrukt in taal op een gestructureerde manier weergeven?
17
RDF RDF: Resource Description Framework Een formaat dat ontworpen is om informatie aan elkaar te linken Entiteiten (inclusief personen en events) worden door IRIs (unieke identifiers, ook wel URI’s) gerepresenteerd Veel gebruikt: – We kunnen ook makkelijk verbanden leggen tussen data uit andere projecten – Veel kennis en tools voor het doorzoeken van RDF, redeneren met RDF, etc.
18
RDF, example
19
RDF overzicht Informatie is weergegeven door triples die bestaan uit een subject, predicaat en object Bestanddelen van triples zijn IRIs (unique identifiers) of ``literals’’ (woord, woordgroep of getal)
20
Slide IRI Johan de Witt
21
Voorbeeld triples SUBJECT PREDICAAT OBJECT bn:45013103 bn:hasDateofDeath “1672-08-20” bn:45013103 bn:hasName “Johan de Witt” dbpedia:moord_op_gebr_deWitt sem:hasActor dbpedia:Johan_de_Witt dbpedia:moord_op_gebr_deWitt sem:hasTime “1672-08-20” bn:45013103 skos:exactMatch dbpedia:Johan_de_Witt
22
RDF De unique IRIs betekenen altijd hetzelfde Door IRIs te gebruiken, kunnen we: – Alle informatie over een persoon of event vinden – Relaties met elkaar vergelijken – Informatie aan elkaar kopellen
23
IRIs (herkomst) We gebruiken bestaande IRIs waar mogelijk Personen in het portaal hebben een identificatie nummer. We kunnen op basis hiervan IRIs creeëren. We creëren ook IRIs voor events en personen die geen eigen identificatienummer hebben We hebben IRIs die woordbetekenissen kunnen weergeven
24
RDF Het is ook mogelijk om iets over een RDF triple te zeggen, bijvoorbeeld: – Wat is de herkomst van de informatie? – Wie beweert dat dit zo is en waar? – Hoe is de informatie geëxtraheerd? – Hoe betrouwbaar was de automatische extractie in een evaluatie? – Wat is de aangegeven `feitelijkheid’ van de informatie? (Is het gepresenteerd als feit of vermoeden)
25
Vragen voor vandaag Welke informatie zouden jullie uit de tekst willen halen om onderzoeksvragen te beantwoorden? Hoe zou deze informatie in RDF triples weergegeven kunnen worden? Welke informatie zouden jullie willen hebben die niet of moeilijk in een triple weergegeven kan worden?
26
De ‘eenvoudige’ vraag Mensen en functies: de gouverneurs-generaal van Nederlands-Indië Mensen en prestaties: beroemde sporters uit de geschiedenis Mensen en plaatsen: beroemdheden uit Weert Mensen en hun omgeving: Hans van Mierlo Mensen uit alle tijden: Assendelft, De Witt en Nicolai
27
De moeilijke vraag Mensen en gebeurtenissen: welke personen speelden een sleutelrol in het rampjaar 1672? Mensen en mensbeschrijvingen: Hoe is het beeld van de gouverneurs-generaal van Nederlands-Indië in de loop der eeuwen veranderd? Mensen en naties: In hoeverre was er sprake van ‘nationalisme’ in biografische woordenboeken van de negentiende tot de eenentwintigste eeuw? Mensen en wereldgeschiedenis: Vanaf wanneer werd de ontdekking van Amerika van werkelijk belang voor de Nederlandse elites? Mensen en mobiliteit: welke patronen kunnen er ontdekt worden in de manier waarop mensen zich geografisch voortbewogen?
28
Volgende stappen Rapport van onze bevindingen Observaties ? Feedback ?
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.