BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team.

Slides:



Advertisements
Verwante presentaties
Effectiviteit.
Advertisements

Maak een scan van uw organisatie met de Toolkit Duurzame Inzetbaarheid
Sudoku puzzels: hoe los je ze op en hoe maak je ze?
Laurens van der Maaten IKAT / ROB
Biografisch onderzoek en Bi(o)g(rafische) data Brainstorm THATcamp, Den Haag Dr. Serge ter Braake et al.
Web 3.0: van omgevallen boekenplank tot georganiseerde kennisbank Frank van Harmelen Vrije Universiteit Amsterdam Creative Commons License: allowed to.
Maatschappelijke Baten van Basisregistraties Project van de Stuurgroep Werkend Stelsel Serious Ambtenaar 2014 Ambassadeur worden van hergebruik.
Autisme en Mindmap Thuis en op School
BBV-(Programma) Begrotingscyclus versus ? Beleidscyclus
November 2013 Opinieonderzoek Vlaanderen – oktober 2013 Opiniepeiling Vlaanderen uitgevoerd op het iVOXpanel.
Titel presentatie. Voortgang S-factor op 19 jan ‘10 “De succesvolle leerloopbaan in Zorg en Welzijn” •Doelen: “Rome” •Waar staan we? •Voor gaan we naartoe?
Global e-Society Complex België - Regio Vlaanderen e-Regio Provincie Limburg Stad Hasselt Percelen.
E-RADEN Roadmap. AGENDA • Overzicht van nieuwe ontwikkelingen 2009 • Interfaces • Document Types : Meta-data • E-raden gratis ? • Perspectieven.
 Deel 1: Introductie / presentatie  DVD  Presentatie enquête  Ervaringen gemeente  Pauze  Deel 2 Discussie in kleinere groepen  Discussies in lokalen.
Workshop Nieuwe begroting
Nieuwe begroting Wat & hoe.
Ronde (Sport & Spel) Quiz Night !
Welkom bij de cursus Handig met Internet! Handig met Internet -Wat doet u al met internet? -Wat wilt u nog meer met internet doen? -Hoe kunt u beter.
C-DSD: Curating the Dutch Song Database (Nederlandse Liederenbank) C-DSD Martine de Bruin.
© BeSite B.V www.besite.nl Feit: In 2007 is 58% van de organisaties goed vindbaar op internet, terwijl in 2006 slechts 32% goed vindbaar.
IS ER MEER? ONTDEK HET ZELF!.
© GfK 2012 | Title of presentation | DD. Month
Inleiding Social Software Pierre Gorissen Fontys Hogescholen
Persoonlijk worden.
Projectweek.
Universal Design for Learning 24/09/2013 UGent Karen Leyman.
LAATSTE SCRIPTIESEMINARIE
Kunstlicht door: Koert Ringelenberg
INTERACTION DESIGN Week 2. VANDAAG Wat hebben we ook al weer gedaan Usecase vormen Bouwstenen Spelregels Briefing voor werkcolleges Q & A.
Sneeuwschuivers en leren sneeuwschuiven myResearch Portal en het belang van workflow data analyse Richard L. Zijdeman DAI: info:eu-repo/dai/nl/
Wat levert de tweede pensioenpijler op voor het personeelslid? 1 Enkele simulaties op basis van de weddeschaal B1-B3.
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
Wie het kleine niet eert ... (quarks, leptonen,….)
Toetsen als Leerinterventie. Samenvatten in het Testing Effect Paradigma. Kim J. H. Dirkx, Liesbeth Kester, Paul A. Kirschner CELSTEC, Open Universiteit.
“Waarom zouden we Genesis 1 op de letterlijke manier lezen? Genesis 1 is geen krantenverslag.” 3.
User management voor ondernemingen en organisaties
Naar meer rendement van het weidevogelbeheer Kerngebieden Weidevogellandschap, Tweede bijeenkomst met provincies 17 november 2011, Ede.
Cybersecurity puzzelen aan en mét computers Erik Poll
Al doende leren training docenten
LOMOZ Versterking van de positionering 1. 2 Agenda 1.Drijfveren: idealisme 2.Marketingbeleid 3.De vertaalslag naar de LOMOZ situatie 4.Plan van aanpak.
Digitale Didactiek Onderwijs anders organiseren, anders onderwijzen: andere kwaliteiten voor medewerkers 1digitale didactiek.
Effecten van visualisatie van participatie tijdens CSCL
Gebiedsvisie Groningen-West
AO 2 december 2009 Voorfase en startfase AO & Op weg naar ons eigen AO en Ons eigen ontwerp.
De gezonde school en genotmiddelen
ONLINE VERBONDEN EN INTELLIGENTE COMPUTERS Semantisch web Tom Schurmans Gunter Fransen Nand Truyen Nele Lieben.
Meer bekendheid via je Website
Je publiek aan het woord Hoe ga je beleidsmatig om met de stem van je publiek? Workshop - Dag voor Cultuurcommunicatie 13 december Gent.
Johan de Witt de eerste echte Republikein?
pret met intervisie: ket-lessen Conferentie BV NT2 24 mei 2014
Programma uur Opening door Hans Borstlap, voorzitter Bestuur Leerstoelen uur 'Soberheid' | Korte inleidingen en aansluitend discussie
De financiële functie: Integrale bedrijfsanalyse©
1 Amsterdam, april 2005 Drs. Frits Spangenberg Rotary Extern imago.
Welkom op donderdag 22 januari 2015 Vanaf 17:00 tot 19:00 uur (incl
12 sept 2013 Bodegraven 1. 2  vooraf lezen: 1Kor.7:12 t/m 24  indeling 1Korinthe 7  1 t/m 9: over het huwelijk  10 t/m 16: over echtscheiding  16.
1 SLIMME SAMENVATTINGEN. Samenvatting ex ante Uw vraag Onze suggestie Analyseer de functionele specificaties Maak een format Implementeer dat format Leer.
1 Nieuwe Staten Nieuwe begroting Wat & hoe. © PP in taal 2 Programma Aanleiding nieuwe begroting De SWBC en de geschiedenis van de cyclus Wat: de formats.
HELPWIJZER Have a break, Have a LightBite Have a break, have a LightBite Dit project kwam tot stand.
OFC28 mediawijsheid les 7 leren door te maken
Werkstukken en rapporten
Ordenen van gegevens Inleiding informatiesystemen © Sander Cox.
Cegeka & TenForce Ronde tafel 17/06/2014 Doelstellingenmanagement VO.
Project 3 Pedagogisch werken in de wijk Bijeenkomst 1 Kwartaal 1, schooljaar 2015/2016 Klas: VQR2A Docent: Petra van der Zee.
Rotterdam, 00 januari 2007 Project 3 Vrijdag 21 november 2014 Verzamelen, analyseren en presenteren van gegevens.
Social work Week 2.
Module Waarnemen, observeren en rapporteren Les 2
TERUGBLIK De koppeling naar de praktijk. Flipping the classroom.
Onderzoekend leren Hoe zien opdrachten voor onderzoekend leren bij wiskunde er uit? Tool IE-2: Het vergelijken van gestructureerde en ongestructureerde.
Tool WD-2: Verbinden van opdrachten aan de beroepscontext
Transcript van de presentatie:

BiographyNet BiographyNet Linking the world of History Workshop 4 april 2014, VU Amsterdam Serge ter Braake, Antske Fokkens, BiographyNet team

Programma Workshop 13:00 – 13:15: Inloop 13:15 – 14:00: Introductie Antske Fokkens (computationale linguïstiek) en Serge ter Braake (geschiedenis) + vragen 14:00 – 14:45: Werkgroep sessie 1 (eenvoudige vraag) 14:45 – 15:00: Uitkomsten en discussie 15:00 – 15:15: Pauze 15:15 – 16:00: Werkgroep sessie 2 (moeilijke vraag) 16:00 – 16:30: Uitkomsten en discussie 16:30 – 17:00: Borrel

Digitale Tekstanalyse Gratis tools eenvoudig te vinden, maar niet toegespitst op historische teksten/historisch onderzoek Woorden en zinnen tellen: Wordcloud maken: Woordfrequentie:

Test met de ‘Deductie van Johan de Witt’ (1654) Aantal woorden: Aantal zinnen: 749 Aantal woorden per zin: 46 Tijd om voor te lezen: 5 uur Mark Rutte (Innovation Convention in Brussel op 10 maart 2014): woorden, 16 woorden per zin

Wordcloud Deductie

Woordfrequentie Ende: 1275 keer Provinc/tie(n): 262 Acte: 72 Unie(n):72 Prince: 63 Vrede: 53 Seclusie: 50 Saecke:47 Tractaet: 41 Beverningk: 41 Nieupoort: 41 Oraigne: 31 Republiecque: 32 Godt: 27 keer (+ 10 keer een afgeleide) Vryheyt: 27 Bondtgenooten: 24 G(h)emeene:22 Bondtghenooten:12 Ondanckbaerheyt: 12 (samen met Ondanckbaerheydt) Publijcque: 5

Maar wat willen we nu echt automatisch uit een tekst halen? Kwantificeringen van ‘begrippen’, ‘periodes uit iemands leven’, ‘vergelijkingen met anderen’, ‘prosopografische analyses’, ‘leads in kwalitatieve onderzoeksvragen’ … Wat jullie … ? Een moeilijke taak, maar we gaan ons best doen

BiographyNet: Het blootleggen van relaties tussen mensen, plaatsen en gebeurtenissen Een interdisciplinair E-History project Wat is BiographyNet? Gefinancierd door het Nederlandse eScience Center Partners zijn het eScience Center, Huygens/ING en de Vrije Universiteit Amsterdam Startpunt: Het Biografisch Portaal van Nederland: 125,000 korte biografische beschrijvingen (met een beperkte set metadata) uit een grote variëteit aan biografische bronnen 76,000 individuen

Hoofdvraag hier Hoe kunnen we deze grote massa aan biografische data intelligent doorzoekbaar maken voor historici? Huidig zoekformulier van het portaal is nog beperkt (maar gaan we wel hier gebruiken):

Plan van aanpak Interdisciplinariteit is fundamenteel voor het ontwikkelen van een bruikbare tool De computer redeneert niet over moeilijke vragen, maar levert informatie aan die de historicus helpt bij het beantwoorden van complexe vragen Focus van vandaag: welke informatie is nodig om een bepaalde vraag (deels) te kunnen beantwoorden?

Algemene Doelen Workshop 1. De computationele linguïst houvast bieden voor het ontwikkelen van een systeem waarmee historische vragen beantwoord kunnen worden 2. De deelnemers inzicht bieden in de mogelijkheden van digitaal historisch onderzoek met biografische data (nu en in de toekomst)

Specifieke Doelen Workshop 1) Welke informatie heeft u nodig om uw vraag/vragen te beantwoorden? 2) Hoe kan dit worden vertaald naar bouwstenen in RDF (het voorgestelde formaat) ? 3) Welke subtiliteiten gaan hierbij (eventueel) verloren? 4) Wat zijn de mogelijkheden, beperkingen en uitdagingen?

De Opdrachten Een eenvoudige vraag, om je met de mogelijkheden van het portaal en de bronnen bekend te maken Een moeilijke vraag, die een goed doordachte methodologische aanpak vereist De manier waarop je het zou aanpakken staat hier centraal, niet de resultaten

Automatische tekstanalyse Doelen van automatische tekstanalyse in dit project: 1.Automatische analyse van de inhoud van de tekst: Wat staat er in de tekst? 2.Automatische analyse van de tekst zelf en taalgebruik: Hoe worden dingen beschreven?

Tekst en Taalgebruik analyse Welke woorden en constructies worden gebruikt? – Gebruik van modale hulpwerkwoorden of nuancerende bijwoorden – Neutrale woorden of woorden die een waarde oordeel bevatten Welke thema’s komen voor? Waar ligt de nadruk op? – Welke begrippen komen in verschillende bronnen voor?

Informatie extractie Doel van de extractie: – Wat staat er (precies) in de tekst? – Wat wordt er beweert en door wie? Representatie: – De geïdentificeerde informatie moet op doorzoekbare wijze worden weergegeven – Uitdaging: hoe kunnen we informatie uitgedrukt in taal op een gestructureerde manier weergeven?

RDF RDF: Resource Description Framework Een formaat dat ontworpen is om informatie aan elkaar te linken Entiteiten (inclusief personen en events) worden door IRIs (unieke identifiers, ook wel URI’s) gerepresenteerd Veel gebruikt: – We kunnen ook makkelijk verbanden leggen tussen data uit andere projecten – Veel kennis en tools voor het doorzoeken van RDF, redeneren met RDF, etc.

RDF, example

RDF overzicht Informatie is weergegeven door triples die bestaan uit een subject, predicaat en object Bestanddelen van triples zijn IRIs (unique identifiers) of ``literals’’ (woord, woordgroep of getal)

Slide IRI Johan de Witt

Voorbeeld triples SUBJECT PREDICAAT OBJECT bn: bn:hasDateofDeath “ ” bn: bn:hasName “Johan de Witt” dbpedia:moord_op_gebr_deWitt sem:hasActor dbpedia:Johan_de_Witt dbpedia:moord_op_gebr_deWitt sem:hasTime “ ” bn: skos:exactMatch dbpedia:Johan_de_Witt

RDF De unique IRIs betekenen altijd hetzelfde Door IRIs te gebruiken, kunnen we: – Alle informatie over een persoon of event vinden – Relaties met elkaar vergelijken – Informatie aan elkaar kopellen

IRIs (herkomst) We gebruiken bestaande IRIs waar mogelijk Personen in het portaal hebben een identificatie nummer. We kunnen op basis hiervan IRIs creeëren. We creëren ook IRIs voor events en personen die geen eigen identificatienummer hebben We hebben IRIs die woordbetekenissen kunnen weergeven

RDF Het is ook mogelijk om iets over een RDF triple te zeggen, bijvoorbeeld: – Wat is de herkomst van de informatie? – Wie beweert dat dit zo is en waar? – Hoe is de informatie geëxtraheerd? – Hoe betrouwbaar was de automatische extractie in een evaluatie? – Wat is de aangegeven `feitelijkheid’ van de informatie? (Is het gepresenteerd als feit of vermoeden)

Vragen voor vandaag Welke informatie zouden jullie uit de tekst willen halen om onderzoeksvragen te beantwoorden? Hoe zou deze informatie in RDF triples weergegeven kunnen worden? Welke informatie zouden jullie willen hebben die niet of moeilijk in een triple weergegeven kan worden?

De ‘eenvoudige’ vraag Mensen en functies: de gouverneurs-generaal van Nederlands-Indië Mensen en prestaties: beroemde sporters uit de geschiedenis Mensen en plaatsen: beroemdheden uit Weert Mensen en hun omgeving: Hans van Mierlo Mensen uit alle tijden: Assendelft, De Witt en Nicolai

De moeilijke vraag Mensen en gebeurtenissen: welke personen speelden een sleutelrol in het rampjaar 1672? Mensen en mensbeschrijvingen: Hoe is het beeld van de gouverneurs-generaal van Nederlands-Indië in de loop der eeuwen veranderd? Mensen en naties: In hoeverre was er sprake van ‘nationalisme’ in biografische woordenboeken van de negentiende tot de eenentwintigste eeuw? Mensen en wereldgeschiedenis: Vanaf wanneer werd de ontdekking van Amerika van werkelijk belang voor de Nederlandse elites? Mensen en mobiliteit: welke patronen kunnen er ontdekt worden in de manier waarop mensen zich geografisch voortbewogen?

Volgende stappen Rapport van onze bevindingen Observaties ? Feedback ?