Nederlandse Organisatie voor Wetenschappelijk Onderzoek A Common Multimedia Annotation Framework for Cross Linking Cultural Heritage Digital Collections LREC 2008, Marrakech, Morocco Hennie Brugman MPI for Psycholinguistics, Nijmegen, Netherlands Véronique Malaisé Free University, Amsterdam, Netherlands Laura Hollink Free University, Amsterdam, Netherlands
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Overview –The CATCH programme and its annotation requirements –Existing models –Annotation Meta Model (AMM) and its application to CATCH cases –Software and infrastructure –Conclusions
Nederlandse Organisatie voor Wetenschappelijk Onderzoek CATCH – Continuous Access To Cultural Heritage –Dutch research program funded by NWO –Apply state of the art methods to the construction and exploitation of digital collections of large Cultural Heritage institutions –Currently 10 projects, hosted by Cultural Heritage institutions –Rijksmuseum Amsterdam, Dutch National Archive, Dutch National Library, Netherlands Institute for Sound and Vision, etc –Results and software applicable across institutions and collections
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotations in CATCH Objectives: -Cross media, cross collection, cross institution annotation of digital objects and segments of objects -Add new layers of annotation to existing annotations -Centralize storage and exploitation of annotations generated by CATCH projects -Apply and showcase annotation recommendation modules/services from several CATCH projects
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotations in CATCH “some text description” Resource Primitive value (string, date, number,…) Semantic value property
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotations in CATCH “Abraham van Beijeren” Resource complete resource catalog, metadata resource types images text html, xml audio video artist
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotations in CATCH “very much” Resource segment – sound-video choral:transcription
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotations in CATCH “roemer” Resource segment - image racm-glass:Shape
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotations in CATCH “boven eener verloting te Amsterdam” Resource segment – scanned handwriting scratch:transcription
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotations in CATCH “boven eener verloting te Amsterdam” Resource segment – text scratch:transcription choice:location
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotations in CATCH “boven eener verloting te Amsterdam” Resource segment – text “bommenwerpers boven de hoofdstad”
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotations in CATCH “boven eener verloting te Amsterdam” Resource segment – text “bommenwerpers boven de hoofdstad”
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotations in CATCH –Further requirements for the annotation formalism –Project and media specific extensions –Predefined annotation schemes –Generic and specific queries possible –Expressive and simple –Reuse or include existing annotation models or vocabularies
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Existing annotation models –Semantic web community –Focus on (semantic) annotation values –Anchoring mainly to complete resources or web pages –Linguistic annotation community –Anchoring to text or time series –Usually no semantic values –Media industry (e.g. MPEG-7) –Objections –Not all media types covered –Too complex or specialized –Hardly ever annotation of annotations, and of segments of annotation values
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotation Meta Model (AMM) – why RDF? –RDF, RDFS and OWL seem good modeling languages for the domain of annotation - graphs versus hierarchies –Some of our requirements automatically met: –Class and property inheritance –Constraints (e.g. domains and ranges for properties) –Integration of semantic values –Classes and instances for annotation schemes and annotation resp. –General and specific queries
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Core model
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Core model
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Core model
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Core model
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Core model
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Core model AnnotatableObject Coordinates TimeSeriesObjectTextObjectImageObject TimeSegmentRegion2DTextSpan
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Scanned handwriting case ann
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Scanned handwriting case ann
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Scanned handwriting case ann
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Scanned handwriting case ann
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Scanned handwriting case ann
Nederlandse Organisatie voor Wetenschappelijk Onderzoek AMM – Other cases –Semantic annotations of segments of text documents –Manually annotated image regions –Complex linguistic annotation of co-occurring speech and gesture –Syntactic annotation of text
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Software and infrastructure –RDF repository, wrapped with AMM web service –Stores AMM model, project-specific annotation schemes and annotation data –Java API, defining and implementing this web service –Clients: documentalist support system –Integrated multimedia and web based “Annotation and Recommendation” demonstrator for CATCH
Nederlandse Organisatie voor Wetenschappelijk Onderzoek CHOICE Documentalist Support System
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Annotation and Recommendation demonstrator
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Conclusions –All requirements seem to be met –Applicable to a wide range of very different cases –Repository works efficiently, however not yet tested with a large number of AnnotatableObjects (so far, approx ) –Highlights: –Layered annotation –All media types are or can be supported –Annotation with multimedia objects or object segments possible
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Thank you
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Instances: CHOICE text annotation “ ” “Subject ” a1 addressesTextSpan partOf (n1, n2) “AndereTijdenGemmeker.txt” apoldaSubject apoldaOntology Subject_bevelhebbers_ apoldaIdentifier r1 dc:title
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Instances: video/audio annotation “dit is gesproken tekst” a1 addressesTimeInterval partOf t1 “gesturing_people.mpg” transcription textObject a2 partOf partOfSpeech (beginNode, endNode) t2 hasTime “3521” “4692” addressesTextSpan “some gesture description ” a3 addressesTimeInterval partOf t3 “gesturing_people.mpg” t4 hasTime “3854” “5290” handshape next dc:description dc:title
Nederlandse Organisatie voor Wetenschappelijk Onderzoek Instances: syntax tree on text a1 addressesTextSpan partOf (n0, n3) “german sentence 1” r1 dc:title “Der Mann geht schnell” hasText a2 a3 a4 partOf “Der” hasText “Mann” hasText (n4, n8) (n9, n13) (n14, n21) addressesTS “geht” “schnell” syntax D N V Adv NP1 VP1 S1 anchorsTo NP S VP anchorsTo syntax