Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatiemanagement Hogeschool van Amsterdam februari 2007 Toegankelijk zijn of toegankelijk maken (4) metadata, standaardisatie, uitwisseling, semantisch web
metadata & web dublin core rdf standaarden voor metadata interoperabiliteit het semantische web Eric Sieverts | | | metadata en uitwisseling
metadata en het (klassieke) web maakt het mogelijk om aan elk web-pagina (in de browser niet getoonde) metadata mee te geven HTML-syntax (welke tag te gebruiken en welke attributen daarbij) –“name“= veldnaam –"content“= veldinhoud –"lang" = taal van de content –"scheme“= toegepaste standaard voor de content bijvoorbeeld: Eric Sieverts | | |
metadata en web-technologie waarom metadata in web-pagina’s? –betere vindbaarheid met zoekmachines (niet voor Google, wel voor andere of lokaal geconfigureerde) –betere karakterisering in lijst zoekresultaten via “description” (te gebruiken voor korte beschrijving) –in principe mogelijkheid voor herkenning van aard, status, belang, "kind-veiligheid", etc. van webpagina (in praktijk niet echt van de grond gekomen) –alternatief voor echt “catalogiseren” van digitaal materiaal Eric Sieverts | | |
metadata en web-technologie probleem met metadata in web-pagina’s: –voor het web als geheel is geen enkele vorm van standaardisatie voorgeschreven oplossingen: –laat specifieke gebruikersgroepen vrijwillig standaardiseren bibliotheek- & informatiewereld: “dublin core” (is ook geadopteerd buiten echte bibliotheekwereld en buiten terrein van pure web-toepassingen) –maak het web zo slim dat “alles” begrepen kan worden (en standaardiseer daar toch ook wel een heleboel bij!!) interoperabiliteit het semantische web Eric Sieverts | | |
dublin core metadata syntax & semantiek van "properties" (name-attribuut) afspraken over gebruik van "Dublin Core" (sinds 1997) met 15 "velden" voor formele en inhoudelijke elementen Eric Sieverts | | | inhoudelijk (onderwerp) formeel (inhoud) formeel (intellectueel eigendom) formeel (fysieke weergave) titlesourcecreatordate subjectlanguagepublishertype descriptionrelationcontributorformat coveragerightsidentifier voorbeelden: intussen ook nog enkele toegevoegde "other elements" zoals: audience, provenance, rightsHolder, … officiële specificaties:
dublin core metadata - verfijningen verfijningen van syntax en semantiek van "properties": via "element refinements" van Dublin Core bij "coverage": specificatie of het plaats- of tijd-aanduiding is bij "relation": specificatie van aard van relatie tussen bij elkaar horende webpagina's (of andere objecten) officiële specificaties: daar al weer 33 element refinements en ook nog 7 other elements (2006) Eric Sieverts | | |
dublin core metadata - inhoud voor semantiek van metadata-inhoud: –geen standaardisatie opgelegd –wel per element de gebruikte standaard opgeven in "scheme"-attribuut voorbeelden overzicht van mogelijke schemes: Eric Sieverts | | |
dublin core in bibliotheek-omgeving in digitale bibliotheekomgeving streeft men vrijwillig (!) naar toepassing van DC-standaardisatie toepassing vooral bedoeld voor compatibiliteit en uitwisseling binnen bepaalde doelgroep, of zelfs alleen maar voor lokaal gebruik DC wordt zeer regelmatig toegepast zonder dat het echt om web- pagina's gaat (bijv. Open Archive Initiative) DC is veel eenvoudiger dan "echte" bibliotheek-standaarden (MARC, ISBD,...) [maar er zijn wel mappings met MARC] "element refinements" vaak aangepast aan lokale wensen gebruik van verschillende standaarden naast elkaar mogelijk rdf (resource description framework) is algemeen formalisme dat zelfs helemaal daarop gericht is Eric Sieverts | | |
Resource Description Framework RDF is gespecificeerd voor (vooral) XML-omgeving om betekenis/semantiek aan documenten te kunnen toevoegen zodat metadata die uit heel verschillende systemen afkomstig kunnen zijn, op dezelfde gestandaardiseerde manier aan “objecten” kunnen worden toegevoegd –XML-tags (gedefinieerd via dtd of schema) kunnen al betekenis geven aan onderdelen van de document-inhoud zelf –maar RDF zorgt er voor dat je op veel beter gestandaardiseerde en georganiseerde wijze, via metadata, betekenis kunt meegeven Eric Sieverts | | |
Resource Description Framework RDF definieert een infrastructuur om zulke semantiek gestandaardiseerd te definiëren, waarbij documenten zelf-verklarend worden, zodanig dat computers hun betekenis kunnen afleiden, waarbij verwezen wordt naar computerleesbare beschrijvingen van de semantiek en de standaarden die ze gebruiken, zodat samenwerking en (her)gebruik van elders ontwikkelde standaarden mogelijk wordt. Eric Sieverts | | |
het rdf-model bedoeld voor beschrijven van bronnen (resources / objecten) die identificeerbaar zijn via een uniform resource identifier (URI) middels eigenschappen (property-types / attributen) die een waarde (value) kunnen hebben property-types definiëren relaties tussen values en resources voorbeeld: "Jan is de auteur van document1" 1.document1 is als resource gedefinieerd via een URI (bijv. een URL) 2.document1 heeft een property-type "auteur" 3.die property-type heeft de waarde "Jan" dus eigenlijk: document1 heeft als auteur Jan Eric Sieverts | | |
het rdf-model een "value" hoeft niet altijd een woord of getal te zijn (zoals "Jan"), maar mag zelf ook weer een "resource" met “properties” wezen 1.ook "Jan" moet dan als resource gedefinieerd zijn 2.ook "Jan" kan dan weer een aantal property-types hebben (bijv. naam, mailadres, instituut,....) 3.ook die property-types kunnen weer waarden hebben Eric Sieverts | | |
het rdf-model Eric Sieverts | | | dat wordt in rdf-syntax dan iets ingewikkelds als: <rdf:RDF xmlns:rdf=" xmlns:ex=" John Smith Home Inc. xml namespace verwijzingen naar definitie voor RDF en voor systeem “ex” rdf:description wordt gebruikt voor identificatie van de resources (kan ook verwijzen naar html-document) en daarbinnen de elementen uit de standaard “ex”
het rdf-model Eric Sieverts | | | dublin core metadata worden in rdf-syntax iets als: <rdf:RDF xmlns:rdf=" xmlns:dc=" Minicursus RDF In dit document wordt uitgelegd hoe rdf werkt text/ppt nl HvA - MIM Eric Sieverts
rdf en namespaces RDF is bedoeld om bestaande, elders ontwikkelde, semantische systemen te kunnen (her)gebruiken via de vermelde zogenaamde “namespaces” kunnen die worden geïdentificeerd (en zijn ze via een URL vindbaar) een namespace is dus een “web-verwijzing” naar een te gebruiken semantiek –dat maakt modulariteit mogelijk, zodat je tegelijkertijd meer, elkaar aanvullende systemen kunt gebruiken; bijv.: "Dublin Core" (DC) naast "Learning Object Metadata" (LOM) –dat maakt hergebruik eenvoudig en aantrekkelijk, want in je eigen dtd/schema hoef je geen metadata meer te verwerken als elders al een geschikte beschrijving bestaat Eric Sieverts | | |
rdf schema’s hoe de structuur van te gebruiken metadata in elkaar zit, is ook volgens het RDF-formalisme in XML uit te drukken –daarvoor te gebruiken RDF-schema: RDFS (schema is huidige standaard voor document type definities) –dat mag ook een “boomstructuur” zijn, in plaats van het lineaire rijtje velden van Dublin Core –daarin kunnen ook klassen van objecten worden gedefinieerd (bijv. veld “uitgever” behoort tot de klasse van “leveranciers”) dit biedt eerste aanzet om metadatadefinities computerinterpreteerbaar te kunnen maken Eric Sieverts | | |
interoperabiliteit in netwerkomgeving is integratie van (vaak heterogene) bronnen van belang, hetgeen “interoperabiliteit” vereist interoperabiliteit kan verschillende dingen inhouden, zoals: –mogelijkheid om gegevens uit te wisselen tussen verschillende systemen –mogelijkheid om in één keer te zoeken in gegevens van/uit meer verschillende systemen daarbij gaat het vooral om de gebruikte metadata, zowel op syntactisch als op semantisch niveau recent artikel over interoperabiliteit in D-Lib Magazine: L.M. Chan, M.L. Zeng (2006) - Metadata interoperability and standardization: a study of methodology; Part I. Achieving interoperability at the schema level in: D-Lib Magazine 12, nr 6, Eric Sieverts | | |
interoperabiliteit manieren om systemen interoperabel te maken: in verschillende systemen hetzelfde metadatasysteem gebruiken (zowel technisch, als structuur, zoals bijv. XML + DC bij OAI) in verschillende systemen dezelfde standaarden voor de inhoud van de metadata gebruiken (zoals bij GOO; niet bij OAI!) zorgen dat systemen elkaars metadata kunnen “begrijpen” op niveau van het systeem (bijv. via concordantie tussen de “velden”) zorgen dat systemen de betekenis van de inhoud van elkaars metadata kunnen “begrijpen” (bijv. via concordantie van vocabulair) » problematiek ligt zowel op syntactisch als op semantisch niveau » voor die laatste twee aanpakken is RDF te gebruiken Eric Sieverts | | |
interoperabiliteit (op veld-niveau) 1: specificeer welke metadata op welke wijze in een bepaald systeem worden toegepast –in application profile: specificatie welke elementen uit welke (verschillende) metadata standaarden in een specifieke situatie worden toegepast –in metadata registry: gedetailleerde beschrijving van één specifiek metadata schema (zoals bijv. het Dublin Core Metadata Registry op DCMI-site) van de metadata schema’s die in bepaalde toepassing worden gecombineerd - en in application profile zijn gespecificeerd (zoals bijv. het TEL-registry van The European Library) doel: daarnaar kunnen verwijzen (linken) ten behoeve van hergebruik, conversie of concordantie Eric Sieverts | | |
interoperabiliteit (op veld-niveau) 2: je kunt converteren van ene schema naar andere schema via “crosswalk” (veld-concordantie) –één op één (zoals bij “MARC-DC crosswalk”) –veel-op-veel via vaste tussenstap (zoals bij “Getty crosswalk”) Eric Sieverts | | | cdwa cco vra marc cimi dc mods ead fda marcdc
interoperabiliteit (op veld-niveau) probleem bij deze conversies: –verschillen in opzet, structuur en detail tussen de verschillende schema’s Eric Sieverts | | |
interoperabiliteit (op vocabulair-niveau) alleen “melden” welke vocabulair-standaard (scheme) wordt gebruikt (zoals bij DC) is natuurlijk nog niet genoeg voor interoperabiliteit ten behoeve van zoeksysteem tot de oplossing behoren onder meer: –klassieke concordanties algemeen probleem ook hier: verschillen in opzet, specificiteit, granularity, mate van pre/postcoördinatie, hiërarchische structuur, culturele achtergrond,.... tussen verschillende vocabulaires –terminology services web-service met infrastructuur en functionaliteit voor bevragen van terminologie, bijvoorbeeld via Zthes-protocol (zowel Z39.50 als SRU) Eric Sieverts | | |
SKOS om interoperabiliteit via terminology services “automatisch” te kunnen laten verlopen is meer nodig: standaard om computerleesbaar te beschrijven hoe een bepaald ontsluitingssysteem in elkaar zit en hoe onder meer de relaties tussen begrippen moeten worden geïnterpreteerd (bijv.: of iets een BT, een scope note of.... is) dat kon al een beetje met RDFS daarvoor is nu in ontwikkeling SKOS: Simple Knowledge Organisation System daarbij wordt (ook) gebruik gemaakt van RDF met SKOS kunnen ook verschillende ontsluitingssystemen (ontologieën) gecombineerd worden Eric Sieverts | | |
OWL om interoperabiliteit “automatisch” te kunnen laten verlopen is meer nodig: standaard om computerinterpreteerbaar te beschrijven wat de betekenis is van de concepten in een ontsluitingssysteem (liefst een echte ontologie) daarvoor is beschrijvingstaal ontwikkeld: OWL: web ontology language Eric Sieverts | | |
DC + XML + RDF(S) + SKOS + OWL combinatie van technieken, methoden en standaarden voor opslaan, structureren, vullen, formaliseren, beschrijven en interpreteren van metadata –wordt gebruikt voor verdere ontwikkeling van interoperabiliteit –ligt ook aan de basis van het semantisch web zie ook recente serie “de standaard” in Informatie Professional waarin al deze begrippen worden uitgelegd juni 2006XML juli/augustus 2006DC oktober 2006RDF(S) november 2006SKOS december 2006OWL Eric Sieverts | | |
rdf en semantisch web rdf is ook de basis voor het idee van een semantisch web daarbij gaat het er echter om ook echt - computer- herkenbaar - betekenis te kunnen toekennen aan gebruikt vocabulair in metadata Eric Sieverts | | |
Semantic Web LayerCake (Berners-Lee, 99;Swartz-Hendler, 2001) door W3C gespecificeerd meer-lagen model voor semantisch web waarin aan informatie automatisch betekenis kan worden toegekend
rdf en semantisch web Eric Sieverts | | | ascii, unicode, url,.. xml, dtd’s, namespaces technische basisstructuren betekenis van xml-tags alleen op lokaal niveau bekend in DTD is bijv. wel een tag gedefinieerd, maar hoe weten anderen (of een computer) dat, en hoe weten die wat dat betekent? W3C's meer-lagen model voor semantisch web
zo ziet een willekeurige web-pagina in natuurlijke taal er voor een machine uit
CV name education work private met XML kun je “betekenisvolle tags” aan stukken van de tekst toevoegen
CV name education work private maar XML is nog geen computer-toegankelijke betekenis; voor een machine zien die tags er ook gewoon uit als:....
rdf en semantisch web Eric Sieverts | | | ascii, unicode, url,.. xml, dtd’s, namespaces rdf, rdf-schema’s (dc, …) technische basisstructuren betekenis van xml-tags alleen op lokaal niveau bekend metadata-formalismen wel bekend, maar geen betekenis met rdf zijn documenten wel zelf-verklarend en weten anderen (ook computers) hoe metadata- schema in elkaar zit en wat tags betekenen, maar nog altijd niet wat de inhoud betekent W3C's meer-lagen model voor semantisch web
rdf en semantisch web Eric Sieverts | | | ascii, unicode, url,.. xml, dtd’s, namespaces rdf, rdf-schema’s (dc, …) ontologieën technische basisstructuren betekenis van xml-tags alleen op lokaal niveau bekend metadata-formalismen wel bekend, maar geen betekenis betekenis toekennen aan vocabulair op door computer interpreteerbare wijze W3C's meer-lagen model voor semantisch web
ontologieën en semantisch web wat betekenen “ontologieën” hier ? begrip oorspronkelijk afkomstig uit de filosofie en daarna ook uit de wereld van de kunstmatige intelligentie: in ontologie wordt kennis van (een stukje van) de wereld vastgelegd het dient als "kennis-representatie" wordt in semantisch web-wereld zeer ruim opgevat: in het algemeen aanduiding voor allerlei soorten ontsluitings-systemen wel essentieel: ontologie moet computerleesbaar, -interpreteerbaar en -verwerkbaar beschikbaar zijn (er zijn dus formele beschrijvingstalen voor nodig) Eric Sieverts | | |
ontologieën en semantisch web hoe maakt men dat ontologieën computer- interpreteerbaar zijn ? daarvoor worden standaarden en beschrijvingstalen ontwikkeld; bijvoorbeeld: OWLweb ontology language ( belangrijk ook: mappings/concordanties tussen kennis-representaties Eric Sieverts | | |
ontologieën en semantisch web voorbeelden van ontologieën: in kunst-documentatiesysteem vanuit één systeem namespace-verwijzingen naar: –Art & Architecture Thesaurus (thesaurus) –IconClass (beeld-classificatie) –WordNet (semantisch netwerk) –Union List of Artist Names (authority list) –AAT Wordnet equivalenties (concordantie) –Dublin Core voor annotaties (metadata-systeem) uiteindelijk doel: met betere precisie en recall kunnen zoeken naar (afbeeldingen en/of beschrijvingen van) kunstwerken Eric Sieverts | | |
annotating with a concept : term disambiguation
Eric Sieverts | | | typisch semantisch web voorbeeld: zoeken naar plaatje A person searches for photos of an “orange ape” An image collection of animal photographs contains snapshots of orang-utans. The search engine finds the photos, despite the fact that the words “orange” and “ape” do not appear in annotations © Guus Schreiber UvA / VU
semantische annotatie
© Guus Schreiber UvA / VU Eric Sieverts | | | rdf annotatie van een web-bron
Eric Sieverts | | | © Guus Schreiber UvA / VU zie: de "species ontology"
wat moet er verder nog gebeuren? Eric Sieverts | | | ascii, unicode, url,.. xml, dtd’s, namespaces rdf, rdf-schema’s (dc, …) ontologieën technische basisstructuren betekenis van xml-tags alleen op lokaal niveau bekend metadata-formalismen wel bekend, maar geen betekenis betekenis toekennen aan vocabulair op door computer interpreteerbare wijze W3C's meer-lagen model voor semantisch web lagen hierboven, die uiteindelijk tot betrouwbaarheid van de zo gepresenteerde informatie en kennis moeten leiden, moeten in de toekomst nog ontwikkeld worden