Ontsluiten en zoeken kunnen we het nog vinden? Eric Sieverts

Slides:



Advertisements
Verwante presentaties
Autisme en Mindmap Thuis en op School
Advertisements

Special Interest Group SIG EduStandaard ES Werkgroep Metadata WG MD maart 2013 Mogelijk gemaakt door:
Hoofd Afdeling Digitale Biblitheekvoorzieningen
Module: Delicious • Verzameling ‘favorieten of bookmarks’ • Eenvoudig om eigen bookmarks bij te houden • Je kan er overal aan (waar internet is) • Gebruikt.
Online Marketing voor het MBO “SEO, dat kun je zelf!”
Fedora Content Model en XSLT Fedora op Klompen, Amsterdam, Egbert Gramsbergen TU Delft Library / Digital Product Development
(c) Marc de Graauw Presentatie XML Marc de Graauw 2 maart 2000.
Vervolgbijeenkomst 2 Procesfasering bij Leren Leren.
Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014.
thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.
Management van Bibliografische Informatie (MBI) Module 4 College “Big Picture” Universiteitsbibliotheek UM 2002, 10 juni.
Metasearch wat is het probleem bij de oplossing? welke oplossing bij welk probleem?
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Het Semantic Web: voor een gezonder Web Lloyd Rutledge, Universitair Docent, INF Opening Academisch Jaar, 18 juni 2008.
LITERATUUR ONDERZOEK.
Vakliteratuur opzoeken Lieve Devos. LibriSource+ Nieuw portaal voor toegang tot elektronische bronnen Gemeenschappelijk platform.
zoeken en ontsluiten in de wereld van Google
Eric Sieverts Sector Innovatie & Ontwikkeling Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatie Management Hogeschool van Amsterdam Moderne.
Google Scholar de googlificatie van de wetenschap ? Eric Sieverts
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
1 Het probleem RO Milieu Landbouw SocZekerheid Etc. LerenWerkenWonenPensioenEtc. Overheids- organisatie Burger ??? Regelgeving per domein Vraag op levensmoment.
Samenwerken en netwerkvorming Brede School 16 mei 2008 Rita L’Enfant
Trefwoorden overbodig? De gebruiker aan het woord Annemieke Jurgens InfoManagement 27 april 2006.
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
Meten bij marktonderzoek
1 OMI Technisch ontwerp. 2 Technisch ontwerp ‘content’ Veel breder dan business portals (Carlson) Verschillende aspecten / aandachtspunten:
Presentatie Studiemiddag Indexen en Nadere Toegangen Ralph Stuyver, Projectmanager 4 maart 2010.
Web 2.0 Social Software Toolkit 1/21 Introductie tot Social Software Patrick Klaassen RU
Management van Bibliografische Informatie DOELEN ALGEMEEN: leren zoeken van wetenschappelijke literatuur SPECIFIEK voor dit blok: –literatuur zoeken over.
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
ONLINE VERBONDEN EN INTELLIGENTE COMPUTERS Semantisch web Tom Schurmans Gunter Fransen Nand Truyen Nele Lieben.
Technische Architectuur
EhBIB Search Eenvoudig en geavanceerd zoeken Zoekresultaten weergeven.
ERIC Zoeken op onderwerp Universiteitsbibliotheek.
Recordkeeping - in 7 stappen naar een digitaal archief
Informatievaardigheden Corrie van Zeist, Marco van Veller, Ans Brouwer en Wouter Gerritsma September 2009.
Informatievaardigheden Corrie van Zeist en Marco van Veller September 2008.
3/30/2015 | 1 Bibliotheekinstructie Nederlands 2014.
Informatievaardigheden Bedrijfs- en Consumentenwetenschappen
Ordenen van gegevens Inleiding informatiesystemen © Sander Cox.
Kennismanagement & Sociale media
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Informatievaardigheden Introductie BPE-10806
Java Objectgeoriënteerd Programmeren in Java met BlueJ
Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.
Van librije tot digitale bibliotheek: de universiteitsbibliotheek utrecht eric sieverts.
Let’s go! ›Beginnerspresentatie ›Starten met prospero ›Verschil CMS en web navigator ›Nieuwe content > nieuwe folder aanmaken ›Bestanden uploaden ›Linkobject.
Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatiemanagement Hogeschool van Amsterdam februari 2007 Toegankelijk zijn of.
Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatiemanagement Hogeschool van Amsterdam februari 2007 Toegankelijk zijn of.
Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatiemanagement Hogeschool van Amsterdam februari 2007 Toegankelijk zijn of.
Eric sieverts Inhoudelijk Toegankelijk Maken najaar 2015 retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen of eigenlijk: "vind"-problemen.
Hoe maak ik een PowerPoint presentatie?
Workshop Taxonomie en ontsluiting. 1.Retrieval en Ordening 2.Zoeken en Browsen 3.Alfabetisch en Systematisch 4.Thesaurus en Classificatie 5.Aristoteles.
1 Waarom COINS en waarom “Redesign the Standard”? Dik Spekkink Clustermanager Proces & IT Wat is.
Hoe positioneer ik mijn uitgeverij 10 do’s en dont’s Windkracht62 1 WINDKRACHT (0) Ian Muller.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
SharePoint Alles over metadata In de Private en Public cloud.
Surfen op het internet Basisbegrippen
Databank ABI Inform en Proquest
Kluwer The end of Publishing
Big Data.
Goochelen met Google Zoeken
Big Data.
Transcript van de presentatie:

Ontsluiten en zoeken kunnen we het nog vinden? Eric Sieverts Universiteitsbibliotheek Utrecht & Instituut voor Media- & Informatiemanagement Hogeschool van Amsterdam januari 2007

waarom ontsluiten we eigenlijk ? we ontsluiten om te kunnen vinden dat is waar (want nodig) voor niet-digitaal materiaal dat is waar (want nodig?) voor digitaal niet-tekst materiaal is dat ook nog altijd waar voor digitaal materiaal? in een Google-maatschappij is het in elk geval niet meer strikt nodig Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting en vinden agenda: hoe wordt nu ontsloten? ontsluiting en metadata in een web-omgeving klassieke principes en nieuwe inzichten ontsluiten voor browsen of voor zoeken de gebruiker aan de macht? wat te doen als handmatig ontsluiten te duur wordt? “user-generated tagging” automatisch classificeren alleen retrieval i.p.v. ontsluiting ? standaardisatie en toekomst van metadata dublin core rdf en xml semantisch web Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting klassiek: digitaal: formele ontsluiting inhoudelijke ontsluiting eveneens: formeel & inhoudelijk nu: metadata nu ook onder noemer : knowledge organisation systems (KOS) maar tevens beschikbaarstelling / toegankelijkheid: wijze van opslaan linking van documenten (door)zoekbaarheid …... digitaal: Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

terminologie van KOSsen classificatie systematische ordening van "objecten" in boom- structuur (elk object kan in principe maar op één plaats staan) thesaurus woordsysteem met voorkeurstermen (+ verwijzingen) waartussen hiërarchische relaties (meestal veel "losse boompjes") (postcoördinatie: elk object kan met meer woorden gekarakteriseerd) taxonomie meestal: enkelvoudige zuiver hiërarchische structuur (eenvoudig soort classificatie), inclusief zijn "content" semantisch netwerk “alle” woorden uit de taal, waartussen velerlei soorten getypeerde relaties ontologie woordsysteem waarin “kennis van de wereld” (oorspronkelijk uit wereld van kunstmatige intelligentie); als thesaurus, maar met meer soorten getypeerde relaties; in context van semantisch web in de praktijk vaak in het algemeen gebruikt voor allerlei van bovenstaande types van systemen Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

visualisatie van de structuur van KOSsen is een belangrijk terrein van onderzoek, zowel ten behoeve van navigatie als van ondersteuning bij het zoekproces voorbeeld voor een classificatie/taxonomie: de structuur van de OpenDirectory

visualisatie van een “soort” thesaurus: de Roget-thesaurus

visualisatie van semantisch netwerk: “wordnet”

visualisatie van een deel van een “business”-ontologie

ontsluiting in een web-omgeving - thesaurus Henk Magrijn (MIM/HVA): een thesaurus is een postcoördinatieve informatietaal, die bestaat uit een geordende verzameling van uit natuurlijke taal, op basis van zoveel mogelijk enkelvoudige begripseenheden, gekozen termen, waarvan de vorm, en de onderlinge semantische relaties zijn vastgelegd een thesaurus is geschikter voor zoeken dan voor browsen Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting in een web-omgeving - thesaurus ten behoeve van gemak van zoeksysteem verwijzingen op basis van: Gelijkwaardigheid (synoniemen) Aves Vogels Use Vogels UF Aves >> automatisch daarop kunnen zoeken Hiërarchie (ruimere en specifiekere begrippen) [geslacht/soort, geheel/deel] Vogels Zangvogels NT Zangvogels NT Kanaries BT Dieren BT Vogels TT Dieren >> generiek (hiërarchisch) op begrippen kunnen zoeken Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting in een web-omgeving - thesaurus Voor zoekgemak, -effectiviteit en -kwaliteit: denk wel om de zuiverheid van de relaties! Alleen bij geslacht/soort, geheel/deel dus niet bijvoorbeeld: Objecten - producten Vogels NT Eieren Objecten - activiteiten Vogels NT Voortplanting Abstract - concreet Voortplanting NT Eieren Et cetera Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting in een web-omgeving - gebruiksgemak in een Google-wereld zoekvraag automatisch vertalen naar juiste term(en): met behulp van “user thesaurus” (heel veel synoniem-relaties) mapping van thesaurustermen met semantisch netwerk (ook voor vak-jargon?) dialoog-systeem dat gebruiker meer informatie over zijn vraag ontfutselt, of andere taaltechnologie probeert systeem de juiste zoektermen te vinden bij door gebruiker ingetikte zoekwoorden automatisch generiek zoeken ....... voorbeeld: Pubmed database op internet Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting in een web-omgeving - classificatie doel van classificatie: zodanig orde brengen in een verzameling objecten, informatie, …., dat iemand er de weg in kan vinden fysieke of virtuele plaatsing en ordening van objecten, documenten, informatie, bestanden, ….. een classificatie is handiger voor browsen dan voor zoeken, zeker in een web-omgeving Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting in een web-omgeving - classificatie Henk Magrijn (MIM/HVA): Classificatie (als activiteit) is het bij elkaar brengen van zaken die iets met elkaar gemeen hebben en het scheiden van zaken die van elkaar verschillen Een classificatie (als "ding") is een precoördinatieve informatietaal, die bestaat uit een geordende verzameling van termen die al dan niet complexe onderwerpen beschrijven, waarvan de vorm, en de onderlinge semantische en syntactische relaties zijn vastgelegd Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting in een web-omgeving - classificatie jarenlange gebruikspraktijk wijst uit dat je er naar moet streven je aan de volgende theoretische bouwregels te houden: eenheid van verdelingskarakteristiek onderverdeling van een klasse moet gebaseerd zijn op één en hetzelfde criterium co-extensie van een klasse met haar subklassen gezamenlijke omvang van de subklassen moet gelijk zijn aan de omvang van de klasse die onderverdeeld is modulatie of gradatie verdeling van een klasse in subklassen moet geleidelijk verlopen collocatie rangschikkingsvolgorde van subklassen van dezelfde klasse (presentatie): naaste buren, naaste verwanten Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting in een web-omgeving - classificatie eenheid van verdelingskarakteristiek en co-extensie niet: 123 auto's 123.1 personenauto's 123.2 raceauto's 123.3 vrachtauto's 123.4 rode auto's 123.5 trapauto's 123.6 speelgoedauto's 123.7 dieselauto's ........ maar??: 687.1 kleding 687.11 herenkleding 687.12 dameskleding 687.13 kinderkleding 687.14 sportkleding 687.15 gelegenheidskleding 687.16 beroepskleding 687.17 beschermende kleding 687.2 schoeisel indelingscriteria: doelgroep, gebruik, mate van bescherming Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting in een web-omgeving - classificatie voorbeeld van "modulatie" niet: 638 Dieren 638.1 Parkieten wel: 638 Dieren 638.1 Vogels 638.11 Zangvogels 638.111 Parkieten mogelijke "collocatie"-volgorde evolutionair (opening, middenspel, eindspel) chronologisch (15e eeuw, 16e eeuw, 17e eeuw, ..) gebruiksfrequentie alfabetisch etc. als de gebruiker het maar "door heeft" Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting in een web-omgeving - taxonomie een classificatie (als "ding"), in een aanklikbare presentatie van categorieën, die specifiek aansluiten op de onderwerpen, doelstellingen, taken, werkprocessen, beschikbare content, ......... van het bedrijf / de organisatie en met omschrijvingen gekarakteriseerd worden, Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontsluiting in een web-omgeving - taxonomie vaak ook: inclusief de volgens die systematiek ingedeelde "content" combinatie met thesaurus-achtig woordsysteem om gebruiker ook via zoekproces naar juiste categorie te leiden soms ook: "meer-dimensionaal" voor meer invalshoeken zie voorbeeld van Verity Eric Sieverts (MIM-HvA) DIO (10/11/2004)

ontsluiting in een web-omgeving - taxonomie / classificatie stappen bij bouwen van taxonomie/classificatie doel bepalen onderwerpen verzamelen homogene groepen maken (ordenen in klassen) collocatievolgorde bepalen - - - - - - - - - - - - - - - - - - - - - - - - - < tot hier in elk geval > combinatievolgorde vaststellen ("economie-frankrijk" of andersom) notatie toekennen (indien nodig) ...… presentatie van klassen en hun “content” categorieën via hyperlinks aan te klikken en doorgelinkt content vrijwel altijd dynamisch vanuit database of content management systeem gegenereerd Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

linking als ontsluiting linking wordt een steeds belangrijker vorm van ontsluiting, want: links brengen je naar (andere) gerelateerde informatie en “relaties” zijn een algemeen verschijnsel in elk soort informatiesysteem tussen begrippen zagen we die al (bijv. thesaurus) maar ook direct tussen "objecten" (bijv. hyperlinks, literatuurreferenties, relationele database) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

hyperlinks hyperlinks in een web-omgeving hebben ook invloed op klassieke ontsluiting: maken presentatie en gebruik van taxonomieën en classificaties veel makkelijker (gewoon links aanklikken) je hoeft niet zo heel streng te zijn met klassieke regels voor bouw van de systemen (klasse op meer plaatsen in boomstructuur: variabele combinatievolgorde, aanklikbare dwarsverbanden) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

literatuurreferenties (reference linking) link van bibliografisch record in database naar digitale full-text link van literatuurreferentie in full-text artikel naar full-text van aangehaalde referentie link van literatuurreferentie in citatie-index naar bibliografisch record van aangehaalde (geciteerde) referentie ……. Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

bibliografische metadata  full-text

referentie bij full-text (of andere vorm) van aangehaald artikel

literatuurreferenties (reference linking) veel recente ontwikkelingen in technieken hiervoor onder meer: doi / crossref (van club grote uitgevers) sfx (van bibliotheekautomatiseerder) openURL (open source / metadata based) sfx en openURL gericht op mogelijkheid om bij een object meer gerelateerde "services" aan te bieden voor meer informatie zie: http://www.library.uu.nl/medew/it/eric/presentaties/reflinking.ppt Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

voorbeeld van keuzemenu bij tijdschrift- artikel link alleen als er digitaal abonnement is link alleen als er geen digitaal en wel papieren abonnement is link alleen als er geen abonnement is links naar mogelijke additionele informatie naar keuze

als handmatig ontsluiten (door specialist) te duur wordt gebruikers het werk laten doen (“user generated tagging”) automatisch classificeren / verrijken retrieval i.p.v. ontsluiting Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

de (eind)gebruiker aan de macht? nieuwe hype onder de noemer van WEB 2.0 tagging social bookmarking folksonomies .... (zelf “trefwoorden” toekennen) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

de (eind)gebruiker aan de macht? bij web-2.0 diensten kan iedereen zijn eigen tags (= trefwoorden) toekennen aan: webpagina's als bookmarks (del.icio.us, connotea, furl, yahoo-myweb, ...) om zoekmachine te "tunen" (wink, yoono, ...) nieuws (digg) foto's en video's (flickr, youtube) blogposts (overal) .... Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

de (eind)gebruiker aan de macht? waarom is tagging leuk? iedereen bepaalt zelf hoe iets te karakteriseren ("people powered") gebruiker kent eigen jargon het beste gericht op samenwerking ("collaboration, sharing, ...") visualisatie met "tag clouds" waarom is tagging niks? geen enkele standaardisatie en controle nu vooral nog voor "populaire" toepassingen tag clouds tonen alleen wat de grote massa leuk vindt Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

de (eind)gebruiker aan de macht? kan tagging interessant worden? voor publiekstoepassingen is het dat al voor bedrijfsmatige toepassing misschien: binnen (tijdelijke) samenwerkingsverbanden met zelfde "woordgebruik" als informatie-professional supervisie houdt over consistentie van gebruikte terminologie (maar staat dat niet haaks op de gedachte achter tagging?) bij “mapping” op thesaurus Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

professionele toepassing van tagging via del.icio.us

automatisch classificeren - stappen in het proces meestal: systeem analyseert trainingsdocumenten systeem wordt getraind door matchen van trainingsdocumenten met “klassen” (of handmatig opstellen van kennisregels) systeem analyseert nieuwe documenten systeem matcht nieuwe documenten met “klassen” systeem moet bijleren bij probleemgevallen Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch classificeren technieken voor analyse van documenten statistiek van document wordt “vingerafdruk” gemaakt door extractie van meest karakteristieke woorden op basis van relatieve woordfrequenties (tfidf : term-frequentie x inverse document frequentie; in document vaker voorkomende termen die verder zeldzaam zijn) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch classificeren technieken voor analyse van documenten statistiek regels op basis van vaste - handmatig ingestelde - regels bepaalt de computer welke termen karakteristiek zijn voor (bepaalde aspecten van) de inhoud van een document omdat ze in de titel staan omdat ze met hoofdletters zijn geschreven omdat ze in een vastgelegd rijtje woorden voorkomen vanwege XML-tags …... Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch classificeren technieken voor analyse van documenten statistiek regels taaltechnologie / linguistische analyse op basis van taalregels herkent de computer samengestelde begrippen, wat zelfstandige naamwoorden zijn, enz. vooral ten behoeve van "normalisatie”: Morfologisch: manager, gemanaged Compounds: hockeytoernooi, hockeystick Syntactisch: energiebesparing, besparing van energie Semantisch: transport, vervoer Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch classificeren technieken voor analyse van documenten statistiek regels taaltechnologie / linguistische analyse in de praktijk worden meestal combinaties van deze drie basistechnieken toegepast Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch classificeren - training van systeem thesaurus trainingsdocumenten analyse module trainings module  Joop van Gent, Irion “vinger- afdrukken” Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch classificeren - training van systeem thesaurus trainingsdocumenten verrijking van thesaurus analyse module trainings module  Joop van Gent, Irion “vinger- afdrukken” Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch classificeren - matchen trainingsdocument met klasse handmatig (per document door “documentalist”) automatisch (op basis van al eerder aan documenten toegekende klassen; het was ooit al eens door iemand ontsloten / ingedeeld) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch classificeren - vastlegging karakteristieken karakteristieken voor klassen / thesaurustermen kunnen zijn vastgelegd: in “black-box” (geheel automatisch) in formele “kennis”-regels automatisch gegenereerd en handmatig aan te passen geheel handmatig vastgelegd Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch classificeren - classificeren met systeem nieuwe documenten verrijkte thesaurus analyse module classificatie module verrijkte documenten “vinger- afdrukken”  Joop van Gent, Irion Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch classificeren - matchen van documenten met klassen vergelijking van vingerafdruk van (nieuw) document met vingerafdrukken van alle klassen (thesaurustermen) matching bijvoorbeeld met “vector-model” ingestelde drempelwaarden bepalen vaak betrouwbaarheid van toekenning denk ook hier aan 80/20-achtige regels hoeveelheid handmatig te verwerken twijfelgevallen omgekeerd evenredig met mate van betrouwbaarheid Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch classificeren - enkele voorwaarden uit ervaringen bij Irion (Joop van Gent) zijn nodig: een goede thesaurus/taxonomie, met niet te veel categorieën (< 5000) en niet te veel lagen (< 4) (gebruik voor specifiekere begrippen full-text retrieval) zo veel mogelijk “orthogonale” categorieën (geen overlap) gelaagdheid in balans (klassieke modulatie-eis) een representatieve trainingsset in het juiste formaat voldoende groot (>5 documenten per klasse) voldoende distributief (voor elke klasse even veel documenten) losse xml- of txt- documenten een representatieve testset Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

retrieval en ontsluiting kunnen we niet gewoon de digitale tekst doorzoeken? (het Google-paradigma) maar: free-text zoeken impliceert allerlei zoekproblemen wat zijn die problemen? welke retrieval- en taal-technologische oplossingen zijn daar al voor? Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

waarin uiten zoekproblemen zich? (in variabele mate in uiteenlopende soorten systemen - bibliografische databases, full-text bestanden, het web, … ) onvoldoende recall  met zoekvraag mis je te veel relevante informatie onvoldoende precisie  zoekvraag levert (te) veel niet-relevante informatie Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

oorzaken voor lage recall (recall-killers) inherent aan free-text zoeken in documenten: variatie in gebruikte woorden (spelling, woordvorm, taal) in tekst staan synoniemen, impliciete aanduidingen, … variëteit aan woorden voor generieke begrippen term-armoede van documenten (catalogus) zoeker "doet het fout": verkeerde zoekterm (spelling, betekenis) te weinig varianten met OR gecombineerd te veel zoek-elementen met AND gecombineerd Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

oorzaken voor lage precisie (precisie-killers) inherent aan free-text zoeken in documenten : verkeerde relatie tussen ge-AND-e termen niet eenduidige betekenis (homoniemen, acroniemen) term-rijkdom van full-text documenten (laag term-gewicht) zoeker "doet het fout" : verkeerde zoekterm (betekenis, te algemeen) te weinig concepten met AND gecombineerd Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

klassieke oplossing gebruik van: taxonomie thesaurus waarop berust het feit dat we denken dat dit een oplossing biedt? formaliseert betekenissen uniformeert term-rijkdom (dus term-gewicht) legt semantische relaties tussen onderwerpen/termen kan syntactisch verband leggen tussen facetten van onderwerp (precoördinatie) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

nadelen van klassieke oplossing gebrek aan flexibiliteit (schrik van de gebruiker/vakspecialist, maar niet meer bij folksonomy / tagging) je moet (kunstmatige) informatietaal gebruiken (schrik van de ergonoom, maar daar zijn wel oplossingen voor) duur omdat mensen termen moeten toekennen (schrik van de manager) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

(taal)technologische alternatieven best-match zoeken met relevantie-ordening truncatie, woordstemming, fuzzy search semantische kennis toevoegen zoekresultaat in "domeinen/contexten” laten clusteren genereren van suggesties voor aanvullende zoektermen terugkoppeling van zoekersoordeel Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

relevance ranking factoren 1. meer van de gevraagde termen in een document gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, ….) 3. gevraagde termen komen in document herhaald voor 4. gevraagde termen staan in document dicht bij elkaar 5. termen in document staan in zelfde volgorde als in vraag 6. zeldzame termen krijgen zwaarder gewicht dan algemene 7. hoeveelheid hyperlinks die naar document verwijst 8. hoe vaak een document wordt "bezocht" google bewijst dat dat op het web goed werkt, maar ook op een intranet? Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

relevance ranking factoren 1. meer termen 2. termen in titel/kop/begin 3. termen herhaald 4. termen dicht bij elkaar 5. termen in volgorde 6. zeldzame termen zwaarder 7. hyperlinks naar document 8. bezoek aan document meer concepten ge-AND hoger term-gewicht juiste verband belang specifieke term (kwaliteit) [alleen als er links zijn] (kwaliteit) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

relevance ranking factoren 1. meer van de gevraagde termen in een document 2. gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, ….) 3. gevraagde termen komen in document herhaald voor 4. gevraagde termen staan in document dicht bij elkaar 5. termen in document staan in zelfde volgorde als in vraag 6. zeldzame termen krijgen zwaarder gewicht dan algemene 7. hoeveelheid hyperlinks die naar document verwijst 8. hoe vaak een document wordt "bezocht" allemaal gericht op hogere relevantie voor "de eerste tien", dus op precisie Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

trunkatie / stemming / fuzzy zoeken trunceren computer  computeronderwijs stemming computer  computing, computation, computers communism  community, communication ?? sieverts  sievert ?? fuzzy duivendak  duijvendak serajevo  sarajevo chebychev  chebyshev, chebyschef, kok  kop, kak, ... ?? Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

trunkatie / stemming / fuzzy zoeken trunceren computer  computeronderwijs stemming computer  computing, computation, computers communism  community, communication sieverts  sievert fuzzy duivendak  duijvendak neetelenbosch  netelenbos kok  kop, kak, … compenseert variatie in woordvorm & spelling  betere recall maar pas op voor ongewenste effecten !! Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

semantische kennis in semantisch netwerk worden verbanden gelegd tussen inhoudelijk verwante woorden (in één of meer talen) door omgeving van woord in het netwerk kan betekenis worden onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query te expanderen (woorden binnen bepaalde "semantische afstand" van zoekwoord) bijvoorbeeld: irion-21 Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

visualisatie van “wordnet”

verbeteren van precisie semantische kennis in semantisch netwerk worden verbanden gelegd tussen inhoudelijk verwante woorden (in één of meer talen) door omgeving van woord in het netwerk kan betekenis worden onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query te expanderen verbeteren van precisie verbeteren van recall maar semantisch netwerk voor specialistisch domein moet je zelf nog bouwen ! Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch clusteren/classificeren op grond van kennisregels (en bestaande “taxonomie”) in feite toepassing automatische classificatie, waarbij klassen als verdelingscriterium dienen op grond van statistiek of patronen Ask, Clusty, Quintura, Collarity, …. Autonomy Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

automatisch clusteren/classificeren op grond van kennisregels (en bestaande “taxonomie”) in feite toepassing automatische classificatie, waarbij klassen als verdelingscriterium dienen op grond van statistiek of patronen Ask, Clusty, Quintura, Collarity, …. Autonomy kiezen van juiste betekenis of context  betere precisie werkt niet gegarandeerd altijd goed Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

termen extraheren bijv.: Scirus database van Elsevier computer haalt karakteristieke (andere) woorden/begrippen uit eerste N zoekresultaten (statistiek - tfidf) gebruiker kiest daaruit termen om de zoekactie in te perken of uit te breiden bijv.: Scirus database van Elsevier Aquabrowser (o.a. bij Bibliotheek.nl) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

OR

wolk van termen in Aquabrowser: die termen kunnen uit statistische analyse, woordenlijst, thesaurus, semantisch netwerk o.i.d. komen

ook zogenaamd "parametrisch" zoeken, waarbij zoekresultaat al wordt opgedeeld aan de hand van daarin aanwezige "geformaliseerde metadata"

inperken op juiste betekenis of context  verbetert precisie termen extraheren computer haalt karakteristieke (andere) woorden/begrippen uit eerste N zoekresultaten (statistiek - tfidf) gebruiker kiest daaruit termen om de zoekactie in te perken of uit te breiden bijv.: Scirus database van Elsevier Aquabrowser (o.a. bij Bibliotheek.nl) inperken op juiste betekenis of context  verbetert precisie uitbreiden met meer “synoniemen”  verbetert recall Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

terugkoppeling gebruiker klikt bij relevante hit op “more like this” computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.: Scirus, Google Autonomy gebruiker markeert relevante hits zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

metadata webtechnologie dublin core rdf semantic web Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

metadata en web-technologie html opmaaktaal voor web-documenten maakt het mogelijk aan elk web-document (in browser niet getoonde) metadata mee te geven HTML-syntax: welke tag te gebruiken en welke attributen daarbij: <META   NAME="...."   CONTENT="...."   LANG="...."   SCHEME="...."> “name“ (veldnaam) "content“ (veldinhoud) "lang" (taal van de content) "scheme“ (toegepaste standaard voor de content) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

metadata en web-technologie waarom metadata in web-pagina’s? betere vindbaarheid met zoekmachines (niet voor Google, wel voor andere of lokaal geconfigureerde) betere karakterisering in lijst met zoekresultaten via “description” (te gebruiken voor korte beschrijving) in principe ook mogelijkheid voor herkenning van aard, status, belang, "kind-veiligheid", etc. van webpagina (in praktijk niet echt van de grond gekomen) mogelijk alternatief voor echt “catalogiseren” van digitaal materiaal Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

metadata en web-technologie probleem met metadata in web-pagina’s: voor het web als geheel is geen enkele vorm van standaardisatie voorgeschreven oplossing: laat specifieke gebruikersgroepen vrijwillig standaardiseren bibliotheek- & informatiewereld: “dublin core” (en zelfs buiten echte bibliotheekwereld geadopteerd) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

dublin core metadata syntax & semantiek van "properties" (name-attribuut) afspraken over gebruik van "Dublin Core" (1997-2003) met 15 "velden" voor formele en inhoudelijke elementen inhoudelijk (onderwerp) formeel (inhoud) formeel (intellectueel eigendom) formeel (fysieke weergave) title source creator date subject language publisher type description relation contributor format coverage rights identifier intussen ook nog 3 aanvullingen: audience, provenance, rightsHolder voorbeelden: <META   NAME="DC.Creator"   CONTENT="Eric Sieverts"> <META   NAME="DC.Subject"   CONTENT="metadata"> <META   NAME="DC.Type"   CONTENT="text/html"> Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

dublin core metadata - verfijningen verfijningen van syntax en semantiek van "properties": via qualificaties/"element refinements" van Dublin Core bij "coverage": specificatie of het plaats- of tijd-aanduiding is <META   NAME="DC.Coverage.Spatial"   CONTENT="Frankrijk"> <META   NAME="DC.Coverage.Temporal"   CONTENT="1914"> bij "relation": specificatie van aard van relatie tussen bij elkaar horende webpagina's (of andere objecten) <META   NAME="DC.Relation.IsPartOf"   CONTENT="......"> <META   NAME="DC.Relation.HasPart"   CONTENT="......"> <META   NAME="DC.Relation.IsVersionOf"   CONTENT="......"> <META   NAME="DC.Relation.HasVersion"   CONTENT="......"> Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

dublin core metadata - inhoud voor semantiek van metadata-inhoud: geen standaardisatie opgelegd wel gebruikte standaard in "scheme"-attribuut opgeven voorbeelden <META NAME="DC.Date" CONTENT="2002-12-31" SCHEME="ISO8601"> <META  NAME="DC.Subject"  CONTENT="hay fever"  SCHEME="MeSH"> <META  NAME="DC.Language"  CONTENT="nl"  SCHEME="ISO639-1"> <META  NAME="DC.Source"  CONTENT="90-6630-490-1"  SCHEME="ISBN"> Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

dublin core in bibliotheek-omgeving in digitale bibliotheekomgeving streeft men vrijwillig (!) naar toepassing van DC-standaardisatie toepassing vooral bedoeld voor compatibiliteit en uitwisseling in beperkte kring, of zelfs alleen maar voor lokaal gebruik DC wordt zelfs regelmatig toegepast zonder dat het direct om web-pagina's gaat (bijv. Open Archive Initiative; zie OAIster) DC is veel eenvoudiger dan "echte" bibliotheek-standaarden (MARC, ISBD, ...) [maar er zijn wel mappings met MARC] "element refinements" vaak aangepast aan lokale wensen gebruik van verschillende standaarden naast elkaar mogelijk rdf (resource description framework) is algemeen formalisme dat zelfs geheel daarop gericht is Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

Resource Description Framework RDF is gespecificeerd voor (vooral) XML-omgeving om betekenis/semantiek aan documenten te kunnen toevoegen XML-tags (gedefinieerd via dtd of schema) kunnen al betekenis geven aan onderdelen van document-inhoud zelf RDF maakt dat op meer gestandaardiseerde en beter georganiseerde wijze betekenis kan worden meegegeven Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

Resource Description Framework RDF definieert een infrastructuur om zulke semantiek gestandaardiseerd te definiëren waarbij documenten zelf-verklarend worden zodanig dat computers hun betekenis kunnen afleiden waarbij verwezen wordt naar computerleesbare beschrijvingen van de semantiek en de standaarden die ze gebruiken zodat samenwerking en (her)gebruik van elders ontwikkelde standaarden mogelijk wordt Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

het rdf-model bedoeld voor beschrijven van bronnen (resources / objecten) die identificeerbaar zijn via een uniform resource identifier (URI) middels eigenschappen (property-types / attributen) die een waarde (value) kunnen hebben property-types definiëren relaties tussen values en resources voorbeeld: "Jan is de auteur van document1" 1. document1 is als resource gedefinieerd via een URI (bijv. een URL) document1 heeft een property-type "auteur" die property-type heeft de waarde "Jan" dus eigenlijk: document1 heeft als auteur Jan Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

het rdf-model een "value" hoeft niet alleen een woord of getal te zijn (zoals "Jan"), maar mag zelf ook weer "resource" wezen 1. ook "Jan" moet dan als resource gedefinieerd zijn 2. ook "Jan" kan dan weer een aantal property-types hebben (bijv. naam, mailadres, instituut, ....) 3. ook die property-types kunnen weer waarden hebben Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

het rdf-model dat wordt in rdf-syntax dan iets ingewikkelds als: <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns="http://www.john.smith.net/rdfexample/"> <rdf:Description rdf:about="http://www.xxx.com/yyy/doc1.xml"> <author> <rdf:Description rdf:about="http://www.xxx.com/autId/7801"> <name>John Smith</name> <affiliation>Home Inc.</affiliation> <email>Smith@home.com</email> </rdf:Description> </author> </rdf:RDF> xml namespace verwijzingen, o.a. naar definitie voor RDF rdf:description wordt gebruikt voor identificatie van de resources (kan ook verwijzen naar html-document) en daarbinnen de elementen Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

het rdf-model dublin core metadata worden in rdf-syntax iets als: <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"> <rdf:Description rdf:about="http://www.hva.nl/d28/rdf.ppt"> <dc:title>Minicursus RDF</dc:title> <dc:description>In dit document wordt uitgelegd hoe rdf werkt </dc:description> <dc:date>2003-12-08</dc:date> <dc:format>text/ppt</dc:format> <dc:language>nl</dc:language> <dc:publisher>HvA - MIM</dc:publisher> <dc:contributor>Eric Sieverts</dc:contributor> </rdf:Description> </rdf:RDF> Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

rdf en namespaces RDF is bedoeld om bestaande, elders ontwikkelde, semantische systemen te kunnen (her)gebruiken via de vermelde zogenaamde “namespaces” kunnen die worden geïdentificeerd (en zijn ze via een URL vindbaar) een namespace is dus een “web-verwijzing” naar een te gebruiken semantiek dat maakt modulariteit mogelijk, zodat je tegelijk meer, elkaar aanvullende systemen kunt gebruiken bijv.: "Dublin Core" (DC) naast "Learning Object Metadata" (LOM) dat maakt hergebruik eenvoudig en aantrekkelijk, want in je eigen dtd/schema hoef je geen metadata meer op te nemen als elders al een geschikte beschrijving bestaat Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

rdf en semantisch web rdf is ook de basis voor het idee van een semantisch web daarbij gaat het er echter om ook echt - computer-herkenbaar - betekenis te kunnen toekennen aan gebruikt vocabulair in metadata Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

Semantic Web LayerCake (Berners-Lee, 99;Swartz-Hendler, 2001) door W3C gespecificeerd meer-lagen model voor semantisch web waarin aan informatie automatisch betekenis kan worden toegekend Semantic Web LayerCake (Berners-Lee, 99;Swartz-Hendler, 2001)

rdf en semantisch web W3C's meer-lagen model voor semantisch web in DTD is bijv. wel een tag <product> gedefinieerd, maar hoe weten anderen (of een computer) dat, en hoe weten die wat dat betekent? xml, dtd’s, namespaces betekenis van xml-tags alleen op lokaal niveau bekend ascii, unicode, url, .. technische basisstructuren Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

zo ziet een web-pagina in natuurlijke taal er voor een machine uit

met XML kun je “betekenisvolle tags” aan stukken van de tekst toevoegen < > < > < > < > < > CV name education work private

maar XML is nog geen computer-toegankelijke betekenis; voor een machine zien die tags er ook gewoon uit als: .... < CV > < name > <education> <work> <private> < > < > < > < > < > CV name education work private

rdf, rdf-schema’s (dc, …) rdf en semantisch web W3C's meer-lagen model voor semantisch web met rdf zijn documenten wel zelf-verklarend en weten anderen (ook computers) hoe metadata-schema in elkaar zit en wat tags betekenen, maar nog altijd niet wat de inhoud betekent rdf, rdf-schema’s (dc, …) metadata-formalismen wel bekend, maar geen betekenis xml, dtd’s, namespaces betekenis van xml-tags alleen op lokaal niveau bekend ascii, unicode, url, .. technische basisstructuren Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

rdf, rdf-schema’s (dc, …) rdf en semantisch web W3C's meer-lagen model voor semantisch web ontologieën betekenis toekennen aan vocabulair op door computer interpreteerbare wijze rdf, rdf-schema’s (dc, …) metadata-formalismen wel bekend, maar geen betekenis xml, dtd’s, namespaces betekenis van xml-tags alleen op lokaal niveau bekend ascii, unicode, url, .. technische basisstructuren Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontologieën en semantisch web wat betekenen “ontologieën” hier ? begrip oorspronkelijk afkomstig uit de filosofie en daarna ook uit de wereld van de kunstmatige intelligentie: in ontologie wordt kennis van (een stukje van) de wereld vastgelegd het dient als "kennis-representatie" wordt in semantisch web-wereld zeer ruim opgevat: in het algemeen aanduiding voor allerlei soorten ontsluitings-systemen wel essentieel: ontologie moet computerleesbaar, -interpreteerbaar en -verwerkbaar beschikbaar zijn (er zijn dus formele beschrijvingstalen voor nodig) Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontologieën en semantisch web hoe maakt men dat ontologieën computer-interpreteerbaar zijn ? daarvoor worden op dit moment standaarden en beschrijvingstalen ontwikkeld; bijvoorbeeld: OWL web ontology language (http://www.w3.org/TR/2002/WD-owl-ref-20020729/) belangrijk ook: mappings/concordanties tussen kennis-representaties Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

ontologieën en semantisch web voorbeelden van ontologieën: in kunst-documentatiesysteem vanuit één systeem namespace-verwijzingen naar: Art & Architecture Thesaurus (thesaurus) IconClass (beeld-classificatie) WordNet (semantisch netwerk) Union List of Artist Names (authority list) AAT  Wordnet equivalenties (concordantie) Dublin Core voor annotaties (metadata-systeem) uiteindelijk doel: met betere precisie en recall kunnen zoeken naar (afbeeldingen en/of beschrijvingen van) kunstwerken Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

annotating with a concept : term disambiguation

typisch semantisch web voorbeeld: zoeken naar plaatje © Guus Schreiber UvA / VU A person searches for photos of an “orange ape” An image collection of animal photographs contains snapshots of orang-utans. The search engine finds the photos, despite the fact that the words “orange” and “ape” do not appear in annotations Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

rdf annotatie van een web-bron © Guus Schreiber UvA / VU Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

semantische annotatie

de "species ontology" © Guus Schreiber UvA / VU Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

Semantic Web Principles Everything is on the web People, places, times, things all have URIs Partial information is assumed The web privileges scalability over integrity and there’s always more and new stuff to find Trust models are critical It’s not all true Creating a critical mass of semantic content In the end, this will be the critical success factor Minimalist design Make the simple things simple, and the complex things possible. Standardize no more than is necessary. Common data model To support interoperability and knowledge sharing Adapted from Eric Miller, W3C

wat moet er verder nog gebeuren? W3C's meer-lagen model voor semantisch web lagen hierboven, die uiteindelijk tot betrouwbaarheid van de zo gepresenteerde informatie en kennis moeten leiden, moeten in de toekomst nog ontwikkeld worden ontologieën betekenis toekennen aan vocabulair op door computer interpreteerbare wijze rdf, rdf-schema’s (dc, …) metadata-formalismen wel bekend, maar geen betekenis xml, dtd’s, namespaces betekenis van xml-tags alleen op lokaal niveau bekend ascii, unicode, url, .. technische basisstructuren Eric Sieverts | e.g.sieverts@uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

Moving to the future of the web Semantic Web LayerCake (Berners-Lee, 99;Swartz-Hendler, 2001)