Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatiemanagement Hogeschool van Amsterdam februari 2007 Toegankelijk zijn of toegankelijk maken methoden van ontsluiting en retrieval
ontsluiten en vinden agenda voor dag 1: inleiding hoe wordt nu ontsloten? ontsluiting en metadata in een web-omgeving –klassieke principes en nieuwe inzichten –ontsluiten voor browsen of voor zoeken –linking als ontsluiting –de gebruiker aan de macht? wat te doen als handmatig ontsluiten te duur wordt? –“user-generated tagging” –automatisch classificeren –alleen retrieval i.p.v. ontsluiting ? zie ook: nology_services_and_technology_review_sep_06.pdf
waarom ontsluiten we eigenlijk ? we ontsluiten om te kunnen vinden dat is waar (want nodig) voor niet-digitaal materiaal dat is waar (want nodig?) voor digitaal niet-tekst materiaal is dat ook nog waar voor digitaal tekstmateriaal? in een Google -maatschappij is het in elk geval niet meer strikt nodig Eric Sieverts | | |
digitale ontsluiting van informatie
ontsluiting van digitale informatie
voor moderne zoekfunctionaliteit - “parametric search” - is ook aanwezigheid van formele kenmerken handig
ontsluiting Eric Sieverts | | | formele ontsluiting inhoudelijke ontsluiting eveneens formeel & inhoudelijk nu : metadata ook onder noemer :“KOS” knowledge organisation systems maar tevens beschikbaarstelling / toegankelijkheid: wijze van opslaan (door)zoekbaarheid linking van documenten …... klassiek: digitaal:
opslag metadataterugvinden beheer structuur informatiesysteem
informatie en systemen de meest geschikte combinatie van manieren van structurering, opslag, beheer, metadata en zoektechnieken kan voor elk soort informatie anders zijn in verschillende soorten systemen kom je dus ook verschillende combinaties tegen van manieren van structurering, opslag, beheer, metadata en zoektechnieken
structuur van de informatie structuur van zowel gegevens / object zelf als van bijbehorende metadata –geen structuur(als in PDFje of Word-file) –rijtje velden (als in database) –documentelementen (als in HTML of Word-stijlen) –boomstructuur(als in XML-dtd of -schema) –.... bepaalt voor een deel ook al methode van opslag opslag metadataterugvinden beheer structuur
opslaan van de informatie gegevens zelf + bijbehorende metadata waarin? –database (access, cardbox, adlib, oracle,.... ) –file-systeem –content management systeem –digitaal depot / repository –…... maar cms of repository kan ook weer op database gebaseerd zijn, vooral vanwege het “beheer” metadataterugvinden beheer structuur opslag
beheer van de informatie denk hierbij aan zaken als: –wie mag gegevens wel/niet wijzigen –wie mag wat wel/niet weggooien –registratie van datum van aanmaken/wijzigen –in computer manipuleren met hele collecties gegevens –….. daarvoor meestal ook metadata aanwezig / nodig opslag metadataterugvinden beheer structuur
metadata bij de informatie niveaus: 1: welk metadata formalisme? “hoe je metadata weergeeft” bijvoorbeeld: volgens “resource description framework” (RDF) (in XML) opslag metadataterugvinden beheer structuur
2: welke metadata-structuur? MARC21, MODS, ISBDer, ….. Dublin Core LOM (Learning Object Metadata)..... maar ook bijvoorbeeld: PDF-”properties” Word-”properties” metadata bij de informatie opslag metadataterugvinden beheer structuur
3: semantiek van de metadata standaardisering van formele gegevens (datum-notatie, taal-code volgens iso-norm,... ) standaardisering van inhoudelijke ontsluiting (DDC, NBC, LCSH, MeSH, AAT,... ) metadata bij de informatie opslag metadataterugvinden beheer structuur
full-text retrieval “ongenuanceerd” op alle digitaal beschikbare tekst voor retrieval gebruik maken van structuur van digitale gegevens (database-velden, xml-elementen, …) voor retrieval gebruik maken van aan object toegevoegde metadata terugvinden van de informatie opslag metadata beheer structuur terugvinden
knowledge organisation systems Eric Sieverts | | | categorieën van kennisorganisatiesystemen (volgens Hill) –voor classificeren en categoriseren (zoals classificaties en taxonomieën) –metadata-achtige modellen (waaronder namenlijsten en geografische indelingssystemen) –relationele systemen (zoals thesauri, semantische netwerken en ontologieën) –lijsten van termen (zoals autorisatielijsten en woordenboeken)
knowledge organisation systems Eric Sieverts | | | categorieën van kennisorganisatiesystemen (volgens Hill) –voor classificeren en categoriseren (zoals classificaties en taxonomieën) –metadata-achtige modellen (waaronder namenlijsten en geografische indelingssystemen) –relationele systemen (zoals thesauri, semantische netwerken en ontologieën) –lijsten van termen (zoals autorisatielijsten en woordenboeken)
terminologie van KOSsen classificatie systematische ordening van "objecten" in boom- structuur (elk object kan in principe maar op één plaats staan) taxonomie meestal: enkelvoudige zuiver hiërarchische structuur (eenvoudig soort classificatie), inclusief zijn "content" thesaurus woordsysteem met voorkeurstermen (+ verwijzingen) waartussen hiërarchische relaties (meestal veel "losse boompjes") (postcoördinatie: elk object kan met meer woorden gekarakteriseerd) semantisch netwerk “alle” woorden uit de taal, waartussen velerlei soorten getypeerde relaties ontologie woordsysteem waarin “kennis van de wereld” (oorspronkelijk uit wereld van kunstmatige intelligentie); als thesaurus, maar met meer soorten getypeerde relaties; in context van semantisch web in de praktijk vaak in het algemeen gebruikt voor allerlei van bovenstaande types van systemen Eric Sieverts | | |
visualisatie van de structuur van KOSsen is een belangrijk terrein van onderzoek, zowel ten behoeve van navigatie als van ondersteuning bij het zoekproces voorbeeld voor een classificatie/taxonomie: de structuur van de OpenDirectory
visualisatie van een “soort” thesaurus: de Roget-thesaurus
visualisatie van semantisch netwerk: “wordnet”
visualisatie van een deel van een “business”-ontologie
ontsluiting in een web-omgeving - thesaurus Henk Magrijn (MIM/HVA): een thesaurus is een postcoördinatieve informatietaal, die bestaat uit een geordende verzameling van uit natuurlijke taal, op basis van zoveel mogelijk enkelvoudige begripseenheden, gekozen termen, waarvan de vorm, en de onderlinge semantische relaties zijn vastgelegd een thesaurus is geschikter voor zoeken dan voor browsen Eric Sieverts | | |
ontsluiting in een web-omgeving - thesaurus ten behoeve van gemak van zoeksysteem verwijzingen op basis van: –Gelijkwaardigheid (synoniemen) AvesVogels UseVogelsUFAves >> automatisch daarop kunnen zoeken –Hiërarchie (ruimere en specifiekere begrippen) [geslacht/soort, geheel/deel] VogelsZangvogels NTZangvogelsNTKanaries BTDierenBTVogels TTDieren >> generiek (hiërarchisch) op begrippen kunnen zoeken Eric Sieverts | | |
ontsluiting in een web-omgeving - thesaurus Voor zoekgemak, -effectiviteit en -kwaliteit: denk wel om de zuiverheid van de relaties! Alleen bij geslacht/soort, geheel/deel dus niet bijvoorbeeld: Objecten - producten Vogels NTEieren Objecten - activiteiten Vogels NTVoortplanting Abstract - concreet Voortplanting NTEieren Et cetera Eric Sieverts | | |
ontsluiting in een web-omgeving - thesaurus voordelen: formaliseert/uniformeert betekenis van woorden (geen problemen met synoniemen en homoniemen) hiërarchie met NT- en BT-relaties maakt generiek zoeken mogelijk postcoördinatief karakter van thesauri bevordert flexibeler zoekproces maar er zijn ook gebruikersproblemen: Eric Sieverts | | |
ontsluiting in een web-omgeving - gebruiksgemak in een Google-wereld Eric Sieverts | | | probleem: gebruiker kent het voorkeursvocabulair niet (en wil zich daar ook niet in verdiepen) oplossing: “vervangend zoeken” systeem probeert juiste zoektermen (uit de thesaurus) te vinden die het best corresponderen met door gebruiker ingetikte zoekwoorden
ontsluiting in een web-omgeving - gebruiksgemak in een Google-wereld Eric Sieverts | | | hoe kan systeem die (juiste) termen bepalen? –via “user thesaurus” (heel veel synoniem-relaties, wellicht interactief opgebouwd op basis van log-files van zoekacties) –mapping van termen uit de thesaurus op semantisch netwerk (lukt dat ook voor vak-jargon?) –in geval van dubbelzinnige of onvolledige zoekvraag, meer informatie aan gebruiker ontfutselen via dialoog- systeem (hiervan nog geen echte voorbeelden gezien) –zoekresultaat van vrije zoekvraag wordt geanalyseerd op daarin (toevallig) voorkomen van termen uit de thesaurus
ontsluiting in een web-omgeving - gebruiksgemak in een Google-wereld Eric Sieverts | | | probleem: gebruiker realiseert zich niet (actief) dat algemene term niet vanzelf specifiekere begrippen impliceert oplossing: “automatisch generiek zoeken” systeem voegt automatisch narrower terms van thesaurusterm aan zoekvraag toe test met systeem dat verregaand “related terms” aan zoekvraag toevoegt en “conceptuele afstand” van termen waarop document is gevonden als ranking-parameter gebruikt (Tudhope 2006) voorbeeld van beide genoemde technieken: Pubmed database op internet
diep in de thesaurus zelf in te stellen of je dit wilt
ontsluiting in een web-omgeving - classificatie doel van classificatie: zodanig orde brengen in een verzameling objecten, informatie, …., dat iemand er de weg in kan vinden fysieke of virtuele plaatsing en ordening van objecten, documenten, informatie, bestanden, ….. een classificatie is handiger voor browsen dan voor zoeken, zeker in een web-omgeving Eric Sieverts | | |
ontsluiting in een web-omgeving - classificatie Henk Magrijn (MIM/HVA): Classificatie (als activiteit) is het bij elkaar brengen van zaken die iets met elkaar gemeen hebben en het scheiden van zaken die van elkaar verschillen Een classificatie (als "ding") is een precoördinatieve informatietaal, die bestaat uit een geordende verzameling van termen die al dan niet complexe onderwerpen beschrijven, waarvan de vorm, en de onderlinge semantische en syntactische relaties zijn vastgelegd Eric Sieverts | | |
ontsluiting in een web-omgeving - classificatie jarenlange gebruikspraktijk leert dat het loont je aan enkele theoretische bouwregels te houden: –eenheid van verdelingskarakteristiek onderverdeling van een klasse moet gebaseerd zijn op één en hetzelfde criterium –co-extensie van een klasse met haar subklassen gezamenlijke omvang van de subklassen moet gelijk zijn aan de omvang van de klasse die onderverdeeld is –modulatie of gradatie verdeling van een klasse in subklassen moet geleidelijk verlopen –collocatie rangschikkingsvolgorde van subklassen van dezelfde klasse (presentatie): naaste buren, naaste verwanten Eric Sieverts | | |
ontsluiting in een web-omgeving - classificatie eenheid van verdelingskarakteristiek en co-extensie Eric Sieverts | | | maar??: 687.1kleding herenkleding dameskleding kinderkleding sportkleding gelegenheidskleding beroepskleding beschermende kleding 687.2schoeisel indelingscriteria: doelgroep, gebruik, mate van bescherming niet: 123auto's 123.1personenauto's 123.2raceauto's 123.3vrachtauto's 123.4rode auto's 123.5trapauto's 123.6speelgoedauto's 123.7dieselauto's
ontsluiting in een web-omgeving - classificatie voorbeeld van "modulatie" niet:638Dieren 638.1Parkieten wel:638Dieren 638.1Vogels Zangvogels Parkieten mogelijke "collocatie"-volgorde evolutionair (opening, middenspel, eindspel) chronologisch (15e eeuw, 16e eeuw, 17e eeuw,..) gebruiksfrequentie alfabetisch etc. als de gebruiker het maar "door heeft" Eric Sieverts | | |
ontsluiting in een web-omgeving - classificatie in angelsaksische wereld veel aanpassingen van bekende classificaties (LCC, DDC, UDC) voor web- toepassing –“lineair” maken –minder “diep” maken –volgorde van rubrieken aanpassen –betere rubrieksomschrijvingen (voor LCC ontleend aan LCSH) –“verdubbelingen” van rubrieken voor digitaal niet-boekmateriaal ook toepassing van automatische categorisatie (o.a. OCLC-projecten) Eric Sieverts | | |
ontsluiting in een web-omgeving - taxonomie een classificatie (als "ding"), in een aanklikbare presentatie van categorieën, die specifiek aansluiten op de –onderwerpen, –doelstellingen, –taken, –werkprocessen, –beschikbare content, – van het bedrijf / de organisatie en met omschrijvingen gekarakteriseerd worden, Eric Sieverts | | |
vaak ook: inclusief de volgens die systematiek ingedeelde "content" combinatie met thesaurus-achtig woordsysteem om gebruiker ook via zoekproces naar juiste categorie te leiden soms ook: "meer-dimensionaal" voor meer invalshoeken (“facet-classificatie”) zie voorbeeld van Verity ontsluiting in een web-omgeving - taxonomie Eric Sieverts (MIM-HvA) DIO (10/11/2004)
ontsluiting in een web-omgeving - taxonomie / classificatie stappen bij bouwen van taxonomie/classificatie –doel bepalen –onderwerpen verzamelen –homogene groepen maken (ordenen in klassen) –collocatievolgorde bepalen –combinatievolgorde vaststellen ("economie-frankrijk" of andersom) –notatie toekennen (indien nodig) –...… presentatie van klassen en hun “content” –categorieën via hyperlinks aan te klikken en doorgelinkt –content vrijwel altijd dynamisch vanuit database of content management systeem gegenereerd Eric Sieverts | | |
zoeken, hyperlinks en classificaties zoeken en hyperlinking in een web-omgeving hebben ook invloed op klassieke ontsluiting: linking maakt presentatie en gebruik van classificaties en taxonomieën veel makkelijker (gewoon links aanklikken) je hoeft niet zo streng te zijn met klassieke regels voor bouw van de systemen (klasse kan op meer plaatsen in boomstructuur voorkomen: variabele combinatievolgorde, aanklikbare dwarsverbanden) zoekfunctie maakt het makkelijk te vinden waar gezochte rubriek zich bevindt Eric Sieverts | | |
classificaties op het web enkele kenmerken van webclassificaties als Yahoo of OpenDirectory –niet streng met eenheid van verdelingskarakteristiek op beginniveau “pragmatisch mengsel van thema's, disciplines, informatiesoorten en interessegebieden” (Hudon 2001) –bij schermpresentatie niet streng met “modulatie” pragmatische “afsteekjes” naar lagere niveaus –bij schermpresentatie variabele combinatievolgorde bijvoorbeeld “scuba duiken in Australië” via recreatie – buitensport – scuba – regionaal – Australië of via regionaal – Australië – recreatie – buitensport – scuba leidt tot zelfde categorie Eric Sieverts | | |
linking als ontsluiting linking wordt een steeds belangrijker vorm van ontsluiting en toegankelijk maken, want: –links brengen je naar (andere) gerelateerde informatie –“relaties” zijn algemeen verschijnsel in elk soort informatiesysteem links tussen begrippen zagen we al (bijv. thesaurus, semantisch netwerk, ontologie) maar ook direct tussen "objecten" (bijv. rubrieksverwijzingen, weblinks, literatuurreferenties, en trouwens ook in relationele database) SFX is mooi voorbeeld van de combinatie van zoeken en linken Eric Sieverts | | |