De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Zoeken en ontsluiten in de wereld van Google Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool.

Verwante presentaties


Presentatie over: "Zoeken en ontsluiten in de wereld van Google Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool."— Transcript van de presentatie:

1 zoeken en ontsluiten in de wereld van Google Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool van Amsterdam)

2 zoeken en ontsluiten in de wereld van Google agenda: zoeken en ontsluiting ontsluiting en metadata metadata en zoeken zoeken en taaltechnologie taaltechnologie en ontsluiting ontsluiting, taxonomieën en ontologieën ontologieën, metadata en semantisch web Eric Sieverts | | |

3 zoek, zoek, zoeker / zoekvraagdocumenten match basis-paradigma voor het zoeken naar informatie Eric Sieverts | | |

4 zoek, zoek, match Eric Sieverts | | | klassieke situatie bij ontsluiting zoeker moet proberen "termen" te bedenken waar onderwerp mee is ontsloten ontsluiting: indexeerder moet correcte termen aan document toekennen in principe perfecte match mogelijk

5 klassieke ontsluiting gebruikersonvriendelijk dat zoeker zelf correcte termen moet ontdekken duur dat indexeerders documenten moeten analyseren om correcte termen te kunnen toekennen en die perfecte match valt in de praktijk vaak ook nog wel tegen Eric Sieverts | | |

6 zoek, zoek, Eric Sieverts | | | zoeken in de wereld van zoeker tikt maar wat woorden in (en meestal zelfs maar één woord) zoeksysteem bevat alleen de woorden uit de documenten zelf je vindt vaak niet (alles) wat je zoekt - toch tevreden ? match

7 zoeken in de wereld van. zoeker mist relevante informatie (recall-probleem) door: –afwijkende spelling en woordvormen –gebruik van synoniemen en andere talen –aanwezigheid specifiekere begrippen –.... zoeker vindt niet-relevante informatie (precisie-probleem) door: –onvoldoende gespecificeerde vraag –ontbrekende / onjuiste verbanden tussen zoektermen –woorden die meer betekenissen kunnen hebben –.... Eric Sieverts | | |

8 waarom toch tevreden gebruikers ? zoeksysteem ziet er zo lekker (simpel) uit zoeker vindt altijd wel wat (in 8 miljard webpagina's) slimme ordening van resultaten, zodat bij meeste vragen voor meerderheid van gebruikers altijd wel iets relevants bij de eerste 10 zit who cares about lousy recall & precision ? Eric Sieverts | | |

9 wil gebruiker nog iets anders ? zelfs wetenschappelijke bibliotheken moeten hun best doen gebruikers nog iets anders te laten gebruiken dan alleen Google of Google Scholar : dat andere, professionele systemen zeer verantwoorde gecontroleerde ontsluiting bieden, is niet meer genoeg je moet net zo simpel (en kaal?) interface bieden + one-stop shopping + direct de full-text resultaten zelf Eric Sieverts | | |

10 how about metadata ? iedereen heeft het over metadata: "gegevens over gegevens" zowel inhoudelijke als formele ontsluiting html biedt metatags in bibliotheekwereld: "dublin core" als standaardisatie afgesproken Eric Sieverts | | |

11 dublin core standaard afspraken over gebruik van "Dublin Core" ( ) met 15 "velden" voor formele en inhoudelijke elementen, voortkomend uit, maar ook geadopteerd buiten bibliotheekwereld Eric Sieverts | | | voorbeelden: inhoudelijk (onderwerp) formeel (inhoud) formeel (intellectueel eigendom) formeel (fysieke weergave) titlesourcecreatordate subjectlanguagepublishertype descriptionrelationcontributorformat coveragerightsidentifier intussen nog 3 aanvullingen: audience, provenance, rightsHolder

12 dublin core - verfijningen verfijningen van syntax en semantiek van "velden" via qualificaties/subelementen van Dublin Core bij "coverage": specificatie of het plaats- of tijd-aanduiding is bij "relation": specificatie van aard van relatie tussen bij elkaar horende webpagina's (of andere objecten) Eric Sieverts | | |

13 dublin core - inhoud voor semantiek van metadata-inhoud: –daarvoor wordt geen standaardisatie opgelegd !! –wel gebruikte standaard vermelden (in "scheme"-attribuut) voorbeelden Eric Sieverts | | |

14 zoek, zoek, Eric Sieverts | | | metadata & zoekmachines ? gebruiker kent geen metadata- standaarden google indexeert geen metadata op het vrije web heb je (bijna) niets aan metadata match

15 hoezo dan metadata ? eigenlijk alleen voor lokaal of specialistisch gebruik voorbeeld: Open Archive Initiative gebruikt Dublin Core (in XML) om beschrijvingen uit elkaars document-archieven (repositories) te kunnen uitwisselen en (her)gebruiken, zoals in OAIster zoekmachine Dublin Core gaat niet verder dan "veld"-specificaties en -syntax (simpeler dan ISBD, MARC of AACR2) zelfs lokaal vaak nog geen standaardisatie van daarbinnen gebruikt ontsluitingssysteem maar in het semantisch web wil men wel metadata kunnen gebruiken ! ! Eric Sieverts | | |

16

17 zoek, zoek, Eric Sieverts | | | taaltechnologie bij zoeker simpele zoekvraag automatisch geëxpandeerd en gedisambigueerd door ontologie of semantisch netwerk zoeksysteem bevat alleen de woorden uit de documenten zelf door verbeterde zoekvraag een beter antwoord ? match

18 taaltechnologie voor betere "query" door "word stemming" en "fuzzy zoeken" automatisch op meer woordvormen gezocht >> betere recall semantisch netwerk (of ontologie) bevat relaties tussen begrippen waardoor inhoudelijk verwante termen aan vraag kunnen worden toegevoegd >> betere recall bij woord met meer betekenissen, bevat semantisch netwerk (of ontologie) verschillende relaties voor verschillende betekenissen >> disambigueren >> betere precisie geleerden zijn het er nog niet over eens hoeveel dit verbetert Eric Sieverts | | |

19 zoek, zoek, Eric Sieverts | | | taaltechnologie bij zoeker uit resultaat van simpele zoekvraag gegenereerde specifiekere termen worden zoeker ter keuze voorgelegd zoeksysteem bevat alleen de woorden uit de documenten zelf doordat zoeker vraag verbetert, beter antwoord ? match

20 taaltechnologie voor betere "query" door statistische analyse van zoekresultaat, genereert software lijstje mogelijke specifieke(re) zoektermen, waarmee gebruiker naar eigen inzicht zoekvraag kan verfijnen (of anderszins verbeteren) zulke woorden kunnen ook uit woordenlijstje, thesaurus, semantisch netwerk e.d. worden afgeleid meestal >> betere precisie Eric Sieverts | | |

21

22

23

24 zoek, zoek, Eric Sieverts | | | taaltechnologie bij zoeker simpele zoekvraag automatisch vertaald naar "correcte" zoektermen documenten ontsloten: er zijn "correcte" termen aan toegekend in principe perfecte match mogelijk match

25 zoekvraag vertalen naar juiste term met behulp van –semantisch netwerk, user thesaurus, concordantie, e.d., of –dialoog-systeem dat gebruiker meer informatie over zijn vraag ontfutselt, of –andere taaltechnologie kan systeem de juiste zoektermen vinden bij door gebruiker ingetikte zoekwoorden voorbeeld: Pubmed database op internet Eric Sieverts | | |

26

27 zoek, zoek, Eric Sieverts | | | taaltechnologie bij document zoeken met "correcte" term of browsen naar "juiste" categorie taaltechnologie verrijkt document met "correcte" ontsluitingstermen (thesaurusterm, klasse uit taxonomie) in principe perfecte match mogelijk match

28 automatische "verrijking" van documenten met combinaties van –linguistische –statistische –regelgebaseerde technieken kan inhoud van documenten door computer worden geanalyseerd en op basis daarvan –worden verrijkt met termen uit thesaurus, of –worden ingedeeld in categorie van taxonomie ondanks wat beperkingen gaat dat al steeds beter Eric Sieverts | | |

29

30 zoek, zoek, Eric Sieverts | | | taaltechnologie aan beide kanten gebruiker tikt maar wat in, maar systeem zoekt toch op "goede" termen computer kan documenten inhoudelijk karakteriseren (metadata toekennen) beter zoekresultaat & lagere kosten ? match

31 zoek, zoek, Eric Sieverts | | | taaltechnologie aan beide kanten voor veel van die technieken blijft het wel nodig dat een thesaurus / taxonomie / classificatie beschikbaar is en voor het semantisch web geldt dat al evenzeer match

32 Resource Description Framework RDF is gespecificeerd voor (vooral) XML-omgeving om in het algemeen betekenis/semantiek aan documenten te kunnen toevoegen –XML-tags (gedefinieerd via dtd of schema) kunnen al betekenis geven aan onderdelen van document-inhoud zelf –RDF maakt dat je op meer gestandaardiseerde en beter georganiseerde wijze betekenis kunt meegeven, ook los van het document/object zelf –met RDF kunnen dan bijvoorbeeld volgens Dublin Core gestructureerde metadata worden toegevoegd Eric Sieverts | | |

33 Resource Description Framework RDF definieert een infrastructuur om zulke semantiek gestandaardiseerd te definiëren waarbij documenten zelf-verklarend worden zodanig dat computers hun betekenis kunnen afleiden waarbij verwezen wordt naar computerleesbare beschrijvingen van de semantiek en de standaarden die ze gebruiken zodat samenwerking en (her)gebruik van elders ontwikkelde standaarden mogelijk wordt Eric Sieverts | | |

34 het rdf-model bedoeld voor beschrijven van bronnen (resources / objecten) die identificeerbaar zijn via een uniform resource identifier (URI) middels eigenschappen (property-types / attributen) die een waarde (value) kunnen hebben property-types definiëren relaties tussen values en resources voorbeeld: "Jan is de auteur van document1" (of eigenlijk: "document1 heeft als auteur Jan") Eric Sieverts | | | of zelfs

35 het rdf-model John Smith Home Inc. xml namespace verwijzingen, o.a. naar definitie voor RDF rdf:description wordt gebruikt voor identificatie van de resources (kan ook verwijzen naar html-document) en daarbinnen de elementen Eric Sieverts | | | dat wordt in rdf-syntax dan iets ingewikkelds als:

36 het rdf-model Minicursus RDF In dit document wordt uitgelegd hoe rdf werkt text/ppt nl HvA - MIM Eric Sieverts Eric Sieverts | | | dublin core metadata worden in rdf-syntax iets als:

37 waar het bij rdf wezenlijk om draait computerinterpreteerbaar relaties leggen tussen objecten, eigenschappen en waarden computerinterpreteerbaar betekenis toekennen aan die relaties via "namespace"-verwijzingen doorlinken naar plekken op het web waar "systemen" computerinterpreteerbaar gedefinieerd zijn (metadata-standaarden, inhoudelijke ontsluitingssystemen, betekenissen van begrippen daarin, …) gebruik kunnen maken van elders geïnvesteerde moeite, zonder dat zelf nog eens over te hoeven doen en: dat is ook de basis waar het semantisch web op voort wil bouwen Eric Sieverts | | |

38 ontologieën en semantisch web wat betekenen “ontologieën” eigenlijk ? begrip oorspronkelijk afkomstig uit de filosofie en daarna ook uit de wereld van de kunstmatige intelligentie: in ontologie wordt kennis van (een stukje van) de wereld vastgelegd het dient als "kennis-representatie" wordt in semantisch web-wereld zeer ruim opgevat: in het algemeen aanduiding voor allerlei soorten ontsluitings-systemen wel essentieel: ontologie moet computerleesbaar, -interpreteerbaar en -verwerkbaar beschikbaar zijn (er zijn dus formele beschrijvingstalen voor nodig; men werkt onder meer aan "OWL" - web ontology language) Eric Sieverts | | |

39 ontologieën en semantisch web voorbeelden van gebruikte ontologieën in kunstdocumentatie-systeem: vanuit één systeem namespace-verwijzingen naar: –Art & Architecture Thesaurus (thesaurus) –IconClass (beeld-classificatie) –WordNet (semantisch netwerk) –Union List of Artist Names (authority list) –AAT  Wordnet equivalenties (concordantie) –Dublin Core voor annotaties (metadata-systeem) uiteindelijk doel: met betere precisie en recall kunnen zoeken naar (afbeeldingen en/of beschrijvingen van) kunstwerken Eric Sieverts | | |

40

41 annotating with a concept : term disambiguation

42 Eric Sieverts | | | typisch semantisch web voorbeeld: zoeken naar plaatje A person searches for photos of an “orange ape” An image collection of animal photographs contains snapshots of orang-utans. The search engine finds the photos, despite the fact that the words “orange” and “ape” do not appear in annotations © Guus Schreiber UvA / VU

43 semantische annotatie

44 © Guus Schreiber UvA / VU Eric Sieverts | | | rdf annotatie van een web-bron

45 Eric Sieverts | | | © Guus Schreiber UvA / VU zie: de "species ontology"

46 zoek, zoek, match Eric Sieverts | | | ook voor het semantisch web zal dus nog volop moeten worden "ontsloten", maar: met slimme systemen die domme documenten (helpen) ontsluiten en slimme systemen die domme zoekvragen (kunnen) verbeteren zal zelfs een aap goede informatie kunnen vinden


Download ppt "Zoeken en ontsluiten in de wereld van Google Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool."

Verwante presentaties


Ads door Google