geïntegreerde zoeksystemen

Slides:



Advertisements
Verwante presentaties
Inleiding Na het bestuderen van dit hoofdstuk kun je:
Advertisements

Koninklijke Bibliotheek – Nationale bibliotheek van Nederland.
Koppelen zonder Metis Martin van Muyen
WEB toepassingen. Wat is een WEB toepassing of applicatie t.t.z... een WEB applicatie is een applicatieprogramma welke je via internet kunt gebruiken,
EBSCO DISCOVERY Els Schaerlaekens Tom De Mey.
Fedora Content Model en XSLT Fedora op Klompen, Amsterdam, Egbert Gramsbergen TU Delft Library / Digital Product Development
E-RADEN Roadmap. AGENDA • Overzicht van nieuwe ontwikkelingen 2009 • Interfaces • Document Types : Meta-data • E-raden gratis ? • Perspectieven.
Databases via internet
Errol Graf, projectleider
thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.
01 van 06 Portal4U Loe Hameleers Twan Saleming Klanten: Wat kost dat artikel? Wanneer wordt geleverd? Die werkt hier niet meer.. Die factuur ken ik niet.
Metasearch wat is het probleem bij de oplossing? welke oplossing bij welk probleem?
Metadatabeheer en -beleid
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
HALLO OPLETTEN : Waarom sql DOEN : Introductie opdracht
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
Adobe formulieren : stand van zaken.
Bibliografische beheertoepassingen Jan Bollansée Altus-seminarie Groep T, Campus Vesalius Leuven, 2 december 2010.
49e adlib gebruikersgroep vergadering Brabants Museum 7 december 2004 Bert Degenhart Drenth.
Q-KENNIS Een kennis-systeem is veelal gebaseerd op het ontsluiten van aanwezige kennis en ter faciliterering van de ontwikkeling van nieuwe kennis. Het.
Over dingen die voorbijgaan Richard Philips Anet Gebruikersdag 15 juni 2011.
Introductie electronische bronnen
Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management Hogeschool van Amsterdam DARE zomerschool - juni Tilburg.
Autonomy bij een Universiteitsbibliotheek
Eric Sieverts Sector Innovatie & Ontwikkeling Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatie Management Hogeschool van Amsterdam Moderne.
Google Scholar de googlificatie van de wetenschap ? Eric Sieverts
Introductie Digitale Bibliotheek UGent
Oktober 2004Bedrijvig op het Internet1 Prof. Dr. Geert Poels Ann Maes Frederik Gailly.
Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -
© Universiteitsbibliotheek Groningen METIS Aanleverloket Metis/Repositories Henk Druiven Henk Ellermann Afdeling Digitale Bibliotheek Vz. Universiteitsbibliotheek/RuG.
The KB en Web 2.0 Verlaag de drempel om services te integreren. Theo van Veen, 7 november 2006.
HALLO OPLETTEN : Waarom sql DOEN : Introductie opdracht
Secundaire data en online databases
1 OMI Technisch ontwerp. 2 Technisch ontwerp ‘content’ Veel breder dan business portals (Carlson) Verschillende aspecten / aandachtspunten:
Presentatie Studiemiddag Indexen en Nadere Toegangen Ralph Stuyver, Projectmanager 4 maart 2010.
Opsporen en beheren onderwijskundige literatuur Literatuurzoeken: aandachtspunten Kritisch lezen Opfrissen ERIC, PsycINFO Web of Science Opfrissen EndNote.
Voor aanvang college afwisselend slides 1, 2, 3, 4, 5 , 6, 7, 8, 9, heen en terug zien via enter / backspace.
DANS is een instituut van KNAW en NWO Data Archiving and Networked Services NARCIS: nationale portal van onderzoekinformatie Elly Dijk SURFacademy ‘CRIS.
Wauw!!! Google Panda update WAUW !!!!. Google Panda update Plots geen bezoekers en/of omzet meer? In de US had deze update een impact op bijna 12% van.
E-bibliotheken Full text, e-artikels, e-tijdschriften en e-boeken Dag- en weekbladen: Mediargus : Vlaams Mediargus LexisNexis: Internationaal LexisNexis.
Your GateWay to the Finest Academic Research papers in the Netherlands Technische aspecten: de ARNO archive server Thomas Place KUB.
Deel XXI 1 Internetapplicaties Internetprogrammeren Capita Selecta.
Het KB e-Depot Waarom, wat en voor wie
Repository-demonstratie Waar doen we het allemaal voor?
Technische Architectuur
KCC4ALL.
EhBIB Search Eenvoudig en geavanceerd zoeken Zoekresultaten weergeven.
PADS4 maakt het eenvoudig om informatie te verspreiden naar een specifiek publiek op de juiste plaats en het juiste moment PADS4 is een professionele oplossing.
Informatievaardigheden Ecologie-2 (NCP-20503) september/oktober 2012 Corrie van Zeist, Liza Bruggenkamp, Marco van Veller, Wouter Gerritsma en Ans Brouwer.
Informatievaardigheden Introductie Biologie YBI_10306
Informatievaardigheden NCP Ecologie II Corrie van Zeist, Marco van Veller, Ans Brouwer en Wouter Gerritsma Bibliotheek Wageningen UR September 2009.
Informatievaardigheden NCP Ecologie II
Informatievaardigheden NCP Ecologie II
Informatievaardigheden Bedrijfs- en Consumentenwetenschappen
Broadcast Search. Doel van het project Mogelijkheid om o.a. vanaf de TU/e website te kunnen zoeken in TU/e website zelf Catalogus Metis Cursor / Matrix.
1 OMI Digitaal publiceren in bredere context.
Informatievaardigheden Introductie BPE-10806
ADLIB Information Systems Software voor Bibliotheken, Musea en Archieven OKBN bijeenkomst 24 februari 2003 René van den Heuvel.
Prototyping Week 7 // Tweenlite & API. TweenMax Snel mooie en effectieve animatie.
Kurt De Belder, MA, MLIS Hoofd sector Elektronische Diensten Universiteitsbibliotheek Universiteit van Amsterdam Geïntegreerde toegang tot catalogi kunstbibliotheken.
Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.
Van librije tot digitale bibliotheek: de universiteitsbibliotheek utrecht eric sieverts.
De informatiespecialist en het WWW Jos van Helvoort (IDM) voor Bibliotheek HHS.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
EContentplus Chris De Loof Europeana en zijn sattelietprojecten Jubelparkmuseum, Brussel 8 januari 2009 Nationale ATHENA Workshop België.
Secundaire data en online databases
ASP.NET MVC Web Development
LOREnet feb
Transcript van de presentatie:

geïntegreerde zoeksystemen verbeterde toegankelijkheid door meer verschillende bronnen in één keer doorzoekbaar te maken © eric sieverts, UB Utrecht / HvA - MIM

integratie van meer bronnen / zoeksystemen waarom wil je dat? veel organisaties hebben (heel) veel verschillende bronnen ter beschikking het is dan onhandig dezelfde zoekvraag aan elk afzonderlijk systeem telkens weer opnieuw te moeten stellen <vb utrecht> het is dan gebruikersonvriendelijk dat die systemen vaak allemaal verschillende zoekinterfaces hebben © eric sieverts, UB Utrecht / HvA - MIM

integratie van meer bronnen / zoeksystemen waarom wil je dat? veel organisaties hebben (heel) veel verschillende bronnen ter beschikking het is dan onhandig dezelfde zoekvraag aan elk afzonderlijk systeem telkens weer opnieuw te moeten stellen het is dan gebruikersonvriendelijk dat die systemen vaak allemaal verschillende zoekinterfaces hebben © eric sieverts, UB Utrecht / HvA - MIM

integratie van meer bronnen / zoeksystemen waarom wil je dat? bovendien nog algemene randvoorwaarde: google lijkt altijd eenvoudiger als zoeksystemen niet op zijn minst bijna net zo eenvoudig lijken als google , worden ze niet gebruikt © eric sieverts, UB Utrecht / HvA - MIM

hoe kun je dat integreren? globaal twee soorten aanpak voor zogenaamde “content-integratie”: alle bronnen in je eigen centrale systeem (zoekmachine) indexeren meta-zoeksysteem dat de externe zoeksystemen van de verschillende bronnen in één keer parallel bevraagt (gedistribueerde zoekactie) © eric sieverts, UB Utrecht / HvA - MIM

eigen centrale index dat kan (technisch) ook nog weer op verschillende manieren, zoals: de van verschillende leveranciers verkregen (“gekochte”) informatie volledig op de eigen server laden en daar indexeren toegang verkrijgen (kopen) tot informatie die op servers van leveranciers staat en die door je eigen “robot” of "spider" laten indexeren (zoals webzoekmachines) zogenaamde “metadata” (in deze context meestal ook abstracts van artikelen) van verschillende leveranciers op eigen server laden en indexeren; daarin hyperlinks naar volledige documenten op servers van leveranciers © eric sieverts, UB Utrecht / HvA - MIM

(volledige documenten) geïntegreerd systeem via lokale centrale index zoeken centrale index indexer indexeer- regels voor targets internet full-text links tekstbestanden (volledige documenten) tekstbestanden

eigen centrale index voorbeeld: koninklijke bibliotheek had dat tot 2 jaar geleden (en gaat daar in nieuwe architectuur weer naar terug) een aantal al lokaal beschikbare bestanden in verschillende systemen (incl. gewone catalogus) geconverteerd naar XML samen geïndexeerd standaard in die bestanden tezamen gezocht © eric sieverts, UB Utrecht / HvA - MIM

eigen centrale index ook dat kan (technisch) nog weer op verschillende manieren, zoals: de van verschillende leveranciers verkregen (“gekochte”) informatie volledig op de eigen server laden en daar indexeren toegang verkrijgen (kopen) tot informatie die op servers van leveranciers staat en die door je eigen “robot” of "spider" laten indexeren (zoals webzoekmachines) zogenaamde “metadata” (in deze context meestal ook abstracts van artikelen) van verschillende leveranciers op eigen server laden en indexeren; daarin hyperlinks naar volledige documenten op servers van leveranciers © eric sieverts, UB Utrecht / HvA - MIM

indexer zoeken centrale index internet tekstbestanden tekstbestanden geïntegreerd systeem via lokale centrale index zoeken centrale index indexer indexeer- regels voor targets internet full-text links tekstbestanden tekstbestanden

eigen centrale index voorbeeld: scirus zoekmachine (Elsevier: www.scirus.com) enerzijds: bijna 6 miljoen full-text artikelen uit circa 1800 (eigen) wetenschappelijke tijdschriften daarnaast: meer dan 160 miljoen wetenschappelijke webpagina's op allerlei sites ook: 15 miljoen bibliografische Pubmed-records en: inhoud uit wetenschappelijke “repositories” standaard in die collecties tezamen gezocht © eric sieverts, UB Utrecht / HvA - MIM

eigen centrale index ook dat kan (technisch) nog weer op verschillende manieren, zoals: de van verschillende leveranciers verkregen (“gekochte”) informatie volledig op de eigen server laden en daar indexeren toegang verkrijgen (kopen) tot informatie die op servers van leveranciers staat en die door je eigen “robot” of "spider" laten indexeren (zoals webzoekmachines) zogenaamde “metadata” (in deze context meestal ook abstracts van artikelen) van verschillende leveranciers op eigen server laden en indexeren; daarin hyperlinks naar volledige documenten op servers van leveranciers © eric sieverts, UB Utrecht / HvA - MIM

indexer zoeken centrale index internet tekstbestanden tekstbestanden geïntegreerd systeem via lokale centrale index zoeken centrale index indexer indexeer- regels voor targets internet full-text links tekstbestanden (metadata) tekstbestanden

eigen centrale index voorbeelden (waar dus alleen metadata doorzoekbaar; niet de full-text) OAIster <link> volgens Open Archive protocol “ge-harveste” metadata (volgens Dublin Core), uit allerlei “archieven” met wetenschappelijke publikaties UB Utrecht - Omega-systeem <link> metadata van artikelen uit groot aantal tijdschriften van diverse leveranciers © eric sieverts, UB Utrecht / HvA - MIM

voordelen eigen centrale index garantie van uniforme zoekmogelijkheden geavanceerde zoekfunctionaliteit mogelijk (dus concurrentie met Google aan te gaan), want de "aanbieder" heeft zelf in de hand welke zoekmachine software te installeren, hoe die te configureren, welke functionaliteit aan te bieden, hoe het gebruikersinterface te ontwerpen © eric sieverts, UB Utrecht / HvA - MIM

problemen bij centrale index problemen met leverancier van de “content”: mogelijkheid staat niet in contract / licentie leverancier begrijpt niet precies wat de klant wil technische problemen format van geleverde content inconsistent (velden, tags, ...) spider van zoekmachine wordt “toch” toegang geweigerd .... “logistieke” problemen ontbrekende / incomplete / dubbele gegevens metadata ontvangen waarvoor geen full-text toegang is © eric sieverts, UB Utrecht / HvA - MIM

problemen bij centrale index problemen met "inhoud": interne consistentie van geleverde format velden (aanwezigheid, veldtags) bijzondere tekens (diacrieten) verschil tussen leveranciers in hoeveelheid digitale tekst in de metadata veldconcordantie tussen bronnen / leveranciers content laten zoals die is ontvangen: apart indexeerscript per bron content converteren naar eigen format in "data-repository" (bijv. in xml en volgens DC): apart import-filter per bron © eric sieverts, UB Utrecht / HvA - MIM

problemen bij centrale index problemen met techniek: benodigde schijfruimte voor de content + de index(en) beheer en configuratie van eigen zoekmachine beheer en configuratie van conversiefilters en/of indexeer-scripts problemen met zoekfunctionaliteit: geen thesaurus zoekfunctie (zonder grote investering) © eric sieverts, UB Utrecht / HvA - MIM

meta-search oplossing moet kunnen communiceren met allerlei verschillende soorten zoeksystemen (o.a. vraag- en antwoord-syntax daarvan kennen) Z39.50 protocol (vooral voor bibliografische databases) xml-gebaseerde systemen (SRU: vooral voor bibliografische databases, OpenSearch: vooral voor "gewone" zoekmachines) http-protocol / web-formulieren ("screen-scraping" van gewone webinterfaces) vereist database met configuratie-gegevens van de te doorzoeken systemen © eric sieverts, UB Utrecht / HvA - MIM

query-generator / antwoord-inzamelaar geïntegreerd systeem via meta-zoekmethode zoeken query-generator / antwoord-inzamelaar configuratie gegevens van targets Z39.50 http Z39.50 intern api internet Z39.50 http http xml Z39.50 zoek zoek zoek zoek zoek zoek index index index index index index be- stand be- stand be- stand be- stand be- stand be- stand

meta-search oplossing Z39.50 standaard protocol voor communicatie tussen lokale client-software en server voor: opsturen query (en andere opdrachten) in juiste syntax gewenste actie (browsen / zoeken / tonen / …) veldnamen booleaanse operatoren .... interpretatie van ontvangen antwoorden / gegevens stuk uit index aantal hits resultatenlijst (velden) detailpresentatie van resultaten (velden, structuur) © eric sieverts, UB Utrecht / HvA - MIM

meta-search oplossing Z39.50 protocol voordeel: in de tijd stabiele interfaces velden “in principe” gestandaardiseerd nadeel: inflexibel lastige implementatie velden in praktijk vaak niet echt gestandaardiseerd weinig geavanceerde zoekfunctionaliteit (bijv. geen relevance ranking) © eric sieverts, UB Utrecht / HvA - MIM

meta-search oplossing http-protocol / webformulieren queries (ingevoerd via zoekregel of meer complex webformulier) worden doorgegeven via een URL, volgens door zoeksysteem gespecificeerde syntax http://www.google.com/search?hl=en&ie=UTF-8&q=mim+idm antwoorden (zoekresultaten) moeten worden geïnterpreteerd; er is geen standaard structuur: elementen uit antwoordscherm moeten worden herkend op basis van schermopmaak - toevallig aanwezige kenmerkende stukjes html-code - z.g.n. "screen-scraping" © eric sieverts, UB Utrecht / HvA - MIM

meta-search oplossing http-protocol / webformulieren voordeel: alle functionaliteit van betreffende zoekfunctie nadeel: url-based query-syntax moet geanalyseerd worden lastige filter-scripts schrijven voor “screen-scraping” t.b.v. verwerken gegevens uit antwoordschermen (zoekresultaten) interfaces van zoeksystemen niet erg stabiel in de tijd (telkens opnieuw "screen-scraping" filters aanpassen) © eric sieverts, UB Utrecht / HvA - MIM

meta-search oplossing voorbeelden voor alleen webzoeken: web-metasearchers: ixquick, clusty, mamma, search.com, kartoo, goshme, … <vb goshme> desktop metasearchers (op eigen pc te installeren): copernic © eric sieverts, UB Utrecht / HvA - MIM

meta-search oplossing xml-gebaseerde standaarden SRU/SRW (ook wel ZING - Z39.50 next-generation; xml-variant op Z39.50) SRU-protocol (search & retrieval by url) queries in url verpakken (volgens standaard syntax) antwoorden van systemen komen standaard in xml terug, zodat elementen daarin eenduidig herkenbaar zijn SRW-protocol (search & retrieval by the web) gebruikt daarvoor SOAP-protocol openSearch (XML protocol voor -gewone- zoekmachines) <zie voor uitleg de serie “De Standaard” in Informatie Professional> © eric sieverts, UB Utrecht / HvA - MIM

meta-search oplossing voorbeeld van SRU-gebaseerd systeem TEL - The European Library <link> project van Europese Nationale Bibliotheken, waarbij al hun uiteenlopende catalogi in één keer doorzocht kunnen worden prototype ontwikkeld door KB zie ook artikel van Theo van Veen in: Informatie Professional - maart 2004 wordt nu intern al in veel meer systemen toegepast © eric sieverts, UB Utrecht / HvA - MIM

meta-search oplossing enkele algemene voorbeelden van producten: metalib (van bibliotheekautomatiseerder ExLibris) museglobal fretwell-downing portal ihs portal suite v-spaces (van bibliotheekautomatiseerder Infor) webfeat (webservice) bij vrijwel allemaal (nog) nadruk op Z39.50 targets zie kritisch artikel van Marten Hofstede: “Portals op de pijnbank” in: Informatie Professional - oktober 2002 © eric sieverts, UB Utrecht / HvA - MIM

meta-search oplossing enkele voordelen: lokale software stelt geen heel hoge eisen aan server geen (nauwelijks) problemen met leveranciers geen problemen met indexeer- of filter-scripts (vergeleken met eigen indexerings-oplossing) © eric sieverts, UB Utrecht / HvA - MIM

meta-search oplossing nadelen van huidige generatie metazoekers: geen uniformiteit in beschikbare zoekfunctionaliteit grootste gemene veelvoud van functionaliteit geen geavanceerde zoekfuncties [relevance ranking, thesaurus, …] (al biedt SRU in principe wel mogelijkheden) onvergelijkbare aantallen resultaten / incomplete antwoorden vaak slechte responsetijden (van achterliggende systemen) beperking van aantal gelijktijdig te doorzoeken systemen slechte "usability" [onduidelijk interface, hoe voorselectie van bestanden? …] database met configuratiegegevens bijhouden/updaten (al zorgt leverancier daar meestal voor) © eric sieverts, UB Utrecht / HvA - MIM

wat nieuwe ontwikkelingen expertsysteem voor bestandskeuze inbouwen in metasearch ("Livetrix" bij UB Groningen) user experience van metasearch verbeteren, o.a. door response "schijnbaar" te versnellen door toepassing van bijvoorbeeld AJAX-technologie (scherm wordt geleidelijk opgebouwd en veranderd, zonder hele reloads zoals bij klassieke HTML) combinatie van zoeken via centrale index met metasearch voor niet lokaal te indexeren gegevens ("Primo" van ExLibris, "Summa" van Deense bibliotheken) © eric sieverts, UB Utrecht / HvA - MIM