retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen

Slides:



Advertisements
Verwante presentaties
Gereedschapskistje voor handleidingen
Advertisements

Business Source Premier Zoeken op onderwerp Universiteitsbibliotheek verder = klikken.
Ebook Library – Eenvoudig zoeken. In deze demo EBL Eenvoudig zoeken: •Snel zoeken •Browsen op categorie of onderwerp •Volledige tekst doorzoeken NB: EBL.
Business Source Premier (BSP) Zoekresultaten uitbreiden door gebruik van synoniemen Universiteitsbibliotheek verder = klikken.
RSI? zoeken naar de in de e-hooiberg >
Business Source Premier (BSP) Zoekresultaat uitbreiden door gebruik van meerdere EBSCO-databases Universiteitsbibliotheek verder = klikken.
geïntegreerde zoeksystemen
thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.
Metasearch wat is het probleem bij de oplossing? welke oplossing bij welk probleem?
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
LITERATUUR ONDERZOEK.
Vakliteratuur opzoeken Lieve Devos. LibriSource+ Nieuw portaal voor toegang tot elektronische bronnen Gemeenschappelijk platform.
Autonomy bij een Universiteitsbibliotheek
zoeken en ontsluiten in de wereld van Google
Eric Sieverts Sector Innovatie & Ontwikkeling Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatie Management Hogeschool van Amsterdam Moderne.
Google Scholar de googlificatie van de wetenschap ? Eric Sieverts
Ontsluiten en zoeken kunnen we het nog vinden? Eric Sieverts
longlist RfQ con tent PvE keuze RFI shortlist PoC test
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
MLA Zoekresultaten uitbreiden door gebruik van synoniemen Universiteitsbibliotheek verder = klikken.
LLBA Universiteitsbibliotheek Zoeken op onderwerp met de thesaurus verder = klikken.
Philosopher’s Index Zoekresultaten uitbreiden door te zoeken in meerdere databases tegelijk Klik met muis = verder gaan.
ATLA Religion Database + ATLAS Zoekresultaten uitbreiden door zoeken in meerdere databases Klikken = verder gaan.
Verder = klikken Historische Bibliographie Zoeken op woorden uit titel Verder = klikken.
1 Nieuwe (on)mogelijkheden webzoekmachines Jeroen Bosman VOGIN, 16 mei 2011 Wageningen.
Trefwoorden overbodig? De gebruiker aan het woord Annemieke Jurgens InfoManagement 27 april 2006.
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
1 Nieuwe (on)mogelijkheden webzoekmachines Jeroen Bosman VOGIN, 16 november 2010 Wageningen.
Indexen en zoekstrategieën Marc Jeurissen Anet Gebruikersdag 15 juni 2011.
Opsporen en beheren onderwijskundige literatuur Literatuurzoeken: aandachtspunten Kritisch lezen Opfrissen ERIC, PsycINFO Web of Science Opfrissen EndNote.
Management van Bibliografische Informatie DOELEN ALGEMEEN: leren zoeken van wetenschappelijke literatuur SPECIFIEK voor dit blok: –literatuur zoeken over.
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.
3 factoren die de Google Ranking bepalen 1. Pagerank 3 factoren die de Ranking bepalen: “ Goede content “ 2. Duur op website + social media knoppen 3.
Wauw!!! Google Panda update WAUW !!!!. Google Panda update Plots geen bezoekers en/of omzet meer? In de US had deze update een impact op bijna 12% van.
Module 1 Welke soorten informatiebronnen zijn er en hoe ze te gebruiken?
Basiscursus SWI Informatie gebruik Informatie retrieval.
 Website faculteitsbibliotheek  Zoekmachine LIMO: boeken, artikels, eindwerken, tijdschrifttitels, kranten Bibliotheek Sociale Wetenschappen Introductie.
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken Communicatiewetenschappen  Website faculteitsbibliotheek  Catalogus LIBISng: boeken, eindwerken,
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken  Website faculteitsbibliotheek  Catalogus LIBISng: boeken, eindwerken, tijdschriften  Databanken:artikels.
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken  Website faculteitsbibliotheek  Catalogus LIBISng: boeken, eindwerken, tijdschriften  Databanken:artikels.
ONLINE VERBONDEN EN INTELLIGENTE COMPUTERS Semantisch web Tom Schurmans Gunter Fransen Nand Truyen Nele Lieben.
Website Mediacentrum Ga naar “Hulp bij zoeken”  “Toegang tot de databanken”  “VPN installeren” Voordat je gebruik.
Business Source Premier (BSP) Zoekresultaten uitbreiden door wijziging van veldnamen Universiteitsbibliotheek verder = klikken.
Rechtspraak.nl Zoekresultaten uitbreiden Verder = klikken.
Academic Search Premier Zoeken op onderwerp met de thesaurus (trefwoordenlijst) Universiteitsbibliotheek verder = klikken.
Verder = klikken Historische Bibliographie Tijdsperiode als onderwerp Verder = klikken.
ERIC Zoeken op onderwerp Universiteitsbibliotheek.
Informatievaardigheden Corrie van Zeist, Marco van Veller, Ans Brouwer en Wouter Gerritsma September 2009.
Inhoud Presentatie 1. Probleemstelling onderzoek 2. Wat is een search engine? 3. Geschiedenis van search engines 4. Hoe werkt een search engine? 5. Welke.
ATLA Religion Database + ATLAS Bijbelhoofdstuk als onderwerp (gecompliceerde zoekactie) Klikken = verder gaan.
Blackboard Diensten Mediacentrum Instructies “Thuis toegang tot de databanken” Print deze instructie uit en volg de aanwijzingen op.
Informatievaardigheden Corrie van Zeist en Marco van Veller September 2008.
Catalogus van de UvA Zoekresultaten uitbreiden Universiteitsbibliotheek verder = klikken.
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
LLBA Zoekresultaat uitbreiden met synoniemen Universiteitsbibliotheek verder = klikken.
ERIC Zoekresultaten uitbreiden Verder = klikken. Een zoekresultaat uitbreiden kan op verschillende manieren Gebruik meer zoektermen:  Synoniemen of verwante.
MLA Zoeken op onderwerp met de thesaurus Universiteitsbibliotheek verder = klikken.
Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.
Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatiemanagement Hogeschool van Amsterdam februari 2007 Toegankelijk zijn of.
Zoekstrategie VOGIN najaar 2015 Zoekstrategie. Effectief en efficiënt zoeken Zoekstrategie VOGIN najaar 2015.
Eric sieverts Inhoudelijk Toegankelijk Maken najaar 2015 retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen of eigenlijk: "vind"-problemen.
Hoe maak ik een PowerPoint presentatie?
Hoe positioneer ik mijn uitgeverij 10 do’s en dont’s Windkracht62 1 WINDKRACHT (0) Ian Muller.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
SEO Kateryna Glushak en Saartje Van Broeckhoven. Wat?  Search Engine Optimization  Zoekmachineoptimalisatie  Techniek om website hoger te laten scoren.
Moeten we onze content door laten indexeren? Kluwerlab.nl.
Voor bibliotheken. Training AquaBrowser Zoetermeer, 20 mei 2010.
WoordenlijstBeheer Terminologie centraal in de archiefsector
Transcript van de presentatie:

retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen eric sieverts Opleiding Media, Informatie & Communicatie Hogeschool van Amsterdam Universiteitsbibliotheek Utrecht sector Innovatie & Ontwikkeling

waarin uiten zoekstrategische problemen zich? in variabele mate in uiteenlopende soorten systemen: catalogi, bibliografische databases, full-text bestanden, enterprise search, het web, …. onvoldoende recall  met zoekvraag mis je te veel relevante informatie onvoldoende precisie  zoekvraag levert (te) veel niet-relevante informatie

oorzaken voor lage recall (de recall-killers) inherent aan free-text zoeken in documenten: variatie in spelling en woordvorm van gebruikte woorden in tekst staan synoniemen, impliciete aanduidingen, woorden in andere taal, … variëteit aan mogelijke (specifiekere) woorden voor generieke begrippen term-armoede van documenten (catalogus) schuld van de zoeker: verkeerde zoekterm (ongebruikelijk, spelling) te weinig varianten met OR gecombineerd te veel zoek-elementen met AND gecombineerd

oorzaken voor lage precisie (de precisie-killers) inherent aan free-text zoeken in documenten : in tekst is geen of onbedoeld verband tussen met AND gecombineerde termen zoekwoorden komen in tekst in andere betekenis voor (homografen, acroniemen, andere taal) term-rijkdom van full-text documenten (laag term-gewicht) schuld van de zoeker : verkeerde zoekterm (te algemeen, betekenis) te weinig zoek-elementen met AND gecombineerd

klassieke oplossing : gebruik van: classificatie / taxonomie thesaurus waarom kan dit een oplossing bieden? formaliseert betekenis (homograaf-probleem) kan verwijzen naar gebruikelijke(r) term (vervangend zoeken) kan term-rijkdom uniformeren (dus gelijk term-gewicht; o.a. door diepte-indexering) legt inhoudelijke relaties tussen onderwerpen/termen (generiek zoeken) kan verband leggen tussen facetten van onderwerp (precoordinatie)

nadelen van klassieke oplossing gebrek aan flexibiliteit (schrik van de vak-specialist) gebruik van kunstmatige informatietaal (schrik van de ergonoom) duur omdat mensen termen moeten toekennen (schrik van de manager)

(taal)technologische alternatieven best-match zoeken met relevantie-ordening truncatie, wordstemming, fuzzy search semantische kennis toevoegen suggereren van betere zoektermen suggereren van aanvullende zoektermen zoekresultaat clusteren in "domeinen/contexten” terugkoppeling van zoekersoordeel

relevance ranking factoren 1. meer van de gevraagde termen in een document 2. gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, ….) 3. gevraagde termen komen in document herhaald voor 4. gevraagde termen staan in document dicht bij elkaar 5. termen in document staan in zelfde volgorde als in vraag 6. zeldzame termen krijgen zwaarder gewicht dan algemene 7. hoeveel hyperlinks naar document verwijzen hoe vaak een document / site wordt "bezocht" of site/pagina/bericht tot je sociale netwerk hoort … werkt goed op het web, maar ook op een intranet?

relevance ranking factoren 1. meer termen 2. termen in titel/kop/begin 3. termen herhaald 4. termen dicht bij elkaar 5. termen in volgorde 6. zeldzame termen zwaarder 7. hyperlinks naar document bezoek aan document in sociale netwerk meer concepten ge-AND hoger term-gewicht juiste verband belang specifieke term (kwaliteit) [alleen als er links zijn] (kwaliteit) (context) [alleen op open web]

relevance ranking factoren 1. meer van de gevraagde termen in een document gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, …) 3. gevraagde termen komen in document herhaald voor 4. gevraagde termen staan in document dicht bij elkaar 5. termen in document staan in zelfde volgorde als in vraag 6. zeldzame termen krijgen zwaarder gewicht dan algemene 7. hoeveel hyperlinks naar document verwijzen hoe vaak een document / site wordt "bezocht" of site/pagina/bericht tot je sociale netwerk hoort allemaal gericht op hogere relevantie voor "de eerste tien", dus op precisie

truncatie / word-stemming / fuzzy trunceren computer  computeronderwijs stemming computer  computing, computation, computed, computers communism  community, communication ?? sieverts  sievert ?? fuzzy duivendak  duijvendak, duyvendak serajevo  sarajevo, serajewo medvedev  medvediev, medwedew, … kok  kop, kak, ... ??

truncatie / stemming / fuzzy trunceren computer  computeronderwijs stemming computer  computing, computation, computed, computers communism  community, communication ?? sieverts  sievert ?? fuzzy duivendak  duijvendak, duyvendak serajevo  sarajevo, serajewo medvedev  medvediev, medwedew, … kok  kop, kak, ... ?? compenseert variatie in woordvorm & spelling  betere recall maar pas op voor ongewenste effecten !!

semantische kennis in semantisch netwerk worden betekenissen van woorden vastgelegd (hele woordenboek) & worden betekenisrelaties gelegd tussen inhoudelijk verwante woorden (in één of meer talen) door omgeving van woord in het netwerk kan betekenis worden onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query mee te expanderen (woorden binnen bepaalde "semantische afstand" van zoekwoord) voorbeeld: retrievalware van convera twenty-one van irion

visualisatie van “wordnet”

bepaalde gewenste betekenissen van zoekterm geselecteerd

semantische kennis verbeteren van precisie verbeteren van recall in semantisch netwerk worden betekenissen van woorden vastgelegd (hele woordenboek) & worden betekenisrelaties gelegd tussen inhoudelijk verwante woorden (in één of meer talen) door omgeving van woord in het netwerk kan betekenis worden onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query mee te expanderen (woorden binnen bepaalde "semantische afstand" van zoekwoord) verbeteren van precisie verbeteren van recall maar semantisch netwerk voor specialistisch domein moet je zelf nog bouwen/aanvullen

termen verbeteren computer suggereert iets afwijkende term door fuzzy-search in woordenboek door fuzzy search in eigen index >> term die (veel) meer oplevert door generieke kennis van vaak gemaakte tikfouten bijv.: Google (did you mean …)

termen verbeteren verbetert recall computer suggereert iets afwijkende term door fuzzy-search in woordenboek door fuzzy search in eigen index naar term die (veel) meer oplevert door generieke kennis van vaak gemaakte tikfouten bijv.: Google (did you mean …) verbetert recall

aanvullende termen extraheren computer haalt karakteristieke (andere) woorden/begrippen uit eerste N documenten van zoekresultaat (statistiek - tfidf) gebruiker kiest daaruit termen om zoekactie in te perken (soms ook termen uit te sluiten, of juist resultaat met OR uit te breiden) bijv.: Quintura (frontend voor Yahoo) Scirus database van Elsevier Aquabrowser (o.a. bij bibliotheek.nl)

AND

zelf in OR te veranderen !

ook “faceted” zoeken, waarbij zoekresultaat al wordt opgedeeld aan de hand van daarin aanwezige "geformaliseerde metadata" wolk van termen in Aquabrowser: die termen kunnen uit statistische analyse, woordenlijst, thesaurus, semantisch netwerk o.i.d. komen

ook “faceted” zoeken, waarbij zoekresultaat wordt opgedeeld aan de hand van daarin aanwezige "geformaliseerde metadata"

aanvullende termen extraheren computer haalt karakteristieke (andere) woorden/begrippen uit eerste N documenten van zoekresultaat (statistiek - tfidf) gebruiker kiest daaruit termen om zoekactie in te perken (soms ook termen uit te sluiten, of juist resultaat met OR uit te breiden) bijv.: Quintura (frontend voor Yahoo) Scirus database van Elsevier aquabrowser (o.a. bij bibliotheek.nl) inperken op juiste betekenis of context  betere precisie uitbreiden met meer “synoniemen”  verbetert recall

automatisch clusteren/classificeren op grond van kennisregels (en bestaande “taxonomie”) in feite toepassing automatische classificatie, waarbij klassen als verdelingscriterium dienen op grond van statistiek of patronen Clusty/Yippy, Polymeta, …. Autonomy

custom search folders

toekenning document aan taxonomy-term gebaseerd op rules base, zoals bijvoorbeeld bij product van Verity

automatisch clusteren/classificeren op grond van kennisregels (en bestaande “taxonomie”) in feite toepassing automatische classificatie, waarbij klassen als verdelingscriterium dienen op grond van statistiek of patronen Clusty/Yippy, Collarity Autonomy kiezen van juiste betekenis of context  betere precisie werkt niet gegarandeerd altijd goed

terugkoppeling gebruiker klikt bij relevante hit op “more like this” computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.: Scirus, Google SimilarPages (Firefox Add-on) Autonomy gebruiker markeert relevante hits zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy en ook personal Google?

max havelaar keurmerk product max havelaar - het boek

gelijkenis-“patronen” bij Google site 1 site 2 site 3 site 4 site 5 site 6 site 7 site 8 site 9 hyperlinks goede site similar site similar site similar site similar site similar site similar site similar site

"similar pages" add-on gebruikt combinatie van content en link-structuur maar: "similar pages" blijkt dus geen "pages" maar "sites" te vergelijken

terugkoppeling kiezen van juiste betekenis of context gebruiker klikt bij relevante hit op “more like this” computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.: Scirus, Google Similar_Pages (Firefox Add-on) Autonomy gebruiker markeert relevante hits zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy en ook personal Google? kiezen van juiste betekenis of context (door gelijkenis of door personalisatie van relevance ranking)  betere precisie

precisie-verbeterend relevance ranking automatisch onderscheiden van context/betekenis statistiek (clusty, quintura, scirus) automatisch kennisregels + mens-gedefinieerde categorieën (northernlight, verity) half-automatisch woordrelaties in semantisch netwerk half-automatisch “more-like-this” vanuit document in goede context (scirus, google) automatisch

meenemen van woordvarianten recall-verbeterend meenemen van woordvarianten word-stemming (pas op: taalafhankelijk) automatisch fuzzy search automatisch did-you-mean automatisch toevoegen van andere termen statistiek (scirus) automatisch semantisch netwerk half-automatisch synoniemenlijst half-automatisch