retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen

Slides:



Advertisements
Verwante presentaties
Gereedschapskistje voor handleidingen
Advertisements

Philosopher’s Index Combineren van zoekacties met Booleaanse operatoren Klik met muis = verder gaan.
Ebook Library – Eenvoudig zoeken. In deze demo EBL Eenvoudig zoeken: •Snel zoeken •Browsen op categorie of onderwerp •Volledige tekst doorzoeken NB: EBL.
•Vul in de zoekbox je zoekterm(en) in. Je heeft geen AND of OR functie te gebruiken. De woorden worden vanzelf verbonden met AND in de zoekmotor. •Het.
Business Source Premier (BSP) Zoekresultaat uitbreiden door gebruik van meerdere EBSCO-databases Universiteitsbibliotheek verder = klikken.
geïntegreerde zoeksystemen
Zoeken in de NAZ Nederlandse Artikelendatabank voor de Zorg (alleen voor abonnees) LEVV, november 2006.
thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.
Metasearch wat is het probleem bij de oplossing? welke oplossing bij welk probleem?
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Base: bewerkingen 2 soorten - Oplopend- Aflopend.
LITERATUUR ONDERZOEK.
Basishandleiding Limo Meer info online via LIMO Help 1.
Vakliteratuur opzoeken Lieve Devos. LibriSource+ Nieuw portaal voor toegang tot elektronische bronnen Gemeenschappelijk platform.
Autonomy bij een Universiteitsbibliotheek
zoeken en ontsluiten in de wereld van Google
Eric Sieverts Sector Innovatie & Ontwikkeling Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatie Management Hogeschool van Amsterdam Moderne.
Google Scholar de googlificatie van de wetenschap ? Eric Sieverts
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
Ontsluiten en zoeken kunnen we het nog vinden? Eric Sieverts
longlist RfQ con tent PvE keuze RFI shortlist PoC test
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
ATLA Religion Database + ATLAS Zoeken naar en in ATLAS full-text artikelen Klikken = verder gaan.
LLBA Universiteitsbibliotheek Zoeken op onderwerp met de thesaurus verder = klikken.
ERIC Combineren van zoektermen met Booleaanse operatoren
Philosopher’s Index Zoekresultaten uitbreiden door te zoeken in meerdere databases tegelijk Klik met muis = verder gaan.
ATLA Religion Database + ATLAS Zoekresultaten uitbreiden door zoeken in meerdere databases Klikken = verder gaan.
Verder = klikken Historische Bibliographie Zoeken op woorden uit titel Verder = klikken.
Trefwoorden overbodig? De gebruiker aan het woord Annemieke Jurgens InfoManagement 27 april 2006.
Management van Bibliografische Informatie DOELEN ALGEMEEN: leren zoeken van wetenschappelijke literatuur SPECIFIEK voor dit blok: –literatuur zoeken over.
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
Module 1 Welke soorten informatiebronnen zijn er en hoe ze te gebruiken?
 Website faculteitsbibliotheek  Zoekmachine LIMO: boeken, artikels, eindwerken, tijdschrifttitels, kranten Bibliotheek Sociale Wetenschappen Introductie.
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken  Website faculteitsbibliotheek  Catalogus LIBISng: boeken, eindwerken, tijdschriften  Databanken:artikels.
ONLINE VERBONDEN EN INTELLIGENTE COMPUTERS Semantisch web Tom Schurmans Gunter Fransen Nand Truyen Nele Lieben.
Website Mediacentrum Ga naar “Hulp bij zoeken”  “Toegang tot de databanken”  “VPN installeren” Voordat je gebruik.
Business Source Premier (BSP) Zoekresultaten uitbreiden door wijziging van veldnamen Universiteitsbibliotheek verder = klikken.
Rechtspraak.nl Zoekresultaten uitbreiden Verder = klikken.
Verder = klikken Historische Bibliographie Tijdsperiode als onderwerp Verder = klikken.
EhBIB Search Eenvoudig en geavanceerd zoeken Zoekresultaten weergeven.
Hogeschool PXL – Elfde Liniestraat 24 – B-3500 Hasselt Wegwijs met LexisNexis Academic Handleiding voor het gebruik van.
ERIC Zoeken op onderwerp Universiteitsbibliotheek.
Informatievaardigheden Ecologie-2 (NCP-20503) september/oktober 2012 Corrie van Zeist, Liza Bruggenkamp, Marco van Veller, Wouter Gerritsma en Ans Brouwer.
Informatievaardigheden
Informatievaardigheden Corrie van Zeist, Marco van Veller, Ans Brouwer en Wouter Gerritsma September 2009.
Inhoud Presentatie 1. Probleemstelling onderzoek 2. Wat is een search engine? 3. Geschiedenis van search engines 4. Hoe werkt een search engine? 5. Welke.
ATLA Religion Database + ATLAS Bijbelhoofdstuk als onderwerp (gecompliceerde zoekactie) Klikken = verder gaan.
Opmaat Jurisprudentie Sdu Zoeken op onderwerp: Zoekresultaten uitbreiden Universiteitsbibliotheek verder = klikken.
Blackboard Diensten Mediacentrum Instructies “Thuis toegang tot de databanken” Print deze instructie uit en volg de aanwijzingen op.
Informatievaardigheden Corrie van Zeist en Marco van Veller September 2008.
Catalogus van de UvA Zoekresultaten uitbreiden Universiteitsbibliotheek verder = klikken.
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
Sociological Abstracts Zoeken op onderwerp met de thesaurus Universiteitsbibliotheek verder = klikken.
LLBA Zoekresultaat uitbreiden met synoniemen Universiteitsbibliotheek verder = klikken.
ERIC Zoekresultaten uitbreiden Verder = klikken. Een zoekresultaat uitbreiden kan op verschillende manieren Gebruik meer zoektermen:  Synoniemen of verwante.
Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.
Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatiemanagement Hogeschool van Amsterdam februari 2007 Toegankelijk zijn of.
Zoekstrategie VOGIN najaar 2015 Zoekstrategie. Effectief en efficiënt zoeken Zoekstrategie VOGIN najaar 2015.
Eric sieverts Inhoudelijk Toegankelijk Maken najaar 2015 retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen of eigenlijk: "vind"-problemen.
Hoe maak ik een PowerPoint presentatie?
Workshop Taxonomie en ontsluiting. 1.Retrieval en Ordening 2.Zoeken en Browsen 3.Alfabetisch en Systematisch 4.Thesaurus en Classificatie 5.Aristoteles.
Hoe positioneer ik mijn uitgeverij 10 do’s en dont’s Windkracht62 1 WINDKRACHT (0) Ian Muller.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
SEO Kateryna Glushak en Saartje Van Broeckhoven. Wat?  Search Engine Optimization  Zoekmachineoptimalisatie  Techniek om website hoger te laten scoren.
Moeten we onze content door laten indexeren? Kluwerlab.nl.
Voor bibliotheken. Training AquaBrowser Zoetermeer, 20 mei 2010.
WoordenlijstBeheer Terminologie centraal in de archiefsector
Goochelen met Google Zoeken
Transcript van de presentatie:

retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen eric sieverts instituut voor media en informatie management hogeschool van amsterdam

waarin uiten zoekstrategische problemen zich? (in variabele mate in zeer uiteenlopende soorten systemen, zoals bibliografische databases, full-text bestanden, het web, ….) onvoldoende recall  met zoekvraag mis je te veel relevante informatie onvoldoende precisie  zoekvraag levert (te) veel niet-relevante informatie

oorzaken voor lage recall (de recall-killers) inherent aan free-text zoeken in documenten: variatie in gebruikte woorden (spelling, woordvorm, taal) in tekst staan synoniemen, impliciete aanduidingen, … variëteit aan woorden voor generieke begrippen term-armoede van documenten (catalogus) schuld van de zoeker: verkeerde zoekterm (spelling, betekenis) te weinig varianten met OR gecombineerd te veel zoek-elementen met AND gecombineerd

oorzaken voor lage precisie (de precisie-killers) inherent aan free-text zoeken in documenten : verkeerde verbanden tussen ge-AND-e termen niet eenduidige betekenis (homoniemen, acroniemen) term-rijkdom van full-text documenten (laag term-gewicht) schuld van de zoeker : verkeerde zoekterm (te algemeen) te weinig concepten met AND gecombineerd

klassieke oplossing : gebruik van: classificatie / taxonomie thesaurus waarop berust het feit dat we denken dat dit een oplossing biedt? formaliseert betekenis uniformeert term-rijkdom (dus term-gewicht) legt inhoudelijke relaties tussen onderwerpen/termen kan verband leggen tussen facetten van onderwerp (precoordinatie)

nadelen van klassieke oplossing gebrek aan flexibiliteit (schrik van de vak-specialist) je moet (kunstmatige) informatietaal gebruiken (schrik van de ergonoom) duur omdat mensen termen moeten toekennen (schrik van de manager)

taaltechnologische alternatieven best-match zoeken met relevantie-ordening truncatie, woordstemming, fuzzy search semantische kennis toevoegen zoekresultaat in "domeinen/contexten” laten clusteren genereren van suggesties voor aanvullende zoektermen terugkoppeling van zoekersoordeel

relevance ranking factoren 1. meer van de gevraagde termen in een document 2. gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, ….) 3. gevraagde termen komen in document herhaald voor 4. gevraagde termen staan in document dicht bij elkaar 5. termen in document staan in zelfde volgorde als in vraag 6. zeldzame termen krijgen zwaarder gewicht dan algemene 7. hoeveelheid hyperlinks die naar document verwijst 8. hoe vaak een document / site wordt "bezocht" google bewijst dat dat op het web goed werkt, maar ook op een intranet?

relevance ranking factoren 1. meer termen 2. termen in titel/kop/begin 3. termen herhaald 4. termen dicht bij elkaar 5. termen in volgorde 6. zeldzame termen zwaarder 7. hyperlinks naar document 8. bezoek aan document meer concepten ge-AND hoger term-gewicht juiste verband belang specifieke term (kwaliteit) [alleen als er links zijn] (kwaliteit)

relevance ranking factoren 1. meer van de gevraagde termen in een document gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, …) 3. gevraagde termen komen in document herhaald voor 4. gevraagde termen staan in document dicht bij elkaar 5. termen in document staan in zelfde volgorde als in vraag 6. zeldzame termen krijgen zwaarder gewicht dan algemene 7. hoeveelheid hyperlinks die naar document verwijst 8. hoe vaak een document / site wordt "bezocht" allemaal gericht op hogere relevantie voor "de eerste tien", dus op precisie

truncatie / stemming / fuzzy trunceren computer  computeronderwijs stemming computer  computing, computation, computed, computers communism  community, communication ?? sieverts  sievert ?? fuzzy duivendak  duijvendak, duyvendak serajevo  sarajevo chebychev  chebyshev, chebyschef kok  kop, kak, ... ??

truncatie / stemming / fuzzy trunceren computer  computeronderwijs stemming computer  computing, computation, computed, computers communism  community, communication ?? sieverts  sievert ?? fuzzy duivendak  duijvendak, duyvendak serajevo  sarajevo chebychev  chebyshev, chebyschef kok  kop, kak, ... ?? compenseert variatie in woordvorm & spelling  betere recall maar pas op voor ongewenste effecten !!

semantische kennis in semantisch netwerk worden verbanden gelegd tussen inhoudelijk verwante woorden (in één of meer talen) door omgeving van woord in het netwerk kan betekenis worden onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query mee te expanderen (woorden binnen bepaalde "semantische afstand" van zoekwoord) voorbeeld: retrievalware van convera twenty-one van irion

visualisatie van “wordnet”

bepaalde gewenste betekenissen van zoekterm geselecteerd

semantische kennis verbeteren van precisie verbeteren van recall in semantisch netwerk worden verbanden gelegd tussen inhoudelijk verwante woorden (in één of meer talen) omgeving van woord in het netwerk kan betekenissen onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query te expanderen verbeteren van precisie verbeteren van recall maar semantisch netwerk voor specialistisch domein moet je zelf nog bouwen

automatisch clusteren/classificeren op grond van kennisregels (en bestaande “taxonomie”) in feite toepassing automatische classificatie, waarbij klassen als verdelingscriterium dienen op grond van statistiek of patronen Ask, Clusty, Collarity, …. Autonomy

custom search folders

toekenning document aan taxonomy-term gebaseerd op rules base, zoals bijvoorbeeld bij product van Verity

automatisch clusteren/classificeren op grond van kennisregels (en bestaande “taxonomie”) [vroeger:] NorthernLight “custom search folders” Verity filters/topics op grond van statistiek of patronen AltaVista (3 jaar geleden) Ask, Wisenut, Vivisimo Autonomy kiezen van juiste betekenis of context  betere precisie werkt niet gegarandeerd altijd goed

termen extraheren computer haalt karakteristieke (andere) woorden/begrippen uit eerste N documenten van zoekresultaat (statistiek - tfidf) gebruiker kiest daaruit termen om zoekactie in te perken (soms ook termen uit te sluiten, of juist resultaat met OR uit te breiden) bijv.: Quintura (frontend voor Yahoo) Scirus database van Elsevier aquabrowser (o.a. bij bibliotheek.nl)

OR

wolk van termen in Aquabrowser: die termen kunnen uit statistische analyse, woordenlijst, thesaurus, semantisch netwerk o.i.d. komen

ook zogenaamd "parametrisch" zoeken, waarbij zoekresultaat al wordt opgedeeld aan de hand van daarin aanwezige "geformaliseerde metadata"

termen extraheren inperken op juiste betekenis of context computer haalt karakteristieke (andere) woorden/begrippen uit eerste N documenten van zoekresultaat (statistiek - tfidf) gebruiker kiest daaruit termen om zoekactie in te perken (soms ook termen uit te sluiten, of juist resultaat met OR uit te breiden) bijv.: Quintura (frontend voor Yahoo) Scirus database van Elsevier aquabrowser (o.a. bij bibliotheek.nl) inperken op juiste betekenis of context  betere precisie uitbreiden met meer “synoniemen”  verbetert recall

terugkoppeling gebruiker klikt bij relevante hit op “more like this” computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.: Scirus, Google Autonomy gebruiker markeert relevante hits zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy

terugkoppeling kiezen van juiste betekenis of context gebruiker klikt bij relevante hit op “more like this” computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.: Scirus, Google Autonomy gebruiker markeert relevante hits zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy kiezen van juiste betekenis of context (o.a. via verbeteren van relevance ranking)  betere precisie