Eric sieverts Inhoudelijk Toegankelijk Maken najaar 2015 retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen of eigenlijk: "vind"-problemen.

Slides:



Advertisements
Verwante presentaties
Gereedschapskistje voor handleidingen
Advertisements

Philosopher’s Index Combineren van zoekacties met Booleaanse operatoren Klik met muis = verder gaan.
Business Source Premier Zoeken op onderwerp Universiteitsbibliotheek verder = klikken.
Inleiding Na het bestuderen van dit hoofdstuk kun je:
Business Source Premier (BSP) Zoekresultaten uitbreiden door gebruik van synoniemen Universiteitsbibliotheek verder = klikken.
Business Source Premier (BSP) Zoekresultaat uitbreiden door gebruik van meerdere EBSCO-databases Universiteitsbibliotheek verder = klikken.
Efficiënt zoeken Informatie zoeken op verschillende manieren Je hebt een URL of hyperlink bij de hand VVVVb. W W W W W WWWW WWWW.... SSSS IIII TTTT.
Leesvaardigheid (ook te vinden op LaPlaza)
Koopwoning...  (het is niet zo moeilijk…). huiswerk  pak agenda en noteer bij ma 19 januri 5e lesuur:  leren tb 72 tm 77 maken 3.21 tm 3.23 wb 129.
thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.
Metasearch wat is het probleem bij de oplossing? welke oplossing bij welk probleem?
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
Base: bewerkingen 2 soorten - Oplopend- Aflopend.
LITERATUUR ONDERZOEK.
Vakliteratuur opzoeken Lieve Devos. LibriSource+ Nieuw portaal voor toegang tot elektronische bronnen Gemeenschappelijk platform.
zoeken en ontsluiten in de wereld van Google
Eric Sieverts Sector Innovatie & Ontwikkeling Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatie Management Hogeschool van Amsterdam Moderne.
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
Ontsluiten en zoeken kunnen we het nog vinden? Eric Sieverts
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
ATLA Religion Database + ATLAS Zoeken naar en in ATLAS full-text artikelen Klikken = verder gaan.
Dyabola Archäologische Bibliographie Realkatalog (DAI) Zoeken op onderwerp Bibliotheken Verder = klikken.
Philosopher’s Index Zoekresultaten uitbreiden door te zoeken in meerdere databases tegelijk Klik met muis = verder gaan.
ERIC Woordvarianten (b.v. labor, labour) Universiteitsbibliotheek.
ATLA Religion Database + ATLAS Zoekresultaten uitbreiden door zoeken in meerdere databases Klikken = verder gaan.
Verder = klikken Historische Bibliographie Zoeken op woorden uit titel Verder = klikken.
Trefwoorden overbodig? De gebruiker aan het woord Annemieke Jurgens InfoManagement 27 april 2006.
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
Management van Bibliografische Informatie DOELEN ALGEMEEN: leren zoeken van wetenschappelijke literatuur SPECIFIEK voor dit blok: –literatuur zoeken over.
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
Aan de slag met weblogs Pierre Gorissen 14 juni 2005.
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
ONLINE VERBONDEN EN INTELLIGENTE COMPUTERS Semantisch web Tom Schurmans Gunter Fransen Nand Truyen Nele Lieben.
Technische Architectuur
Business Source Premier (BSP) Zoekresultaten uitbreiden door wijziging van veldnamen Universiteitsbibliotheek verder = klikken.
Rechtspraak.nl Zoekresultaten uitbreiden Verder = klikken.
Hoe krijg ik volk op mijn site? Keywords Titles Descriptions.
Woordenschat en kijk op taal Hoofdstuk 2 en 3
ERIC Zoeken op onderwerp Universiteitsbibliotheek.
Een werkstuk maken.
Informatievaardigheden Corrie van Zeist, Marco van Veller, Ans Brouwer en Wouter Gerritsma September 2009.
Inhoud Presentatie 1. Probleemstelling onderzoek 2. Wat is een search engine? 3. Geschiedenis van search engines 4. Hoe werkt een search engine? 5. Welke.
ATLA Religion Database + ATLAS Bijbelhoofdstuk als onderwerp (gecompliceerde zoekactie) Klikken = verder gaan.
Informatievaardigheden Corrie van Zeist en Marco van Veller September 2008.
Catalogus van de UvA Zoekresultaten uitbreiden Universiteitsbibliotheek verder = klikken.
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
LLBA Zoekresultaat uitbreiden met synoniemen Universiteitsbibliotheek verder = klikken.
ERIC Zoekresultaten uitbreiden Verder = klikken. Een zoekresultaat uitbreiden kan op verschillende manieren Gebruik meer zoektermen:  Synoniemen of verwante.
Online filmpjes maken. (
MLA Zoeken op onderwerp met de thesaurus Universiteitsbibliotheek verder = klikken.
Bronnen controleren…. Hoe doe je dat? K=Kwaliteit O=Oorsprong D=Doel A=Actualiteit K=Kwantiteit.
Java Objectgeoriënteerd Programmeren in Java met BlueJ
Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.
Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatiemanagement Hogeschool van Amsterdam februari 2007 Toegankelijk zijn of.
Zoekstrategie VOGIN najaar 2015 Zoekstrategie. Effectief en efficiënt zoeken Zoekstrategie VOGIN najaar 2015.
Hoe maak ik een PowerPoint presentatie?
Hoe positioneer ik mijn uitgeverij 10 do’s en dont’s Windkracht62 1 WINDKRACHT (0) Ian Muller.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
Verbeter de vindbaarheid van je verenigingswebsite Samantha van der Werf.
SEO Kateryna Glushak en Saartje Van Broeckhoven. Wat?  Search Engine Optimization  Zoekmachineoptimalisatie  Techniek om website hoger te laten scoren.
Centraal Examen Nederlands
Voor bibliotheken. Training AquaBrowser Zoetermeer, 20 mei 2010.
Zoeken op internet
WoordenlijstBeheer Terminologie centraal in de archiefsector
Beginnen met SEO SEO webinar Alon Bromet & Robbert Kleijwegt
Goochelen met Google Zoeken
Wie zoekt, die vindt…!!! Workshop Zoekvaardigheden Profielwerkstuk MAVO Mediatheek De Nassau.
Transcript van de presentatie:

eric sieverts Inhoudelijk Toegankelijk Maken najaar 2015 retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen of eigenlijk: "vind"-problemen

waarin uiten zoekstrategische problemen zich? in variabele mate in uiteenlopende soorten systemen: catalogi, bibliografische databases, full-text bestanden, enterprise search, het web, …. onvoldoende recall (vangst)  met zoekvraag mis je te veel relevante informatie (je vindt te veel niet) onvoldoende precisie  zoekvraag levert (te) veel niet-relevante informatie (je vindt te veel -ten onrechte- wel)

oorzaken voor lage recall (de recall-killers) inherent aan free-text zoeken in documenten: variatie in spelling en woordvorm van gebruikte woorden in tekst staan synoniemen, impliciete aanduidingen, woorden in andere taal, … variëteit aan mogelijke (specifiekere) woorden voor generieke begrippen term-armoede van documenten (catalogi, niet-tekst docs, …) schuld van de zoeker: verkeerde zoekterm (ongebruikelijk, spelling) te weinig varianten met OR gecombineerd te veel zoek-elementen met AND gecombineerd

oorzaken voor lage precisie (de precisie-killers) inherent aan free-text zoeken in documenten : in gevonden tekst geen of onbedoeld verband tussen met AND gecombineerde termen (false coordination) zoekwoorden komen in tekst in andere betekenis voor (homografen, acroniemen, andere taal) term-rijkdom van full-text documenten (laag term-gewicht) schuld van de zoeker : verkeerde zoekterm (te algemeen, betekenis) te weinig zoek-elementen met AND gecombineerd

klassieke oplossing : gebruik van: thesaurus, classificatie / taxonomie waarom kan dit een oplossing bieden? door browsen/navigeren kun je goede term/categorie vinden formaliseert betekenis (homograaf-probleem) kan verwijzen naar gebruikelijke(r) term (vervangend zoeken) kan term-rijkdom uniformeren (dus gelijk term-gewicht; o.a. door diepte-indexering) legt inhoudelijke relaties tussen onderwerpen/termen (generiek zoeken) kan verband leggen tussen facetten van onderwerp (precoordinatie)

nadelen van klassieke oplossing gebrek aan flexibiliteit (schrik van de vak-specialist) gebruik van kunstmatige informatietaal (schrik van de ergonoom) duur omdat mensen termen moeten toekennen (schrik van de manager)

(taal)technologische alternatieven best-match zoeken met relevantie-ordening truncatie, wordstemming, fuzzy search, samenstellingen semantische kennis toevoegen suggereren van betere zoektermen suggereren van aanvullende zoektermen zoekresultaat clusteren in "domeinen/contexten” terugkoppeling van zoekersoordeel + nieuwe semantische technieken [volgt later]

relevance ranking factoren 1.meer van de gevraagde termen in een document 2.gevraagde termen op belangrijke plek in document (titel, url, koppen, eerste paar regels, ….) 3.gevraagde termen komen in document herhaald voor 4.gevraagde termen staan in document dicht bij elkaar 5.termen staan in document in zelfde volgorde als in vraag » 6.zeldzame termen krijgen zwaarder gewicht dan algemene 7.hoeveel hyperlinks naar document verwijzen 8.hoe vaak een document / site wordt "bezocht" 9.of het lijkt op wat je eerder bekeken hebt 10.… werkt goed op het web, maar ook op een intranet?

relevance ranking factoren 1.meer termen 2.termen in titel/kop/begin 3.termen herhaald 4.termen dicht bij elkaar 5.termen in volgorde 6.zeldzame termen zwaarder 7.hyperlinks naar document 8.bezoek aan document 9.persoonlijke voorkeur  meer concepten ge-AND  hoger term-gewicht  juiste verband  belang specifieke term  (kwaliteit) [alleen als er links zijn]  (kwaliteit)  juiste betekenis/context

relevance ranking factoren 1.meer van de gevraagde termen in een document 2.gevraagde termen op belangrijke plek in document (titel, url, koppen, eerste paar regels, …) 3.gevraagde termen komen in document herhaald voor 4.gevraagde termen staan in document dicht bij elkaar 5.termen staan in document in zelfde volgorde als in vraag 6.zeldzame termen krijgen zwaarder gewicht dan algemene 7.hoeveel hyperlinks naar document verwijzen 8.hoe vaak een document / site wordt "bezocht" 9.of het lijkt op wat je eerder bekeken hebt allemaal gericht op hogere relevantie voor "de eerste tien", dus op precisie

truncatie / stemming / fuzzy / samenstellingen trunceren computer   computeronderwijs [ meestal actie en keuze van zoeker nodig ] word- computer  computing, computation, stemming computed, computers communism  community, communication ?? sieverts  sievert ?? [ vaak automatisch; uit te schakelen ?] fuzzy duivendak  duijvendak, duyvendak serajevo  sarajevo, serajewo gorbachov  gorbachev, gorbatsjov, … kok  kop, kak,... ?? [ ja/nee-keuze of mate van fuzziness aangeven ] samenstellingen>>

samenstellingen en woordvarianten Google breidt zoekactie automatisch daarmee uit

trunceren computer   computeronderwijs [ meestal actie en keuze van zoeker nodig ] word- computer  computing, computation, stemming computed, computers communism  community, communication ?? sieverts  sievert ?? [ vaak automatisch; uit te schakelen ?] fuzzy duivendak  duijvendak, duyvendak serajevo  sarajevo, serajewo gorbachov  gorbachev, gorbatsjov, … kok  kop, kak,... ?? [ ja/nee-keuze of mate van fuzziness aangeven ] samenstellingen>> truncatie / stemming / fuzzy / samenstellingen compenseert variatie in woordvorm & spelling  betere recall maar pas op voor ongewenste effecten !!

semantische kennis in semantisch netwerk worden betekenissen van woorden vastgelegd (hele woordenboek) & worden betekenisrelaties gelegd tussen inhoudelijk verwante woorden (in één of meer talen) door omgeving van woord in het netwerk kunnen betekenissen worden onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query mee te expanderen (woorden binnen bepaalde "semantische afstand" van zoekwoord) voorbeeld: Wordnet (voor het Engels)Wordnet

visualisatie van “wordnet”

betekenissen onderscheiden bank stoel krukje divan sofa schemerlamp zitten zitmeubel tafel tv kijken geld giro belegging rente sparen hypotheek overschrijving beurskoers lening bank "hij zat op de bank tv te kijken met een biertje voor zich op tafel" "deze bank rekent een hoge rente op leningen en hypotheken" "onder het schijnsel van de schemerlamp zat hij op de bank een giro over te schrijven om bij zijn bank de hypotheek af te lossen"

semantische kennis Google "Knowledge Graph" (en Bing's “entity search") zijn nog geavanceerder netwerken met semantische kennis, waarmee zoekacties (ongemerkt) verbeterd worden helaas voor gebruiker niet zichtbaar wat precies gebeurt Knowledge Graph kent >500 miljoen objecten met >3,5 miljard kenmerken

in semantisch netwerk worden betekenissen van woorden vastgelegd (hele woordenboek) & worden betekenisrelaties gelegd tussen inhoudelijk verwante woorden (in één of meer talen) door omgeving van woord in het netwerk kunnen betekenissen worden onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query mee te expanderen (woorden binnen bepaalde "semantische afstand" van zoekwoord) semantische kennis verbeteren van precisie verbeteren van recall maar semantisch netwerk voor specialistisch domein moet je zelf nog bouwen/aanvullen

termen verbeteren computer suggereert iets afwijkende term door fuzzy-search in woordenboek door fuzzy search in eigen index >> term die (veel) meer oplevert door generieke kennis van vaak gemaakte tikfouten bijv.: Google ("showing results for …")

maar Google heeft intussen bijgeleerd

termen verbeteren computer suggereert iets afwijkende term door fuzzy-search in woordenboek door fuzzy search in eigen index naar term die (veel) meer oplevert door generieke kennis van vaak gemaakte tikfouten bijv.: Google ("showing results for …") verbetert recall

aanvullende termen extraheren computer haalt karakteristieke (andere) woorden/begrippen uit eerste N documenten van zoekresultaat (statistiek - tf  idf) tf = term frequentie computer turft van elk woord hoe vaak het in document voorkomt idf = inverse document frequentie computer zoekt in zoekmachine-index op hoeveel documenten er zijn waarin dat woord voorkomt (df) computer deelt term frequentie door document frequentie ("invers = delen door") dat compenseert voor hoge term frequentie van algemeen voorkomende woorden

tf  idf rekenvoorbeeld: woordtfdftf  idf de ,00075 in ,00050 karakteristiek2400,050 zoekmachine1150,067 in praktijk vaak nog verfijning door in idf een logaritme te verwerken: idf = log N / df waar N=totaal aantal documenten

aanvullende termen extraheren die berekening levert rijtje termen, gesorteerd op hun tf  idf -waarde - hoe hoger tf  idf -waarde, hoe karakteristieker gebruiker kiest daaruit term om zoekactie in te perken (soms ook termen uit te sluiten, of juist resultaat met OR uit te breiden) bijv.: Quintura (vroegere demo met frontend voor Yahoo, nu nog als "kids"zoekmachine)"kids"zoekmachine Aquabrowser (o.a. bij bibliotheek.nl)bibliotheek.nl

wolk van termen in Aquabrowser: die termen kunnen uit statistische analyse, woordenlijst, thesaurus, semantisch netwerk o.i.d. komen ook “faceted” zoeken, waarbij zoekresultaat al wordt opgedeeld aan de hand van daarin aanwezige "geformaliseerde metadata"

ook “faceted” zoeken, waarbij zoekresultaat wordt opgedeeld aan de hand van daarin aanwezige "geformaliseerde metadata"

computer haalt karakteristieke (andere) woorden/begrippen uit eerste N documenten van zoekresultaat (statistiek - tf  idf) gebruiker kiest daaruit termen om zoekactie in te perken (soms ook termen uit te sluiten, of juist resultaat met OR uit te breiden) aanvullende termen extraheren inperken op juiste betekenis of context  betere precisie uitbreiden met meer “synoniemen”  verbetert recall

automatisch clusteren/classificeren op grond van kennisregels (en bestaande “taxonomie”) in feite toepassing automatische classificatie, waarbij klassen als verdelingscriterium dienen op grond van statistiek of patronen –Yippy, Polymeta, …. –Autonomy

custom search folders

toekenning document aan taxonomy-term gebaseerd op rules base, zoals bijvoorbeeld bij product van Verity

automatisch clusteren/classificeren op grond van kennisregels (en bestaande “taxonomie”) in feite toepassing automatische classificatie, waarbij klassen als verdelingscriterium dienen op grond van statistiek of patronen –Yippy, Polymeta –Autonomy kiezen van juiste betekenis of context  betere precisie werkt niet gegarandeerd altijd goed

terugkoppeling gebruiker klikt bij relevante hit op “more like this” / "similar" computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.:Google Autonomy gebruiker markeert relevante hits zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht → bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy en ook personal Google?

gelijkenis-“patronen” bij Google goede site site 1site 2site 3site 4site 5site 6site 7site 8site 9 hyperlinks similar site similar site similar site similar site similar site similar site similar site

? ?

terugkoppeling gebruiker klikt bij relevante hit op “more like this” / "similar" computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.:Google Autonomy gebruiker markeert relevante hits zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht → bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy personal Google door te registreren welke zoekresultaten wel/niet worden bekeken

terugkoppeling gebruiker klikt bij relevante hit op “more like this” / "similar" computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.:Google Autonomy gebruiker markeert relevante hits zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht → bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy personal Google kiezen van juiste betekenis of context (door gelijkenis of door personalisatie van relevance ranking)  betere precisie

precisie-verbeterend relevance ranking automatisch onderscheiden van context/betekenis statistiek >> termen / clusters (quintura, yippy,...) automatisch kennisregels + mens-gedefinieerde categorieën (northernlight, verity) half-automatisch woordrelaties in semantisch netwerk half-automatisch “more-like-this” vanuit document in goede context (google) automatisch

recall-verbeterend meenemen van woordvarianten word-stemming (pas op: taalafhankelijk)automatisch fuzzy searchautomatisch samenstellingenautomatisch showing results for …automatisch toevoegen van andere termen statistiekautomatisch semantisch netwerk half-automatisch synoniemenlijst half-automatisch