Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatiemanagement Hogeschool van Amsterdam februari 2007 Toegankelijk zijn of.

Slides:



Advertisements
Verwante presentaties
Werkwijze In deze les wordt uitleg gegeven over het zoeken naar informatie in de mediatheek Je leert zoeken naar boeken en je krijgt een korte introductie.
Advertisements

Groep Doel bepalen Voorspellen Kennis ophalen Vragen stellen
Effectief zoeken en verwerken van digitale informatie
Hoofd Afdeling Digitale Biblitheekvoorzieningen
Van uitleggen leer je het meest
Web 2.0 en de informatievoorziening Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool van Amsterdam)
thema's weinig over puur “onderwerpsontsluiting” onderwerpsontsluiting full-text zoeken user / looser generated content catalogiseren / titelbeschrijven.
Management van Bibliografische Informatie (MBI) Module 4 College “Big Picture” Universiteitsbibliotheek UM 2002, 10 juni.
Metasearch wat is het probleem bij de oplossing? welke oplossing bij welk probleem?
To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.
LITERATUUR ONDERZOEK.
Vakliteratuur opzoeken Lieve Devos. LibriSource+ Nieuw portaal voor toegang tot elektronische bronnen Gemeenschappelijk platform.
zoeken en ontsluiten in de wereld van Google
Eric Sieverts Sector Innovatie & Ontwikkeling Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatie Management Hogeschool van Amsterdam Moderne.
Google Scholar de googlificatie van de wetenschap ? Eric Sieverts
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
Ontsluiten en zoeken kunnen we het nog vinden? Eric Sieverts
Opdracht 2. premisse: het Nederlandse over in contexten waarin het vertaald wordt door about is een instantiatie van de focus-of- attention sense incorrecte.
Fast and Effective Query Refinement B. Velez, R. Weiss, M.A. Sheldon, D.K. Gifford SIGIR 1997.
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
Dyabola Archäologische Bibliographie Realkatalog (DAI) Zoeken op onderwerp Bibliotheken Verder = klikken.
Philosopher’s Index Zoekresultaten uitbreiden door te zoeken in meerdere databases tegelijk Klik met muis = verder gaan.
ATLA Religion Database + ATLAS Zoekresultaten uitbreiden door zoeken in meerdere databases Klikken = verder gaan.
Trefwoorden overbodig? De gebruiker aan het woord Annemieke Jurgens InfoManagement 27 april 2006.
retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen
Dit wordt het DSH Herent, 7 april Wettelijk kader Decreet van 3 maart 2008 Deadline van 22 mei 2009 voor het “sociaal huis” Minimale vereisten:
Voor aanvang college afwisselend slides 1, 2, 3, 4, 5 , 6, 7, 8, 9, heen en terug zien via enter / backspace.
30 juni Deze morgen Vorige bijeenkomst: –een concepthierarchie van kernbegrippen in Logic & Language vakgebied (o.b.v. glossary) Vandaag: –Jon:
The relevance of recall and precision in user evaluation Louise T. Su Journal of the American Society of Information Science 1994.
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web n Mark W. Davis and William C.Ogden n AAAI 1997.
E XAMEN SAMENVATTEN 2010 II 1. Hoe luidt de beoordeling van de samenvatting? 2. Hoe ziet de samenvatting eruit?
MET DANK AAN COLLEGA’S IN DEN LANDE ! vee 2012
ONLINE VERBONDEN EN INTELLIGENTE COMPUTERS Semantisch web Tom Schurmans Gunter Fransen Nand Truyen Nele Lieben.
Bronnenonderzoek PWS-seminar V5 13 juli 2014
ERIC Zoeken op onderwerp Universiteitsbibliotheek.
Informatievaardigheden Ecologie-2 (NCP-20503) september/oktober 2012 Corrie van Zeist, Liza Bruggenkamp, Marco van Veller, Wouter Gerritsma en Ans Brouwer.
Informatievaardigheden
Concept presentatie A3. 1. Narrowcasting in past, present, future; 2. Het concept; 3. Checklist; 4. Opstarten van het concept & Casus; 5. Vragen van publiek.
Recordkeeping - in 7 stappen naar een digitaal archief
Informatievaardigheden Corrie van Zeist, Marco van Veller, Ans Brouwer en Wouter Gerritsma September 2009.
Automatische multiclass en multilabel tekstclassificatie bij veel klassen Presentatie onderzoek in kader van afstudeerproject van Maarten Luykx.
Informatievaardigheden Corrie van Zeist en Marco van Veller September 2008.
Informatievaardigheden Corrie van Zeist September 2007.
Kennismanagement & Sociale media
Catalogus van de UvA Zoekresultaten uitbreiden Universiteitsbibliotheek verder = klikken.
Sociological Abstracts Zoekresultaat uitbreiden met meer zoektermen en andere zoekvelden Universiteitsbibliotheek verder = klikken.
LLBA Zoekresultaat uitbreiden met synoniemen Universiteitsbibliotheek verder = klikken.
ERIC Zoekresultaten uitbreiden Verder = klikken. Een zoekresultaat uitbreiden kan op verschillende manieren Gebruik meer zoektermen:  Synoniemen of verwante.
Parametric release Wat is dat?.
Search engines welk instrument voor welke taak eric sieverts Universiteitsbibliotheek Utrecht Instituut voor Media en Informatiemanagement / HvA Eric Sieverts.
Van librije tot digitale bibliotheek: de universiteitsbibliotheek utrecht eric sieverts.
Zoekstrategie VOGIN najaar 2015 Zoekstrategie. Effectief en efficiënt zoeken Zoekstrategie VOGIN najaar 2015.
Eric sieverts Inhoudelijk Toegankelijk Maken najaar 2015 retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen of eigenlijk: "vind"-problemen.
Hoe maak ik een PowerPoint presentatie?
Toekomst voor de catalogus (voor niet-digitaal materiaal) belangrijkste mogelijke rollen van de catalogus: –lokaliseren van known items (“locatie”- en.
Workshop Taxonomie en ontsluiting. 1.Retrieval en Ordening 2.Zoeken en Browsen 3.Alfabetisch en Systematisch 4.Thesaurus en Classificatie 5.Aristoteles.
Social media. Agenda Over ons Facebook Twitter Linkedin Instagram.
Hoe positioneer ik mijn uitgeverij 10 do’s en dont’s Windkracht62 1 WINDKRACHT (0) Ian Muller.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
SEO Kateryna Glushak en Saartje Van Broeckhoven. Wat?  Search Engine Optimization  Zoekmachineoptimalisatie  Techniek om website hoger te laten scoren.
Hoe maak je een werkstuk? Begin op tijd!!. Kies een leuk onderwerp  Denk aan een hobby, sport, beroep, stad of onderwerp uit een van de lesboeken van.
Centraal Examen Nederlands
OSR onderzoek Tevredenheid schoolleiders kwaliteit OSR-opgeleide docenten.
Samenwerking De voordelen van geïntegreerd werken.
Voor bibliotheken. Training AquaBrowser Zoetermeer, 20 mei 2010.
WoordenlijstBeheer Terminologie centraal in de archiefsector
Big Data.
Goochelen met Google Zoeken
Big Data.
LinkedIn Wat moet ik ermee?.
Transcript van de presentatie:

Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- & Informatiemanagement Hogeschool van Amsterdam februari 2007 Toegankelijk zijn of toegankelijk maken methoden van ontsluiting en retrieval (2)

als handmatig ontsluiten (door specialist) te duur wordt –gebruikers het werk laten doen (“social tagging”, “user generated content”) –automatisch classificeren / verrijken –retrieval i.p.v. ontsluiting Eric Sieverts | | | als handmatig ontsluiten te duur is

de (eind)gebruiker aan de macht? Eric Sieverts | | | belangrijkste karakteristieken van WEB 2.0 : “doe het zelf” (de eindgebruiker aan de macht) samenwerking (social software, collaboration) op het terrein van inhoudelijk toegankelijk maken leidt dat tot: –tagging –social bookmarking –folksonomies –.... (d.w.z.: zelf “trefwoorden” toekennen)

de (eind)gebruiker aan de macht? Eric Sieverts | | | bij web-2.0 diensten kan iedereen zijn eigen tags (= trefwoorden) toekennen aan: –webpagina's als bookmarks (del.icio.us, connotea, furl, citeulike, yahoo-myweb,...) om zoekmachine te "tunen" (wink, yoono,...) –foto's en video's (flickr, youtube) –blogposts (allemaal) –nieuws (digg) –....

de (eind)gebruiker aan de macht? Eric Sieverts | | | waarom kan tagging belangrijk worden? –iedereen bepaalt zelf hoe iets te karakteriseren ("people powered") –gebruiker kent eigen jargon het beste –gericht op samenwerking in virtuele gemeenschappen ("collaboration, sharing,...") –visualisatie van gebruikte tags met "tag clouds“ –bijna 30% van internet-gebruikers “doet er intussen aan”

de (eind)gebruiker aan de macht? Eric Sieverts | | | waarom is tagging (nog) niks? –geen enkele standaardisatie en controle, dus alle problemen terug die gecontroleerd vocabulair oploste –nu vooral nog voor "populaire" toepassingen (?) –tag clouds tonen alleen wat de grote massa leuk vindt; is populariteit wel maat voor relevantie of belang?

de (eind)gebruiker aan de macht? Eric Sieverts | | | kan tagging toch interessant worden? –voor publiekstoepassingen is het dat al –voor professionele toepassing misschien: binnen (tijdelijke) samenwerkingsverbanden met zelfde "woordgebruik" waar recall niet zo cruciaal is als informatie-professional supervisie houdt over consistentie van gebruikte terminologie (maar staat dat niet haaks op gedachte achter tagging?) als we tags kunnen “mappen” op thesaurus (?) –en in de bibliotheek?

tags gesorteerd op DDC-ranges 

web 2.0 in de bibliotheek ? Eric Sieverts | | | niet alleen maar voor ontsluiting kan gebruikers bij de organisatie betrekken tags in de catalogus als aanvulling op "echte" ontsluiting? beoordelingen van boeken geo-tagging van materiaal dat daarvoor in aanmerking komt (mashup met Google Earth?)....

formele kenmerken –titel, auteur, uitgever, jaartal, etc. –besteladres, prijs inhoudelijke karakteristieken –trefwoorden, domein-code –“signature”: identificerende termen uit document –samenvatting oordeel (beoordelend, kwaliteit van document binnen bepaalde context) –recensie –kwalificatie in bedrijfsproces automatisch classificeren - soorten ontsluiting moeilijk zonder xml-tags gaat intussen al redelijk experimenten onderweg

automatisch classificeren - stappen in het proces meestal: systeem analyseert trainingsdocumenten systeem wordt getraind door matchen van trainingsdocumenten met “klassen” (of handmatig opstellen van kennisregels) systeem analyseert nieuwe documenten systeem matcht nieuwe documenten met “klassen” systeem moet bijleren bij probleemgevallen Eric Sieverts | | |

automatisch classificeren technieken voor analyse van documenten statistiek van document wordt “vingerafdruk” gemaakt door extractie van meest karakteristieke woorden op basis van relatieve woordfrequenties (tf  idf : term-frequentie x inverse document frequentie; in document vaker voorkomende termen die verder zeldzaam zijn) Eric Sieverts | | |

voorbeeld van het maken van “fingerprints” met Collexis

automatisch classificeren technieken voor analyse van documenten statistiek regels op basis van vaste - handmatig ingestelde - regels bepaalt de computer welke termen karakteristiek zijn voor (bepaalde aspecten van) de inhoud van een document omdat ze in de titel staan omdat ze met hoofdletters zijn geschreven omdat ze in een vastgelegd rijtje woorden voorkomen vanwege XML-tags …... Eric Sieverts | | |

automatisch classificeren technieken voor analyse van documenten statistiek regels taaltechnologie / linguistische analyse op basis van taalregels herkent de computer samengestelde begrippen, wat zelfstandige naamwoorden zijn, enz. vooral ten behoeve van "normalisatie”: – Morfologisch: manager, gemanaged – Compounds: hockeytoernooi, hockeystick – Syntactisch: energiebesparing, besparing van energie – Semantisch: transport, vervoer Eric Sieverts | | |

automatisch classificeren technieken voor analyse van documenten statistiek regels taaltechnologie / linguistische analyse in de praktijk worden meestal combinaties van deze drie basistechnieken toegepast Eric Sieverts | | |

automatisch classificeren - training van systeem Eric Sieverts | | | thesaurus trainingsdocumenten analyse module “vinger- afdrukken” trainings module  Joop van Gent, Irion

automatisch classificeren - training van systeem Eric Sieverts | | | thesaurus trainingsdocumenten analyse module “vinger- afdrukken” trainings module verrijking van thesaurus  Joop van Gent, Irion

automatisch classificeren - matchen trainingsdocument met klasse Eric Sieverts | | | handmatig (per document door “documentalist”) automatisch (op basis van al eerder aan documenten toegekende klassen; het was ooit al eens door iemand ontsloten / ingedeeld)

automatisch classificeren - vastlegging karakteristieken Eric Sieverts | | | karakteristieken voor klassen / thesaurustermen kunnen zijn vastgelegd: in “black-box” (geheel automatisch) in formele “kennis”-regels -automatisch gegenereerd, maar wel handmatig aan te passen -geheel handmatig vastgelegd

automatisch classificeren - classificeren met systeem Eric Sieverts | | | verrijkte thesaurus nieuwe documenten analyse module “vinger- afdrukken” classificatie module verrijkte documenten  Joop van Gent, Irion

automatisch classificeren - matchen van documenten met klassen Eric Sieverts | | | vergelijking van vingerafdruk van (nieuw) document met vingerafdrukken van alle klassen (thesaurustermen) –matching bijvoorbeeld met “vector-model” ingestelde drempelwaarden bepalen vaak –betrouwbaarheid van toekenning denk ook hier aan 80/20-achtige regel –hoeveelheid handmatig te verwerken twijfelgevallen omgekeerd evenredig met mate van betrouwbaarheid

automatisch classificeren - enkele voorwaarden Eric Sieverts | | | uit ervaringen bij Irion (Joop van Gent) zijn nodig: een goede thesaurus/taxonomie, –met niet te veel categorieën (< 5000) en niet te veel lagen (< 4) (gebruik voor specifiekere begrippen full-text retrieval) –zo veel mogelijk “orthogonale” categorieën (geen overlap) –gelaagdheid in balans (klassieke modulatie-eis) een representatieve trainingsset in het juiste formaat –voldoende groot (>5 documenten per klasse) –voldoende distributief (voor elke klasse even veel documenten) –losse xml- of txt- documenten een representatieve testset

automatisch classificeren - enkele grootschalige voorbeelden Eric Sieverts | | | OCLC doet dit met DDC-codes voor classificeren van webpagina’s (in “connexion”) NorthernLicht deed dit met webpagina’s op basis van een classificatie met onderwerpscategorieën + nog wat soorten formele categorieën, om daarmee gewone zoekresultaten in categorieën uit te splitsen Thunderstone genereert op deze wijze een webgids

alternatieven voor automatisch classificeren Eric Sieverts | | | als je thesaurus zo groot is dat trainen te veel werk ìs: –systeem eenvoudiger methode laten toepassen om potentiële termen te genereren als ondersteuning voor menselijke indexeerder als je (nog) geen classificatie of thesaurus hebt: –automatische clustering van hele digitale documentcollectie –(ook on-the-fly voor resultaat van webmetasearch )

retrieval en ontsluiting kunnen we niet gewoon de digitale tekst doorzoeken? (het Google-paradigma) maar: free-text zoeken impliceert allerlei zoekproblemen wat zijn die problemen? welke retrieval- en taal-technologische oplossingen zijn daar al voor? Eric Sieverts | | |

waarin uiten zoekproblemen zich? (in variabele mate in uiteenlopende soorten systemen - bibliografische databases, full-text bestanden, het web, … ) –onvoldoende recall  met zoekvraag mis je te veel relevante informatie –onvoldoende precisie  zoekvraag levert (te) veel niet-relevante informatie Eric Sieverts | | |

oorzaken voor lage recall (recall-killers) inherent aan free-text zoeken in documenten: variatie in gebruikte woorden (spelling, woordvorm, taal) in tekst staan synoniemen, impliciete aanduidingen, … variëteit aan woorden voor generieke begrippen term-armoede van documenten (catalogus) zoeker "doet het fout": verkeerde zoekterm (spelling, betekenis) te weinig varianten met OR gecombineerd te veel zoek-elementen met AND gecombineerd Eric Sieverts | | |

oorzaken voor lage precisie (precisie-killers) inherent aan free-text zoeken in documenten : verkeerde relatie tussen ge-AND-e termen niet eenduidige betekenis (homoniemen, acroniemen) term-rijkdom van full-text documenten (laag term-gewicht) zoeker "doet het fout" : verkeerde zoekterm (betekenis, te algemeen) te weinig concepten met AND gecombineerd Eric Sieverts | | |

klassieke oplossing redenen waarom we verwachten dat gebruik van taxonomie of thesaurus een oplossing biedt –formaliseert betekenissen –uniformeert term-rijkdom (dus term-gewicht) –legt semantische relaties tussen onderwerpen/termen –kan syntactisch verband leggen tussen facetten van onderwerp (precoördinatie) Eric Sieverts | | |

nadelen van klassieke oplossing gebrek aan flexibiliteit (schrik van de gebruiker/vakspecialist, maar niet meer bij folksonomy / tagging) je moet (kunstmatige) informatietaal gebruiken (schrik van de ergonoom, maar daar zijn wel oplossingen voor) duur omdat mensen termen moeten toekennen (schrik van de manager, en ook automatische toekenning vergt nog veel handwerk) Eric Sieverts | | |

(taal)technologische alternatieven best-match zoeken met relevantie-ordening truncatie, woordstemming, fuzzy search semantische kennis toevoegen zoekresultaat in "domeinen/contexten” laten clusteren genereren van suggesties voor aanvullende zoektermen terugkoppeling van zoekersoordeel Eric Sieverts | | |

relevance ranking factoren Eric Sieverts | | | 1.meer van de gevraagde termen in een document 2.gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, ….) 3.gevraagde termen komen in document herhaald voor 4.gevraagde termen staan in document dicht bij elkaar 5.termen in document staan in zelfde volgorde als in vraag 6.zeldzame termen krijgen zwaarder gewicht dan algemene 7.hoeveelheid hyperlinks die naar document verwijst 8.hoe vaak een document wordt "bezocht" google bewijst dat dat op het web goed werkt, maar ook op een intranet?

relevance ranking factoren Eric Sieverts | | | 1.meer termen 2.termen in titel/kop/begin 3.termen herhaald 4.termen dicht bij elkaar 5.termen in volgorde 6.zeldzame termen zwaarder 7.hyperlinks naar document 8.bezoek aan document  meer concepten ge-AND  hoger term-gewicht  juiste verband  belang specifieke term  (kwaliteit) [alleen als er links zijn]  (kwaliteit)

relevance ranking factoren Eric Sieverts | | | 1.meer van de gevraagde termen in een document 2.gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, ….) 3.gevraagde termen komen in document herhaald voor 4.gevraagde termen staan in document dicht bij elkaar 5.termen in document staan in zelfde volgorde als in vraag 6.zeldzame termen krijgen zwaarder gewicht dan algemene 7.hoeveelheid hyperlinks die naar document verwijst 8.hoe vaak een document wordt "bezocht" allemaal gericht op hogere relevantie voor "de eerste tien", dus op precisie

trunkatie / stemming / fuzzy zoeken trunceren computer   computeronderwijs stemming computer  computing, computation, computers communism  community, communication ?? sieverts  sievert?? fuzzy duivendak  duijvendak serajevo  sarajevo chebychev  chebyshev, chebyschef, kok  kop, kak,... ?? Eric Sieverts | | |

trunkatie / stemming / fuzzy zoeken Eric Sieverts | | | trunceren computer   computeronderwijs stemming computer  computing, computation, computers communism  community, communication ?? sieverts  sievert?? fuzzy duivendak  duijvendak serajevo  sarajevo chebychev  chebyshev, chebyschef, kok  kop, kak,... ?? compenseert variatie in woordvorm & spelling  betere recall maar pas op voor ongewenste effecten !!

semantische kennis toevoegen in semantisch netwerk worden verbanden gelegd tussen inhoudelijk verwante woorden (in één of meer talen) door omgeving van woord in het netwerk kan betekenis worden onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query te expanderen (woorden binnen bepaalde "semantische afstand" van zoekwoord) Eric Sieverts | | | bijvoorbeeld: irion-21

visualisatie van “wordnet”

semantische kennis Eric Sieverts | | | in semantisch netwerk worden verbanden gelegd tussen inhoudelijk verwante woorden (in één of meer talen) door omgeving van woord in het netwerk kan betekenis worden onderscheiden (in document en in query) omgeving van woord in het netwerk kan termen leveren om query te expanderen verbeteren van precisie verbeteren van recall maar semantisch netwerk voor specialistisch domein moet je zelf nog bouwen !

automatisch clusteren/classificeren op grond van kennisregels (en bestaande “taxonomie”) in feite toepassing automatische classificatie, waarbij klassen als verdelingscriterium dienen op grond van statistiek of patronen –Ask, Clusty, Quintura, Collarity, …. –Autonomy Eric Sieverts | | |

automatisch clusteren/classificeren Eric Sieverts | | | op grond van kennisregels (en bestaande “taxonomie”) in feite toepassing automatische classificatie, waarbij klassen als verdelingscriterium dienen op grond van statistiek of patronen –Ask, Clusty, Quintura, Collarity, …. –Autonomy kiezen van juiste betekenis of context  betere precisie werkt niet gegarandeerd altijd goed

termen extraheren computer haalt karakteristieke (andere) woorden/begrippen uit eerste N zoekresultaten (statistiek - tf  idf) –gebruiker kiest daaruit termen om de zoekactie in te perken of uit te breiden bijv.: Scirus database van Elsevier Aquabrowser (o.a. bij Bibliotheek.nl) Eric Sieverts | | |

OR

wolk van termen in Aquabrowser: die termen kunnen uit statistische analyse, woordenlijst, thesaurus, semantisch netwerk o.i.d. komen

termen extraheren Eric Sieverts | | | computer haalt karakteristieke (andere) woorden/begrippen uit eerste N zoekresultaten (statistiek - tf  idf) –gebruiker kiest daaruit termen om de zoekactie in te perken of uit te breiden bijv.: Scirus database van Elsevier Aquabrowser (o.a. bij Bibliotheek.nl) inperken op juiste betekenis of context  verbetert precisie uitbreiden met meer “synoniemen”  verbetert recall

terugkoppeling gebruiker klikt bij relevante hit op “more like this” –computer zoekt naar daarop lijkende documenten, op grond van in document aanwezige termen of patronen (bijvoorbeeld linking-patroon bij Google) bijv.:Scirus, Google Autonomy Eric Sieverts | | |

terugkoppeling gebruiker markeert relevante hits systeem houdt bij welke resultaten door gebruiker worden bekeken –zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht  bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy Google (sinds kort) Eric Sieverts | | |