Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdVincent Bos Laatst gewijzigd meer dan 10 jaar geleden
1
to retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts
2
wat er gebeurt in retrieval-land nieuwe technieken klassieke technieken wat wel en niet wordt toegepast de problematiek van grote bibliotheken oplossingen? to retrieve or not to retrieve, that's the question Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002
3
wat er gebeurt in retrieval-land Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 dankzij het web is information retrieval in beweging veel van de nieuwe ontwikkelingen zijn practische toepassing van oude ideeën vooral gericht op niet-gestructureerde informatie, zoals web-pagina’s en tekstdocumenten meer gericht op betere precisie dan op betere recall, omdat Google uit 2,5 miljard moet kunnen selecteren deel van “onze” gebruikers hecht ook wel degelijk aan recall
4
toegepaste technieken betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening hoe meer van gevraagde termen hoe beter (op web: alle termen) belang van termen in document (term-positie - in de titel, vooraan, in koppen / relatieve termfrequentie - tf idf) gewenste term-relatie (term-afstand en -volgorde) probabilistische termgewichten (zeldzame termen belangrijker) populariteit=kwaliteit van document (aantal hyperlink verwijzingen, gebruiks-/bezoek-frequentie)
6
toegepaste technieken betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening hoe meer van gevraagde termen hoe beter (op web: alle termen) belang van termen in document (term-positie - in titel, vooraan, in koppen - / relatieve termfrequentie - tf idf) gewenste term-relatie (term-afstand en -volgorde) probabilistische termgewichten (zeldzame termen belangrijker) populariteit=kwaliteit van document (aantal hyperlink verwijzingen, gebruiks-/bezoek-frequentie) wel goed bij Google, maar misschien niet zo goed toepasbaar voor wetenschappelijke artikelen ?
7
toegepaste technieken betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening statistiek / kennisregels voor preciseren en/of disambigueren al verkregen zoekresultaat clusteren in betekenissen / contexten uit al verkregen zoekresultaat afleiden van suggesties voor termen om te preciseren / in te perken
8
custom search folders
13
toegepaste technieken betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening statistiek / kennisregels voor preciseren en/of disambigueren semantische kennis (koppeling aan semantisch netwerk) voor onderscheiden van betekenissen (disambigueren) woorden in omgeving van term in document matchen met nabije termen in semantisch netwerk
14
toegepaste technieken betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening statistiek / kennisregels voor preciseren en/of disambigueren semantische kennis (koppeling aan semantisch netwerk) voor onderscheiden van betekenissen (disambigueren) relevance feedback: verder zoeken op basis van als relevant aangemerkte resultaten (nu of later) verder zoeken op woorden of “patronen” uit aangevinkte resultaten uit voorgaande vraag (ook : query-by-example / more-like-this)
15
toegepaste technieken betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening statistiek / kennisregels voor preciseren en/of disambigueren semantische kennis (koppeling aan semantisch netwerk) voor onderscheiden van betekenissen (disambigueren) relevance feedback: verder zoeken op basis van als relevant aangemerkte resultaten relevance feedback: aanpassen van term-probabilistiek woorden uit relevante documenten krijgen hoger gewicht bij berekening van relevantie-volgordes
16
toegepaste technieken betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening statistiek / kennisregels voor preciseren en/of disambigueren semantische kennis (koppeling aan semantisch netwerk) voor onderscheiden van betekenissen (disambigueren) relevance feedback: verder zoeken op basis van als relevant aangemerkte resultaten relevance feedback: aanpassen van term-probabilistiek opgebouwde gebruikersprofielen relevance feedback, monitoren zoekgedrag, ingebracht interesseprofiel but how about privacy ?
17
toegepaste technieken betere recall Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 (morfologische) stemming van woorden in document en in query: computer, computers, computing, computation, … comput community, communism, communication, ………. commun ??
18
toegepaste technieken betere recall Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 (morfologische) stemming van woorden fuzzy zoeken morfologie morphologie duivendak duijvendak, duitenzak,... kok kop, kak, …
19
toegepaste technieken betere recall Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 (morfologische) stemming van woorden fuzzy zoeken zoekvraag uitbreiden met synoniemen / verwante termen ontleend aan semantisch netwerk (of aan thesaurus, of aan ontologie?)
20
visualisatie van “wordnet”
22
toegepaste technieken betere recall Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 (morfologische) stemming van woorden fuzzy zoeken zoekvraag uitbreiden met synoniemen / verwante termen ontleend aan vocabulair zoekvraag uitbreiden met synoniemen / verwante termen afgeleid uit documenten in zoekresultaat statistische analyse van kenmerkende termen uit documenten in eerder zoekresultaat eventueel ook via relevance feedback - alleen uit als relevant gemarkeerde documenten
26
toegepaste technieken betere recall Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 (morfologische) stemming van woorden fuzzy zoeken zoekvraag uitbreiden met synoniemen / verwante termen ontleend aan vocabulair zoekvraag uitbreiden met synoniemen / verwante termen afgeleid uit documenten in zoekresultaat suggesties voor (meer) correcte spelling van zoekterm
28
klassieke technieken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 gebruik maken van structuur van documenten klassiek: velden, nieuw: xml-elementen, nieuw: kenmerkende paragrafen uit full-text document (doelstelling, methode, conclusies) gebruik van classificaties en thesauri o.a. voor recall-verbetering door o.a. generiek zoeken
29
wat wel en niet wordt toegepast Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 waar wat bibliografische databases full-text artikelen het web nieuwevrijwel nietbeperktvrij veel klassiekevaak welbeperktvrijwel niet
30
de problematiek van grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 voor gebruikers te veel afzonderlijke bronnen te doorzoeken in Utrecht bijna 200 databases
32
de problematiek van grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 voor gebruikers te veel afzonderlijke bronnen te doorzoeken in Utrecht bijna 200 databases in Utrecht bijna 6000 digitale tijdschriften
34
de problematiek van grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 voor gebruikers te veel afzonderlijke bronnen te doorzoeken in Utrecht bijna 200 databases in Utrecht bijna 6000 digitale tijdschriften bijna alle bronnen met eigen zoekinterface en functionaliteit
35
de problematiek van grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 voor gebruikers te veel afzonderlijke bronnen te doorzoeken in Utrecht bijna 200 databases in Utrecht bijna 6000 digitale tijdschriften bijna alle bronnen met eigen zoekinterface en functionaliteit veel interfaces met uitgebreide / complexe functionaliteit (is dat wel allemaal ergonomisch verantwoord?)
37
huidige oplossingen voor grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 geïntegreerde toegang via uniform eenvoudig interface (one-stop-shopping) centrale index -eigen keuze geavanceerde zoek- machine / retrieval software -vaak nog probleem met indexeren van extern opgeslagen data -problemen met niet-uniforme gecontroleerde ontsluiting meta-search / portal -extern en lokaal beschikbare retrieval systemen bevraagd met enkele query (via Z39.50, http,...) -geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies -problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting
38
indexer internet document text files central index search integrated system: local central index solution indexing- rules for targets full-text links document text files
39
muscat / verity / autonomy /... internet document text files central index search integrated system: local central index solution indexing- rules for targets full-text links document text files
41
huidige oplossingen voor grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 geïntegreerde toegang via uniform eenvoudig interface centrale index -eigen keuze geavanceerde zoek- machine / retrieval software -vaak nog probleem met indexeren van extern opgeslagen data -problemen met niet-uniforme gecontroleerde ontsluiting meta-search / portal -extern en lokaal beschikbare retrieval systemen bevraagd met enkele query (via Z39.50, http,...) -geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies -problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting
42
internet search integrated system: metasearch / portal solution index files search query-generator / result-collector index search index search index Z39.50 internal api httphttp xml Z39.50http configuration data for targets search files
43
internet search integrated system: metasearch / portal solution index files search metalib / iPort / zPortal / muse /... index search index search index Z39.50 internal api httphttp xml Z39.50http configuration data for targets search files
45
huidige oplossingen voor grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 geïntegreerde toegang via uniform eenvoudig interface centrale index -eigen keuze geavanceerde zoek- machine / retrieval software -vaak nog probleem met indexeren van extern opgeslagen data -problemen met niet-uniforme gecontroleerde ontsluiting meta-search / portal -extern en lokaal beschikbare retrieval systemen bevraagd met enkele query (via Z39.50, http,...) -geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies -problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting
46
oplossingen voor grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 geïntegreerde toegang (one-stop-shopping principe) via uniform eenvoudig interface (als "Google") met geavanceerde retrieval-techniek met behoud van gebruik van gecontroleerde ontsluiting wel al soms wel nauwelijks vrijwel niet
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.