De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts.

Verwante presentaties


Presentatie over: "To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts."— Transcript van de presentatie:

1 to retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts

2 wat er gebeurt in retrieval-land nieuwe technieken klassieke technieken wat wel en niet wordt toegepast de problematiek van grote bibliotheken oplossingen? to retrieve or not to retrieve, that's the question Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002

3 wat er gebeurt in retrieval-land Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 dankzij het web is information retrieval in beweging veel van de nieuwe ontwikkelingen zijn practische toepassing van oude ideeën vooral gericht op niet-gestructureerde informatie, zoals web-pagina’s en tekstdocumenten meer gericht op betere precisie dan op betere recall, omdat Google uit 2,5 miljard moet kunnen selecteren deel van “onze” gebruikers hecht ook wel degelijk aan recall

4 toegepaste technieken  betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening hoe meer van gevraagde termen hoe beter (op web: alle termen) belang van termen in document (term-positie - in de titel, vooraan, in koppen / relatieve termfrequentie - tf  idf) gewenste term-relatie (term-afstand en -volgorde) probabilistische termgewichten (zeldzame termen belangrijker) populariteit=kwaliteit van document (aantal hyperlink verwijzingen, gebruiks-/bezoek-frequentie)

5

6 toegepaste technieken  betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening hoe meer van gevraagde termen hoe beter (op web: alle termen) belang van termen in document (term-positie - in titel, vooraan, in koppen - / relatieve termfrequentie - tf  idf) gewenste term-relatie (term-afstand en -volgorde) probabilistische termgewichten (zeldzame termen belangrijker) populariteit=kwaliteit van document (aantal hyperlink verwijzingen, gebruiks-/bezoek-frequentie) wel goed bij Google, maar misschien niet zo goed toepasbaar voor wetenschappelijke artikelen ?

7 toegepaste technieken  betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening statistiek / kennisregels voor preciseren en/of disambigueren al verkregen zoekresultaat clusteren in betekenissen / contexten uit al verkregen zoekresultaat afleiden van suggesties voor termen om te preciseren / in te perken

8 custom search folders

9

10

11

12

13 toegepaste technieken  betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening statistiek / kennisregels voor preciseren en/of disambigueren semantische kennis (koppeling aan semantisch netwerk) voor onderscheiden van betekenissen (disambigueren) woorden in omgeving van term in document matchen met nabije termen in semantisch netwerk

14 toegepaste technieken  betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening statistiek / kennisregels voor preciseren en/of disambigueren semantische kennis (koppeling aan semantisch netwerk) voor onderscheiden van betekenissen (disambigueren) relevance feedback: verder zoeken op basis van als relevant aangemerkte resultaten (nu of later) verder zoeken op woorden of “patronen” uit aangevinkte resultaten uit voorgaande vraag (ook : query-by-example / more-like-this)

15 toegepaste technieken  betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening statistiek / kennisregels voor preciseren en/of disambigueren semantische kennis (koppeling aan semantisch netwerk) voor onderscheiden van betekenissen (disambigueren) relevance feedback: verder zoeken op basis van als relevant aangemerkte resultaten relevance feedback: aanpassen van term-probabilistiek woorden uit relevante documenten krijgen hoger gewicht bij berekening van relevantie-volgordes

16 toegepaste technieken  betere precisie Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 probabilistische of andere techniek voor relevantie-ordening statistiek / kennisregels voor preciseren en/of disambigueren semantische kennis (koppeling aan semantisch netwerk) voor onderscheiden van betekenissen (disambigueren) relevance feedback: verder zoeken op basis van als relevant aangemerkte resultaten relevance feedback: aanpassen van term-probabilistiek opgebouwde gebruikersprofielen relevance feedback, monitoren zoekgedrag, ingebracht interesseprofiel but how about privacy ?

17 toegepaste technieken  betere recall Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 (morfologische) stemming van woorden in document en in query: computer, computers, computing, computation, …  comput community, communism, communication, ……….  commun ??

18 toegepaste technieken  betere recall Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 (morfologische) stemming van woorden fuzzy zoeken morfologie  morphologie duivendak  duijvendak, duitenzak,... kok  kop, kak, …

19 toegepaste technieken  betere recall Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 (morfologische) stemming van woorden fuzzy zoeken zoekvraag uitbreiden met synoniemen / verwante termen ontleend aan semantisch netwerk (of aan thesaurus, of aan ontologie?)

20 visualisatie van “wordnet”

21

22 toegepaste technieken  betere recall Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 (morfologische) stemming van woorden fuzzy zoeken zoekvraag uitbreiden met synoniemen / verwante termen ontleend aan vocabulair zoekvraag uitbreiden met synoniemen / verwante termen afgeleid uit documenten in zoekresultaat statistische analyse van kenmerkende termen uit documenten in eerder zoekresultaat eventueel ook via relevance feedback - alleen uit als relevant gemarkeerde documenten

23

24

25

26 toegepaste technieken  betere recall Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 (morfologische) stemming van woorden fuzzy zoeken zoekvraag uitbreiden met synoniemen / verwante termen ontleend aan vocabulair zoekvraag uitbreiden met synoniemen / verwante termen afgeleid uit documenten in zoekresultaat suggesties voor (meer) correcte spelling van zoekterm

27

28 klassieke technieken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 gebruik maken van structuur van documenten klassiek: velden, nieuw: xml-elementen, nieuw: kenmerkende paragrafen uit full-text document (doelstelling, methode, conclusies) gebruik van classificaties en thesauri o.a. voor recall-verbetering door o.a. generiek zoeken

29 wat wel en niet wordt toegepast Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 waar wat bibliografische databases full-text artikelen het web nieuwevrijwel nietbeperktvrij veel klassiekevaak welbeperktvrijwel niet

30 de problematiek van grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 voor gebruikers te veel afzonderlijke bronnen te doorzoeken in Utrecht bijna 200 databases

31

32 de problematiek van grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 voor gebruikers te veel afzonderlijke bronnen te doorzoeken in Utrecht bijna 200 databases in Utrecht bijna 6000 digitale tijdschriften

33

34 de problematiek van grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 voor gebruikers te veel afzonderlijke bronnen te doorzoeken in Utrecht bijna 200 databases in Utrecht bijna 6000 digitale tijdschriften bijna alle bronnen met eigen zoekinterface en functionaliteit

35 de problematiek van grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 voor gebruikers te veel afzonderlijke bronnen te doorzoeken in Utrecht bijna 200 databases in Utrecht bijna 6000 digitale tijdschriften bijna alle bronnen met eigen zoekinterface en functionaliteit veel interfaces met uitgebreide / complexe functionaliteit (is dat wel allemaal ergonomisch verantwoord?)

36

37 huidige oplossingen voor grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 geïntegreerde toegang via uniform eenvoudig interface (one-stop-shopping) centrale index -eigen keuze geavanceerde zoek- machine / retrieval software -vaak nog probleem met indexeren van extern opgeslagen data -problemen met niet-uniforme gecontroleerde ontsluiting meta-search / portal -extern en lokaal beschikbare retrieval systemen bevraagd met enkele query (via Z39.50, http,...) -geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies -problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

38 indexer internet document text files central index search integrated system: local central index solution indexing- rules for targets full-text links document text files

39 muscat / verity / autonomy /... internet document text files central index search integrated system: local central index solution indexing- rules for targets full-text links document text files

40

41 huidige oplossingen voor grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 geïntegreerde toegang via uniform eenvoudig interface centrale index -eigen keuze geavanceerde zoek- machine / retrieval software -vaak nog probleem met indexeren van extern opgeslagen data -problemen met niet-uniforme gecontroleerde ontsluiting meta-search / portal -extern en lokaal beschikbare retrieval systemen bevraagd met enkele query (via Z39.50, http,...) -geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies -problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

42 internet search integrated system: metasearch / portal solution index files search query-generator / result-collector index search index search index Z39.50 internal api httphttp xml Z39.50http configuration data for targets search files

43 internet search integrated system: metasearch / portal solution index files search metalib / iPort / zPortal / muse /... index search index search index Z39.50 internal api httphttp xml Z39.50http configuration data for targets search files

44

45 huidige oplossingen voor grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 geïntegreerde toegang via uniform eenvoudig interface centrale index -eigen keuze geavanceerde zoek- machine / retrieval software -vaak nog probleem met indexeren van extern opgeslagen data -problemen met niet-uniforme gecontroleerde ontsluiting meta-search / portal -extern en lokaal beschikbare retrieval systemen bevraagd met enkele query (via Z39.50, http,...) -geen geavanceerde retrieval; beperkt tot grootste gemene deler van klassieke booleaanse functies -problemen met niet-uniformiteit van zoekvelden en gecontroleerde ontsluiting

46 oplossingen voor grote bibliotheken Eric Sieverts - Universiteitsbibliotheek Utrecht / Hogeschool van Amsterdam | Workshop zoeken & vinden | 15 oktober 2002 geïntegreerde toegang (one-stop-shopping principe) via uniform eenvoudig interface (als "Google") met geavanceerde retrieval-techniek met behoud van gebruik van gecontroleerde ontsluiting wel al soms wel nauwelijks vrijwel niet


Download ppt "To retrieve or not to retrieve, that's the question retrieval van wetenschappelijke informatie eric sieverts."

Verwante presentaties


Ads door Google