De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management Hogeschool van Amsterdam DARE zomerschool - juni 2005 - Tilburg.

Verwante presentaties


Presentatie over: "Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management Hogeschool van Amsterdam DARE zomerschool - juni 2005 - Tilburg."— Transcript van de presentatie:

1 Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management Hogeschool van Amsterdam DARE zomerschool - juni 2005 - Tilburg zoekmachines in soorten en maten

2 zoekmachines webzoekers (zoals Google) –haast geen gebruik van structuur van "documenten" (die is er ook vrijwel nooit) zoekers voor gestructureerde informatie –zoeksystemen voor metadata-content (databases zoals van SilverPlatter, tot aan de repository-zoekmachine OAIster) tussenvorm: Google Scholar –content niet standaard gestructureerd –wel poging tot herkenning van auteursnamen, tijdschrifttitels, publicatiejaar, literatuurreferenties Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

3 webzoekmachines webzoekmachines indexeren alle tekst van webpagina's ze vinden "gewoon" waar je om vraagt als je niet vindt wat je zoekt had je dus maar beter moeten vragen? –dat geldt ten dele wel, want ze helpen ook nog door slimme relevance ranking-technieken –maar voor goed zoeken zou je ook de "rol" of "context" van een term willen aangeven is "green" een auteur, een kleur of een wiskundige functie? –document- of record-structuur kan daarin een grote rol spelen Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

4 webzoekmachines webzoekmachines zoeken gewoon in alle tekst vaste structuur zit daar meestal niet in standaard wordt die dus ook vrijwel niet gebruikt hoewel..... er is vaak toch wel iets mogelijk: –Google, Yahoo, Alltheweb, Altavista,... bieden in advanced search nog wat specifiekere zoekmogelijkheden –Google, Yahoo, Alltheweb, Altavista,... bieden in simple search al veldzoek-syntax Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

5

6 veldzoeksyntax bij Google en andere gebruik van "veld"-prefixen bij simple search GoogleYahooAltaVista titelwoordenallintitle:intitle:title: tekstwoordenallintext: (deel van) URLallinurl:inurl:url: site:domain:domain: “citatie”-zoekenlink:link:link: file-formatfiletype: Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

7 wel één buitenbeentje: Gigablast ondanks zijn naam, met 2 Gi niet zo groot als Google (8 Gi), MSN (5 Gi) of Yahoo (4 Gi) niet zo technisch betrouwbaar als.... maar wel groot aantal metadata zoekvelden en juist andere dan keyword(s) en description!  alleen jammer dat er zoveel webpagina's zonder dat soort metadata zijn  alleen jammer dat ze dan meestal niet op standaard wijze gebruikt worden Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

8 metadata zoeken bij Gigablast city:amsterdam country:belgium state:alabama author:eric subject:soccer language:french audience:youth dc.creator:eric dc.language:dutch enz. Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

9 er zijn ook een heleboel op vakgebied of domein gespecialiseerde zoekmachines (CompletePlanet geeft overzicht van > 70.000) –bieden soms ook wat meer zoekmogelijkheden –interessant hybride voorbeeld is (van Elsevier): wetenschappelijke webpagina's (ongestructureerd) 160 miljoen websites artikelen uit ScienceDirect (redelijk gestructureerd) 1800 tijdschriften / 5,6 miljoen full-text artikelen inhoud van bibliografische database (gestructureerd) 15 miljoen pubmed-records inhoud uit repositories e.d. arXiv, CogPrints, RePEc, MIT,.... gespecialiseerde zoekmachines Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

10

11 gestructureerde zoeksystemen systemen als SilverPlatter bieden mogelijkheden te zoeken op alle (metadata-)velden die databases bieden zoekmachines voor repositories zouden dat ook kunnen, maar doen dat soms nog maar zeer beperkt Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

12

13 niet veel keuze in velden, ondanks gebruik DC standaard

14 wat is ? heel iets anders dan de gewone Google: multidisciplinaire database met wetenschappelijke artikelen van zowel "open access" als commerciële uitgevers, alsook uit repositories die voor een deel full-text doorzoekbaar zijn via Googliaanse zoekmethodiek Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

15

16 leverancierhoeveelheid *aard OCLCca. 25.000.000catalogusrecords Pubmed?? 2.110.000bibliografisch Harvard667.000bibliografisch Ingenta1.040.000bibliografisch / full-text 23 grootste uitgevers3.300.000full-text arXiv preprints278.000full-text OAI-repositories** ??full-text wat zit er in ? * schatting: Jeroen Bosman (UB Utrecht) 12/2004 ** veel pas sinds 5/2005 Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl onder andere:

17 wat zit er niet in ? o.a.: tijdschriftartikelen van Elsevier Science (tenzij abstract toevallig uit andere bron gekomen is) tijdschriftartikelen van JStor (idem) tijdschriftartikelen van Muse (idem) een variabel percentage artikelen van de uitgevers die er (deels) wel inzitten wetenschappelijke "gewone" webpagina's...... Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

18 1. globale schatting (Bosman, december 2004) echt full-text: van uitgevers10 miljoenca. van universitaire sites 5 miljoenca. bibliografisch:uit databases 5 miljoenca. uit OCLC Worldcat25 miljoen?? “alleen citaties”25 miljoen?? totaal 70 miljoen? hiertussen onbekende overlap, doordat zelfde artikel uit meer bronnen kan komen 2. schatting door vergelijking van zoekresultaten met twee multidisciplinaire bestanden met bekende grootte: totaal60  10 miljoen (bij 1 ste update eind april 2005 nog ca. 40% gegroeid) hoeveel zit er in ? Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

19 zoekvelden in velden in zoekvraag te verwerken titelwoordenallintitle: natural language retrieval auteursauthor:sieverts url'sallinurl:dspace.mit.edu file-formatfiletype:pdf en/of in advanced zoekscherm >> Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

20 titelwoorden auteurs tijdschrifttitel publicatiejaar

21 citatie-zoeken literatuurreferenties ("citaties") vormen interessant bindmiddel tussen afzonderlijke publicaties –literatuurreferenties als zoekingang maken het mogelijk inhoudelijk gerelateerde publicaties te vinden –citatienetwerken brengen op autonome wijze structuur aan in het informatielandschap –citatiescores kunnen als een - overigens niet altijd heel betrouwbare - maat voor kwaliteit gebruikt worden veel zoeksystemen ondersteunen citatiezoeken Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

22 citatie-zoeken bij gewone webpagina's nemen hyperlinks de rol van "citaties" over: –alle grote zoekmachines ondersteunen "link"-zoeken welke pagina's bevatten link naar pagina met bekend URL? wetenschappelijke publicaties bevatten "echte" literatuurreferenties; –"gratis" citatie-zoeken onder meer bij: Google Scholar, CiteSeer, arXiv, Repec,... –"betaald" citatie-zoeken bij: Web of Science van ISI (aartsvader van het citatie-zoeken), Scopus van Elsevier Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

23 citatie-zoeken twee manieren van zoeken: elk in database gevonden artikel bevat directe link naar lijst van citerende artikelen –voordeel: makkelijk te zoeken –nadeel: je kunt alleen citaties vinden voor geciteerde artikelen die zelf in de database zitten er is een aparte index op een "cited reference"-veld (niet bij alle citatiezoekers aanwezig) –nadeel: vaak ingewikkeld zoeken –voordeel: je kunt ook citaties vinden voor geciteerde artikelen die zelf niet in de database zitten (als de citerende er maar in zitten) Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

24 als citatie-index Google Scholar is ook een citatie index gebruikt aantal citaties als één van zijn ranking-parameters (zoals gewone Google dat doet met hyperlinks) linkt ook naar die citerende artikelen (beetje eenvoudiger dan ISI's citatie-indexen) Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

25

26

27 citatie-zoeken in CiteSeer

28

29 citaties in arXiv.org

30 arXiv.org verwijst ook naar citebase

31 citaties in repec / econpapers

32

33 er was ook een link: Access statistics for this paper

34 frequent probleem bij citaties auteurs verwijzen vaak fout of inconsistent in hun literatuurlijsten citatiezoeksystemen herkennen vaak slecht dat resulterende varianten op zelfde artikel betrekking hebben (ook al lang bestaande commerciële producten) Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl

35

36 allemaal varianten op dezelfde

37 vergelijking van de citaties voor individuele artikelen 2 natuurkunde-artikelen2 medische artikelen WoS 35 GS 16 WoS 54 GS 26 Google Scholar vs. Web of Science Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl WoS 44 GS 23 4 2 WoS 33 GS 28 7

38 vergelijking van de citaties voor individuele artikelen 2 letteren-artikelen3 sociaal-wetenschappelijke artikelen WoS 14 GS 22 WoS 16 GS 15 4 Google Scholar vs. Web of Science Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl WoS 46 GS 15 1 5 6 WoS 31 GS 33 18 GS 29 WoS 13

39 vakgebiedGoogle Scholar : WoSvariatie humaniora1,9 x0 -- 5,7 x sociale wetensch 0,7 x0,3 -- 1,6 x economie1,3 x0,3 -- 3,0 x biomedisch0,7 x0,7 -- 0,9 x natuurkunde0,6 x0 -- 2,0 x Google Scholar vs. Web of Science Eric Sieverts | e.sieverts@library.uu.nl | http://www.library.uu.nl/medew/it/eric | e.g.sieverts@hva.nl aantal gevonden "citaties" van Scholar, vergeleken met Web of Science (WoS) op basis van ca. 50 random artikelen


Download ppt "Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management Hogeschool van Amsterdam DARE zomerschool - juni 2005 - Tilburg."

Verwante presentaties


Ads door Google