Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool van Amsterdam) Google Scholar de googlificatie van de wetenschap ?
zoekmachines zijn er al lang lycos in 1994 de eerste "echte", met bijna 1,5 miljoen pagina's altavista in 1996 de nieuwste grootste, met ruim 30 miljoen pagina's maar geen van alle heeft ons gedrag én zelfs onze taal zo beïnvloed als
wat maakte anders ? zijn "kale" interface zijn goede zoekresultaten maar in feite geeft elke zoekmachine "correcte" resultaten (je vindt/krijgt altijd wat je vraagt) –wel andere, betere relevantie-ordening –grote dekking (nu 8 miljard) garandeert vaker bevredigend resultaat –goed voor simpele vragen van de grote massa zijn PR en timing –als MSN meldt nu 5 miljard pagina's te doorzoeken, meldt Google 3 dagen later: 4 8 miljard –als Elsevier Scopus definitief op de markt brengt, komt Google binnen 2 weken met Google Scholar Eric Sieverts | | |
wat is Google Scholar ? heel iets anders dan de gewone Google: multidisciplinaire database met wetenschappelijke artikelen van zowel "open access" als commerciële uitgevers die voor een deel full-text doorzoekbaar zijn via Googliaanse zoekmethodiek Eric Sieverts | | |
leverancierhoeveelheidaard OCLCca catalogusrecords Pubmed bibliografisch Harvard bibliografisch Ingenta bibliografisch / full-text arXiv preprints full-text 23 grootste uitgevers full-text wat zit er in Google Scholar ? schattingen door Jeroen Bosman (UB Utrecht) - december 2004 Eric Sieverts | | | onder andere:
wat zit er niet in Google Scholar ? o.a.: tijdschriftartikelen van Elsevier Science (tenzij abstract toevallig uit andere bron gekomen is) tijdschriftartikelen van JStor (idem) tijdschriftartikelen van Muse (idem) een variabel percentage artikelen van de uitgevers die er (deels) wel inzitten wetenschappelijke gewone webpagina's Eric Sieverts | | |
globale schatting echt full-text: van uitgevers10 miljoenca. van universitaire sites 5 miljoenca. alleen bibliografisch: uit databases 5 miljoenca. uit OCLC Worldcat25 miljoen?? “alleen citaties”25 miljoen?? totaal70 miljoen? *hiertussen onbekende hoeveelheid overlap, doordat zelfde artikel uit meer bronnen kan komen hoeveel zit er in Google Scholar ? Eric Sieverts | | |
schatting uit vergelijking van resultaten van 10 diverse onderwerpsvragen in multidisciplinaire bestanden met bekende omvang (Bosman – dec. 2004) –Google Scholar vindt gemiddeld 7,2 x zoveel als Omega (Univ. Utrecht) 7,2 x 9,5 miljoen = 69 miljoen –Google Scholar vindt gemiddeld 2,3 x zoveel als Web of Science (ISI) 2,3 x 22,4 miljoen = 52 miljoen geschatte omvang :60 10 miljoen na update eind april 2005: nog gegroeid met ongeveer 40% hoeveel zit er in Google Scholar ? Eric Sieverts | | |
resultaat van "library search" maar vrijwel geen gegevens van Europese bibliotheken
resultaat van "web search" naam 1 ste auteur + eerste 4 titelwoorden (eventuele stopwoorden gemaskeerd met *) maar gezochte artikel zelf niet gevonden, alleen (weer) andere artikelen die het citeren
[citation]alleen gegevens uit literatuurlijst van andere publicatie(s) (soms zelfs geen titel om te doorzoeken) summiere vindkans [book]summiere gegevens uit Worldcat catalogus (titel + enkele trefwoorden) kleine vindkans artikel uit bibliogr. bron bibliografische gegevens (titel + trefwoorden + uitgebreide samenvatting) redelijke vindkans full-text document bijna hele inhoud van de artikelen (eerste 100 kB 30 blz. van de tekst) maximale vindkans hoeveel van de inhoud van die records zit in Google Scholar ? Eric Sieverts | | |
"oude" artikelen die alleen als gescand image bij uitgever beschikbaar zijn (Tiff-PDF), blijken zelfs met OCR full-text doorzoekbaar gemaakt
dekking t.o.v. andere databases opbrengst vergeleken met andere "algemene" bronnen en gespecialiseerde (bibliografische) vakdatabases (20 april 2005) Eric Sieverts | | | onderwerpsvragen (exact phrase in titel-veld) Google Scholar OAI- ster PicartaScirus (tijdschr) Web of Science vakbibliografie speech recognition inspec 5166 human genome pubmed 1898 competitive advantage econlit 426 educational achievement eric 246 personality disorder psycinfo 3288 linguistic variation mla 211 stoic philos.ind. 217 * NB: Google Scholar was tussen november 2004 en 16 april 2005 niet aangevuld ! *
dekking t.o.v. andere databases "relatieve" opbrengst van andere algemene bronnen en gespecialiseerde (bibliografische) vakdatabases (20 april 2005) Eric Sieverts | | | onderwerpsvragen (exact phrase in titel-veld) Google Scholar OAI- ster PicartaScirus (tijdschr) Web of Science vakbibliografie speech recognition 10,060,080,030,05inspec0,22 human genome10,110,63 0,59pubmed0,53 competitive advantage10,030,650,110,24econlit0,15 educational achievement10,020,490,120,18eric0,36 personality disorder10,010,460,600,61psycinfo0,81 linguistic variation10,050,770,040,46mla 1,15 stoic10,031,900,070,94philos.ind0,73
dekking t.o.v. andere databases case study voor één (zeldzaam) onderwerp zoekterm: “alexander disease” Jeroen Bosman (UB Utrecht) - december 2004 Eric Sieverts | | | aantal% van totaal aantal uniek aantal 2004 Google Scholar Scopus Pubmed Picarta Web of Science totaal571009
Google Scholar als citatie-index Google Scholar is ook een citatie index gebruikt aantal citaties als één van zijn ranking-parameters (net zoals gewone Google dat doet met hyperlinks) linkt ook naar die citerende artikelen (beetje eenvoudiger dan ISI's citatie-indexen) Eric Sieverts | | |
vakgebiedGoogle Scholar : WoSvariatie humaniora1,9 x0 -- 5,7 x sociale wetensch 0,7 x0,3 -- 1,6 x economie1,3 x0,3 -- 3,0 x biomedisch0,7 x0,7 -- 0,9 x natuurkunde0,6 x0 -- 2,0 x Google Scholar vs. Web of Science Eric Sieverts | | | aantal gevonden "citaties" van Scholar, vergeleken met Web of Science (WoS) op basis van ca. 50 random artikelen
vergelijking van de citaties voor individuele artikelen 2 natuurkunde-artikelen2 medische artikelen WoS 35 GS 16 WoS 54 GS 26 Google Scholar vs. Web of Science Eric Sieverts | | | WoS 44 GS WoS 33 GS 28 7
vergelijking van de citaties voor individuele artikelen 2 letteren-artikelen3 sociaal-wetenschappelijke artikelen WoS 14 GS 22 WoS 16 GS 15 4 Google Scholar vs. Web of Science Eric Sieverts | | | WoS 46 GS WoS 31 GS GS 29 WoS 13
Google Scholar als citatie-index zeer voorzichtige conclusie: dekking van Google Scholar voor humaniora en sociale wetenschappen is wel nog minder dan voor natuurwetenschappen, toch lijkt het vooral op die terreinen zeker goede aanvulling op reguliere citatie-index maar: vergelijken op basis van deze summiere gegevens is nog wat hachelijk Eric Sieverts | | |
gebruikersoppervlakkigserieus soort gebruikquick & dirty als je maar iets vindt precisie + recall echt belangrijke mag je niet missen omvang collectie8 miljard60 miljoen gecontroleerde ontsluiting ontbreekt geen probleemvoor professional wellicht een beperking ontbrekende zoekmogelijkheden (truncatie, proximity) geen probleemernstige beperking succes van Google garantie voor succes van Google Scholar ? Eric Sieverts | | | of "eigenlijk" maar 15 ?
auteurs
Google-succes ook voor Scholar ? niet puur op kwalitatieve gronden –beperkte zoekfunctionaliteit (geen truncatie, geen proximity, geen complexe booleaanse combinaties) –geen gecontroleerde ontsluitingsmethoden –fouten bij heuristische technieken voor herkenning van auteurs, literatuurreferenties e.d. –ontbreken van belangrijke bronnen –ontbreken van informatie over dekking –update-frequentie onduidelijk (eerste 5 maanden niet!) wel aantrekkingskracht op gebruikers? maakt investering door bibliotheek onzichtbaar Eric Sieverts | | | automatisch
Google-succes ook voor Scholar ? niet puur op kwalitatieve gronden wel aantrekkingskracht op gebruikers, maar hoe reageren gebruikers als ze merken dat: –niet alles wat ze vinden full-text is (WorldCat boek-verwijzingen naar USA bibliotheken en web-search leveren -hier- meestal niets op) –niet iedereen (gratis) elke full-text mag zien –er niet (frequent) wordt ge-update bibliotheek wil laten weten dat zij investeert in licenties voor toegankelijkheid van full-text Eric Sieverts | | | automatisch
Google-succes ook voor Scholar ? niet puur op kwalitatieve gronden gebruikers zullen op den duur ook zwakke punten herkennen bibliotheek wil gebruiker laten zien dat zij betaalt voor licenties voor toegankelijkheid van artikelen –proefnemingen met SFX om via SFX-buttons of -links de naam van de bibliotheek in beeld te krijgen –vaak nog onvoldoende (en soms incorrecte) metadata om goed (diep genoeg) te kunnen linken maar dat lijkt recent wel wat verbeterd Eric Sieverts | | | automatisch
university of alberta was eerste met eigen poging tot sfx-linking
google biedt nu zelf keuze voor "institutional access"
die zorgt dat tekstuele sfx-links van die organisatie verschijnen
die steeds vaker preciezere metadata van artikel bevatten
als Google Scholar toch wel succes: wetenschappelijke productie veel zichtbaarder dan bij klassieke databases auteurs worden zich eens te meer bewust van die zichtbaarheid en van toegangsbeperkingen bij het klassieke uitgeef-model extra stimulans voor open-access model ? maar: zwaar weer voor database-producenten Eric Sieverts | | |