“resources” op internet en hun zoeksystemen Eric Sieverts Universiteitsbibliotheek Utrecht & opleiding Media, Informatie & Communicatie (HVA) Ecabo, november 2011
programma Wat zijn bronnen? Soorten informatiebronnen Zoeksystemen voor bronnen op internet; meer dan Google Boeken en artikelen / wetenschap Feiten, naslag, vertaling Nieuws Oud Nieuws Blogs, feeds, tweets, "real time" zoeken AV materiaal Gespecialiseerde persoonlijke zoekmachines Het diepe web Vergelijken en beoordelen Bijblijven Eric Sieverts Ecabo, november 2011
wat is een bron? is Google een bron? is het web een bron? NEE (althans voor deze workshop) Google is een zoekingang op heel veel bronnen het web is een medium waarop heel veel soorten bronnen beschikbaar zijn Eric Sieverts Ecabo, november 2011
wat is een bron? uitgangspunt voor vandaag: een bron is een collectie van een bepaald soort informatie die online beschikbaar is, waarbij de soort bepaald kan zijn door de vorm (krantenartikelen, blogs, video's, plaatjes, ...), en/of door de inhoud (medische informatie, nieuws, wetenschap, ...) Eric Sieverts Ecabo, november 2011
wat zijn zoekingangen? om "bronnen" te kunnen raadplegen maken we gebruik van zoeksystemen / zoekingangen / zoektools in die zin is Bing een zoekingang op een veelheid aan bronnen. in die zin is IceRocket een zoekingang op weblogs. in die zin is een zoekingang op wetenschappelijke bronnen. Eric Sieverts Ecabo, november 2011
soorten informatiebronnen naar aard van informatie wetenschappelijke informatie naslagwerken nieuwsberichten krantenartikelen (digitale) boeken ... naar “medium” webpagina’s pdf’s images videos weblogs rss-feeds ... ander onderscheid: primair - secundair - tertiair KNMI - weer-startpagina - StartNederland doorzoekbaarheid alleen metadata - full-text Eric Sieverts Ecabo, november 2011
soorten informatiebronnen niet al zulke combinaties zijn zinvol/mogelijk web- pagina pdf image video weblog rss-feed wetenschap naslag nieuws kranten eBooks ... Eric Sieverts Ecabo, november 2011
informatiebronnen en hun zoektools kun je alles (ook) met Google vinden? welke Googles (en Yahoo’s/Bing's) zijn er allemaal? (image-, blog-, video-, news-, book-, scholar-, groups-search) kun je met die Googles alles vinden? welke alternatieven zijn er voor die Googles? zie bijv. Browsys Advanced Finder http://www.browsys.com/finder alternatieven voor het diepe (en betaalde) web Eric Sieverts Ecabo, november 2011
boeken & (wetenschappelijke) artikelen Google Books Amazon (ook reviews, inhoud, boek-boek citaties) Worldcat (catalogus van 10.000 bibliotheken met postcode-functie) Librarything (catalogus van 58.000.000 boeken van 1.000.000 bezitters) Picarta (bevat ook artikelen) Bibliotheek.nl NARCIS (40.000 proefschriften, 600.000 publicaties [veel artikelen] uit NL) enz. artikelen (e.d.) Eric Sieverts Ecabo, november 2011
boeken & (wetenschappelijke) artikelen artikelen (e.d.) Google Scholar (artikelen, rapporten, proefschriften, ...) Scirus (artikelen uit ElsevierScience, uit databases, + webpagina’s, ...) Omega / sEURch (summon) (zoeksysteem van UU / EUR) OAIster / Scientific Commons (uit academische repositories) DOAJ / Open J-Gate (artikelen in Open Access tijdschriften) FindArticles, Magportal (ook -Engelstalige- publiekstijdschriften) ArticleFinder (vooral uit wetenschappelijke tijdschriften) DeepDyve (wetenschappelijke artikelen "te huur") enz. Eric Sieverts Ecabo, november 2011
boeken & (wetenschappelijke) artikelen artikelen (e.d.) vakspecifiek zoeken (gratis zoekingangen; vaak alleen de metadata) geneeskunde: PubMed economie: RepEc computerkunde, informatica: CiteSeer onderwijs: ERIC (hoge energie-) fysica: SPIRES-HEP bibliotheekwetenschap: LISTA filosofie: International Philosophical Bibliography transport: TRIS enz. Eric Sieverts Ecabo, november 2011
boeken: Google Books Van kaft tot kaft gescand (en doorzoekbaar!) Sterk voor ontdekken van niet-hoofdinhoud van boeken Vaak beperkt doorbladerbaar (no preview / snippet view / limited preview / full preview) Content via uitgevers en via grote bibliotheken Plaatsnamen uit boek >> mashup met Google-Maps Probleem met copyrighted materiaal uit bibliotheken Vergeleken met Amazon search inside: meer oud, minder recent Ook ‘My Library’ optie vb NL-boeken niet alleen uit Gent (en binnenkort KB), ook uit US/UK Nu ook enkele ‘magazines’ Metadata op about-this-book-pagina Bibliotheken linken vanuit catalogus (bijv. Picarta) Eric Sieverts Ecabo, november 2011
wetenschap: Google Scholar > 100 miljoen wetenschappelijke publicaties verschil full record en aanwezigheid als ‘citation’ verschil full-text links en bibliografische links concurrent van Web of Science, Scopus, Findarticles, Picarta, Scirus, OAIster, DOAJ, Infotrieve, Ingenta gericht geïndexeerd in vele bronnen (uitgevers, databases, universiteiten) met citaties! aantallen citaties mede gebruikt voor ranking .... >> Eric Sieverts Ecabo, november 2011
wetenschap: Google Scholar .... advanced search beperkt, nog veel fouten door computer-gegenereerde metadata van zoekresultaat naar volledige tekst vaak een probleem (niet aanwezig, alleen tegen betaling) soms veel versies van artikel (waaronder wel gratis) koppeling aan bibliotheekbezit, Google Scholar library programme voegt links naar eigen bezit toe geen info over bronnen, updates Eric Sieverts Ecabo, november 2011
feiten, naslag, vertaling encyclopedieën e.d. wikipedia overzicht in Yahoo Directory overzicht in Open Directory overzicht in encyclopedie.pagina.nl internet movie database vragen & antwoorden Quora Yahoo-answers FAQs: internet FAQ consortium zoekmachine voor naslagwerkpagina’s + berekening Wolfram Alpha woordenboeken, vertaaldiensten e.d. enz. Eric Sieverts Ecabo, november 2011
feiten, naslag, vertaling encyclopedieën e.d. vragen & antwoorden zoekmachine voor naslagwerkpagina’s + berekening woordenboeken, vertaaldiensten e.d. answers.com (voert een metasearch uit) Roget thesaurus Acronymfinder Bartleby Google Translate(d search) [zie middagprogramma] Mijn Woordenboek synoniemen Synoniemen.net overzicht in Open Directory overzicht in Open Directory Nederlands enz. Eric Sieverts Ecabo, november 2011
wikipedia in >250 talen levert “wisdom of the crowds” altijd “wisdom”? goed voor “feitelijke” onderwerpen veel detailonderwerpen (10 miljoen lemma’s, 500.000 NL) soms nuttig om relevante eigen publicaties / boeken uit eigen collectie als referenties aan lemma toe te voegen toch wel beleid & beheer: stewards, administrators Qwika: wikipedia metasearch (1158 wiki's in 12 talen, incl. computer-vertaling) Eric Sieverts Ecabo, november 2011
nieuws, kranten, tijdschriften Google News Yahoo News BBC , CNN e.d. nu.nl € LexisNexis, € Factiva krantensites (overzicht: startnederland.nl) tijdschriftensites (overzicht: startnederland.nl) Newslink-magazines .... [weblogs & tweets: zie apart onderdeel] Eric Sieverts Ecabo, november 2011
gespecialiseerd: Google News Engelstalig nieuws uit 4500 bronnen + aparte versies in andere talen dan Engels: chinees (1000 bronnen) duits (700 bronnen) frans (500 bronnen) hebreeuws (100 bronnen) italiaans (250 bronnen) japans (600 bronnen) koreaans (550 bronnen) nederlands (>400 bronnen) portugees (200 bronnen) spaans (700 bronnen) enz. Eric Sieverts Ecabo, november 2011
oud nieuws, archieven web archive (oude versies van websites, terug tot 1996, ingang via -oude- url) Google news archive (historische krantenarchieven) historische nederlandse kranten (versnipperd aanbod) historische kranten KB landelijke krantendatabank (ook papieren collecties) Los: Groene Amsterdammer (>1877), Leeuwarder Courant (>1752) € LexisNexis ‘echte archieven’ via Archieven.org Eric Sieverts Ecabo, november 2011
blogs, rss-feeds. tweets, real-time Google blogsearch Icerocket / Technorati (Exalead >> achteraf inperken op blogs ) denk aan verschil tussen ingang op individuele berichten en ingang op blogs of feeds als geheel wie citeert wie? (google blogsearch) filtermogelijkheid op “autoriteit” ?=? belang, kwaliteit, .... filter op termen binnen je feedreader blogs of onderwerp volgen met blogsalert? #hashtags Eric Sieverts Ecabo, november 2011
blogs, rss-feeds. tweets, real-time Forumdiscussies omgili, boardtracker, ... Twitter in 140 tekens vaak met links (verkort met is.gd / tinyurl / bit.ly / tr.im / ...) vaak met hashtags (#afgesprokentrefwoord) ook vanaf andere sites of tools: Netvibes, Twitpic, Tweetdeck, ... Zoeken (maar geen "oude" berichten) twitter (ook advanced search) tweetzi, topsy, kurrently, … niet (meer) afzonderlijk met Google “Real time web” (twitter, facebook, blogs, ...) socialmention, samepoint, whostalkin, … Eric Sieverts Ecabo, november 2011
multimedia images video audio Google-image (beeldherkenning; voorbeeldzoeken; ook uit Google-Photos) Yahoo-image (ook veel foto’s uit Flickr) Bing-image Ask-image Exalead-image (veel verschillen in zoekresultaten door verschillen in “tekstzoekvelden”) Flickr (zoekt vooral op tags; ondersteunt “Creative Commons” ) Andere uploadsites: Pbase, Smugsmug, Photobucket, Zoom, Zenfolio Tiltomo, Retrievr (voorbeeldzoeken met beeldherkenning op Flickr) Speciale sites als Beeldbank nationaal archief... video audio Eric Sieverts Ecabo, november 2011
multimedia images video audio Google-video (ook video’s uit YouTube; zoekt alleen in metadata) YouTube (groei: 30 uur/minuut, ook advanced search Youtube Edu channel Blinkx (35 miljoen uur video, spraakherkenning?) Truveo VideoSurf VoxaleadNews (werkt met spraakherkenning; ook Nederlands!) ScienceCinema (werkt met Engelse spraakherkenning! vooral energie-gerelateerde onderwerpen) TV-uitzendingen: Uitzending gemist, Beeld & Geluid, Academia audio Yahoo-audio (vooral muziek; geen spraakherkenning) Eric Sieverts Ecabo, november 2011
gespecialiseerd vs. algemeen zoektool gespecialiseerde zoekmachine selectiever & vaak “dieper” dan algemene zoekmachine interne zoekfunctie van individuele site kant en klare onderwerpsgerichte zoekingangen Scirus (wetenschap algemeen) Findlaw (rechten USA) WebMD / Medscape (geneeskunde) Google-finance (financiële gegevens + nieuws) ..... persoonlijk gemaakt: zelf selecteren welke sites (url’s) in zoekmachine moeten worden meegenomen Google CSE Blekko (slashtags) Eric Sieverts Ecabo, november 2011
toegang tot het "diepe" web spul uit databases zit in principe niet in Google etc. zelf “handmatig” databases afzonderlijk doorzoeken overzicht "Complete planet" bij BrightPlanet voor "wetenschap" al eerder verzamelzoeksystemen genoemd “halfautomatisch” laten doorzoeken via (desktop) metasearch goshme (geavanceerde metasearch) copernic-agent (metasearch vanaf eigen PC) “automatisch” toch al gevonden omdat (met technische truc) gezorgd is dat gegevens uit database toch in Google komen bijv. catalogus UB Wageningen Eric Sieverts Ecabo, november 2011
vergelijken en beoordelen wat voor soort materiaal zit er in primaire (c.q. full-text) vs. secundaire informatie naslag / nieuws / onderzoekresultaten / statistieken / websites / artikelen / boeken / rapporten / ... welk onderwerpsgebied welke doelgroep (niveau) hoeveel zit erin (aantal items, dekkingsgraad, ...) vaak moeilijk te bepalen door onbetrouwbare resultaataantallen hoe goed werkt het zoeksysteem (functionaliteit, gebruiksgemak, selectiviteit, ...) wat is kwaliteit van de content zie bijvoorbeeld JISC Academic Database Assessment Tool bekijk: bron zelf / Wikipedia / leveranciers / JISC Eric Sieverts Ecabo, november 2011
bijblijven (bronnen & zoeken) Weblogs (met RSS-feeds): Resourceblog InfoDocket (Gary Price) SearchEngineLand (Sullivan, Sherman) InternetNews/WebSearchGuide (Gwen Harris) Phil Bradley's weblog Search Engine Showdown (Greg Notess) Inside Search (Google search blog) “Spion” op bronnenlijst (Copernic Tracker, WatchThatPage, …) RSS-feed op lijsten indien aanwezig Pandia FreePint Eric Sieverts Ecabo, november 2011
bjblijven met behulp van RSS Rich Site Summary / Really Simple Syndication voor sites met (on)regelmatig nieuwe actuele inhoud, bijvoorbeeld nieuwsbrieven, weblogs (+ ook sommige databases) lezen, beheren als ware het email maakt gebruik van xml-structuur vereist software (reader), bijv. Feedreader, Feeddemon, Shrook, … of online lezen bijv. bij Google Reader of Netvibes toevoegen van een ‘feed’: klik bij pagina op oranje (soms blauw) rss- of xml-logo en voeg url daarvan aan reader toe drie nauwverwante formats: rss/atom/rdf (readers multiformat) zoeken van berichten: Google Blogsearch, Technorati, IceRocket, real-time search [zie eerder] Eric Sieverts Ecabo, november 2011