Media, Informatie & Communicatie (Hogeschool van Amsterdam) De Googl ificatie van ons leven zoeken doen we allemaal, maar hoe kun je het beter vinden? Eric Sieverts Media, Informatie & Communicatie (Hogeschool van Amsterdam) ZA07-2 februari 2011
zoeken = google ? zoeken is een “commodity” geworden iedereen gebruikt voor alles altijd, overal zoekmachines in december 2010: 3 miljoen zoekacties per minuut iedereen verwacht altijd overal te kunnen zoeken “the ubiquitous search box” iedereen verwacht dat je er altijd alles mee kunt vinden “ambient findability” Google is daarbij de “maat der dingen” geworden de usability benchmark? de “Google experience” kortom: Google is synoniem met zoeken Eric Sieverts | ZA07-2 | februari 2011
the google experience iedereen denkt dat Google wat zoeken betreft "de maat der dingen" is maar let op: de Google paradox met Google "kun je alles vinden" Eric Sieverts | ZA07-2 | februari 2011
the google experience iedereen denkt dat Google wat zoeken betreft "de maat der dingen" is maar let op: de Google paradox met Google "kun je alles vinden" maar als echt "alles" in Google (of Yahoo! of Bing) zit (> 500.000.000.000 items) is “het” eigenlijk niet goed meer te vinden Eric Sieverts | ZA07-2 | februari 2011
programma bronnen voor informatie zoeksystemen hoe zoek je alleen google of ook andere? hoe zoek je algemeen met Google , Bing , Yahoo! / ranking wat is er speciaal aan andere systemen? betrouwbaarheid / selectiviteit toegankelijkheid Eric Sieverts | ZA07-2 | februari 2011
wat is een bron ? is Google een bron? is internet een bron? NEE Google is een zoeksysteem dat heel veel (soorten) bronnen doorzoekt internet is een medium waarop heel veel soorten bronnen beschikbaar zijn Eric Sieverts | ZA07-2 | februari 2011
soorten informatiebronnen naar aard van de informatie wetenschappelijke informatie naslagwerken nieuwsberichten krantenartikelen (digitale) boeken ... naar “medium” webpagina’s pdf’s images videos weblogs tweets rss-feeds ... onderscheid tussen deze invalshoeken is niet altijd heel scherp te trekken ook onderscheid: web diepe web Eric Sieverts | ZA07-2 | februari 2011
soorten informatiebronnen niet al deze combinaties zijn zinvol/mogelijk web- pagina pdf image video weblog tweet rss-feed wetenschap naslag nieuws kranten eBooks ... (en nog meer) Eric Sieverts | ZA07-2 | februari 2011
soorten informatievragen feitelijk gegeven informatie "over iets" kies bij elk de juiste soort bron kies daarbij het juiste zoektool feit: 1: naslag - bijv. wikipedia 2: zoekmachine (event. gespecialiseerde > ) "over": zoekmachine (liefst gespecialiseerde > ) kies bij elk de juiste manier van zoeken (>) Eric Sieverts | ZA07-2 | februari 2011
bronnen & hun zoeksystemen web algemeen google, yahoo!, bing, ... weblogs google blogsearch, icerocket, ... boekinhoud google books, amazon vak & wetenschap google scholar, scirus, pubmed, db's €, ... nieuws google news (per land/taal), lexis/nexis €, ... tweets / real-time twitter, socialmention, whostalkin, … mensen pipl, wieowie, 123people, ... video youtube, blinkx, google video, ... afbeeldingen google image, flickr, ... oud spul way-back-machine, historische kranten, ... feiten, naslag wikipedia, acronymfinder, answers.com, ... "alles" keuze via browsys
gespecialiseerde zoeksystemen waarom gespecialiseerd zoeksysteem gebruiken, als het waarschijnlijk (?) toch (ook) al in Google zit (of in Yahoo! of Bing) ? resultaten verdrinken niet in die 500.000.000.000 andere documenten van algemene zoekmachine Eric Sieverts | ZA07-2 | februari 2011
gespecialiseerde zoeksystemen waarom gespecialiseerd zoeksysteem gebruiken, als het waarschijnlijk (?) toch (ook) al in Google zit (of in Yahoo! of Bing) ? resultaten verdrinken niet in die 500.000.000.000 andere documenten van algemene zoekmachine minder last van ruis uit "content farms" niet alles zit in Google (enz.) >> het "diepe" web Google (enz.) minder up-to-date dan gespecialiseerd systeem vaak: specifieke zoekfunctionaliteit voor dat type informatie daarom stopt Google tussen gewone resultaten vaak ook iets uit zijn andere systemen Eric Sieverts | ZA07-2 | februari 2011
uit Google-News uit real-time web (twitter e.d.) een paar "gewone" resultaten uit Google-Video
zoeken → vinden
zoekmachines = uitkijkposten?
zoeken (algemeen) zoekmachines begrijpen niet wat we bedoelen, maar geven wat we vragen als jij "effecten van de financiële crisis in Europa" vraagt, zal hij niet naar "... in Spanje" gaan zoeken vraag dus wat je verwacht dat antwoord zal zijn! omdat die zoekwoorden voorkomen omdat pagina met zoekwoorden in zelfde volgorde als in zoekvraag hoger scoort bij ranking doe dit zeker bij zoeken naar feitelijke gegevens Eric Sieverts | ZA07-2 | februari 2011
http://www.thumbshots.com/Products/ThumbshotsImages/Ranking.aspx
zoeken (algemeen) vraag wat je verwacht dat antwoord zal zijn! vraag bijvoorbeeld met "precieze zin" optie: "water kookt bij * graden" met * (wildcard) voor ontbrekend / onbekend woord of getal ook als je een vaste uitdrukking niet meer weet "het * * met het badwater weggooien" met Google alle getallen binnen gegeven range zoeken "een huur van 300..500 euro" Eric Sieverts | ZA07-2 | februari 2011
zoeken (algemeen) vraag wat je verwacht dat antwoord zal zijn! vraag niet "wie waren de presidenten van de VS?" maar vraag "presidenten van de VS waren" of vraag misschien nog liever: obama, bush, clinton, nixon, kennedy, lincoln want op pagina waar deze 6 namen voorkomen, worden vast ook die andere 35 namen genoemd pas woordgebruik aan gewenste (culturele) context aan wetenschappelijk / populair / jargon / jongeren mexicaanse griep h1n1 virus influenza A Eric Sieverts | ZA07-2 | februari 2011
zoeken (algemeen) soms proberen sommige zoekmachines wel slimme dingen te doen google zoekt automatisch op enkel- en meervoud en nog wat morfologische woordvarianten maar: is soms afhankelijk van taal- en landenversie, dus niet altijd voorspelbaar wat en wanneer maar: je wilt dat niet altijd new news philips philip op google.nl krijgen resultaten van .nl sites voorrang bing probeert resultaat aan je locatie aan te passen maar: effect vaak onbegrijpelijk Eric Sieverts | ZA07-2 | februari 2011
+ voor zoekterm zorgt voor exact zoeken
voor alleen exacte naam dus: +piet +janssen
google.com
google.nl
systematische zoekvraag in databases werden zoekvragen van oudsher systematisch opgebouwd met zoekmachines kan dat voor inhoudelijke vragen ook heel goed welke aspecten / facetten / invalshoeken moeten in de te vinden informatie samen aanwezig zijn? bijv.: bijwerking + inenting + varkensgriep welke zoekwoorden kan ik bedenken voor elk daarvan? bijv.: 1: bijwerking, bijwerkingen, nadeel, bezwaar 2: inenting, vaccinatie, vaccin 3: varkensgriep, H1N1, influenza a, mexicaanse griep Eric Sieverts | ZA07-2 | februari 2011
systematische zoekvraag systematisch opbouwen van inhoudelijke zoekvraag (ik zoek informatie "over") neem die woorden per facet samen met OR bijwerking OR nadeel OR bezwaar inenting OR vaccinatie OR vaccin varkensgriep OR H1N1 combineer de resulterende "bouwstenen" met AND maar hoe doe je dat precies? Eric Sieverts | ZA07-2 | februari 2011
combineren bij Google en Yahoo! gebruik hoofdletters voor operator(en) je mag de AND's weglaten hier gaat -als enige systemen- OR voor AND je hoeft dus geen haakjes te gebruiken als je woorden wilt uitsluiten, dan moet je i.p.v. "NOT" per losse term - (min)teken gebruiken voorbeeld: bijwerking OR nadeel inenting OR vaccinatie varkensgriep OR H1N1 -qkoorts i.p.v. (bijwerking OR nadeel) AND (inenting OR vaccinatie) AND (varkensgriep OR H1N1) NOT qkoorts Eric Sieverts | ZA07-2 | februari 2011
combineren bij Bing gebruik hoofdletters voor operator(en) je mag de AND's weglaten je moet WEL haakjes gebruiken bij OR je mag ook NOT gebruiken dus wel: (bijwerking OR nadeel) AND (inenting OR vaccinatie) AND (varkensgriep OR H1N1) NOT qkoorts of (bijwerking OR nadeel) (inenting OR vaccinatie) (varkensgriep OR H1N1) Eric Sieverts | ZA07-2 | februari 2011
relevance ranking: meer dan pagerank pagerank alleen van belang als zoekwoorden weinig bepalend die woorden maken: pagina relevanter als zoekwoord in titel pagina relevanter als zoekwoord in URL of in koppen <H1> <H2> pagina relevanter als zoekwoord meer in begin van tekst pagina relevanter als zoekwoord vaker voorkomt pagina relevanter als zoekwoorden dicht bij elkaar pagina relevanter als zoekwoorden in zelfde volgorde als vraag (!) zeldzaam zoekwoord telt hierbij zwaarder dan heel algemeen (voor jou belangrijk woord in zoekvraag 3x intikken - bij Google) pagina relevanter als zoekwoord ook vaak voorkomt in tekst van hyperlink die ernaar verwijst (de "googlebom") zie bijv.: http://www.vaughns-1-pagers.com/internet/google-ranking-factors.htm Eric Sieverts | ZA07-2 | februari 2011
relevance ranking elke zoekmachine heeft eigen "geheime" factoren en eigen afweging hoe sterk elke factor meetelt elke zoekmachine sorteert dus anders dus weinig overlap tussen zoekmachines bij eerste 10 Eric Sieverts | ZA07-2 | februari 2011
relevance ranking elke zoekmachine heeft eigen "geheime" factoren en eigen afweging hoe sterk elke factor meetelt elke zoekmachine sorteert dus anders dus weinig overlap tussen zoekmachines bij eerste 10 wie doet het het best? probeer eens een "blinde" vergelijking site: blindsearch Eric Sieverts | ZA07-2 | februari 2011
relevance ranking elke zoekmachine heeft eigen "geheime" factoren en eigen afweging hoe sterk elke factor meetelt elke zoekmachine sorteert dus anders dus weinig overlap tussen zoekmachines bij eerste 10 wie doet het het best? soms de een, soms de ander ! het heeft dus zin meer zoekmachines bijv.: via browsys-finder of metasearch te gebruiken bijv.: ixquick, dogpile, yippy Eric Sieverts | ZA07-2 | februari 2011
hulp bij verfijnen zoekresultaat zoekresultaten vaak te ruim en nog niet in goede context door onvoldoende gespecificeerde zoekvragen sommige systemen geven suggesties op basis van eerder door anderen gestelde uitgebreider zoekvragen terwijl jij je vraag aan het intikken bent ; Google-Instant voorspelt zelfs al wat je gaat vragen sommige systemen geven suggesties voor inperking op basis van statistische analyse van woorden in al gevonden resultaten, bijv. Quintura (gebruikt Yahoo!) Eric Sieverts | ZA07-2 | februari 2011
hulp bij verfijnen zoekresultaat zoekresultaten vaak te ruim en nog niet in goede context door onvoldoende gespecificeerde zoekvragen sommige systemen geven suggesties op basis van eerder door anderen gestelde uitgebreider zoekvragen terwijl jij je vraag aan het intikken bent ; Google-Instant voorspelt zelfs al wat je gaat vragen sommige systemen geven suggesties voor inperking op basis van statistische analyse van woorden in al gevonden resultaten, bijv. Quintura (gebruikt Yahoo!) Eric Sieverts | ZA07-2 | februari 2011
hulp bij verfijnen zoekresultaat Google biedt opties om achteraf zoekresultaat in te perken op bepaalde kenmerken (dat had je voor een deel ook vooraf al kunnen doen via geavanceerd zoekscherm) vooral interessant is inperking op zelf te specificeren tijdperiode Eric Sieverts | ZA07-2 | februari 2011
pas op: datums niet 100% betrouwbaar
zoeken in andere talen handig als je andere taal kent, anders zonder hulp niet haalbaar Google "language tools" biedt gewone vertaalhulp, maar ook vertaald zoeken vertaalt zoekvraag naar gewenste taal vertaalt zoekresultaten terug naar jouw taal Eric Sieverts | ZA07-2 | februari 2011
specialisatie speciale zoekhulpmiddelen voor blogs voor vak & wetenschap voor nieuws voor real-time voor boeken voor oude meuk voor mensen
blogsearch waarom aparte zoekmachine (bijv. Google Blogsearch) snelheid essentieel: snel indexeren van alleen blogs is makkelijker dan van het hele web relevante speciale zoekopties: op auteur zoeken op datum zoeken zoeken wie verwijzen naar bepaalde andere blogpost (of webpagina) [ongedocumenteerd!] link:http://www.xxx.com/yyy/zzz.html Eric Sieverts | ZA07-2 | februari 2011
SearchEngineLand blogpost (1/2/2011) over "afkijken" van zoekresultaten door Bing
vak & wetenschap algemeen Google Scholar >100 miljoen wetenschappelijke artikelen op elk gebied je kunt zoeken op auteurs links naar "related articles" en naar "citaties" aantallen "citaties" mede gebruikt voor ranking toegankelijkheid volledige tekst vaak een probleem (niet aanwezig / alleen als je betaalt - soms wel binnen HvA) Scirus wetenschappelijke artikelen + 150 miljoen webpagina's artikelen lang niet altijd toegankelijk (soms wel binnen HvA) Eric Sieverts | ZA07-2 | februari 2011
vak & wetenschap specifiek geneeskunde: pubmed vertaalt (Engelse) zoekwoorden zo veel mogelijk naar wetenschappelijk jargon tranquilisers → tranquilizing agents breidt zoekvraag automatisch uit met specifiekere begrippen / onderdelen tranquilizing agents → clozapine, diazepam, enz. eye → eyelid, retina, enz linkt naar volledige teksten bij uitgevers (toegang?) overige vakgebieden: zie databases (€) bij mediatheek of universiteitsbibliotheek Eric Sieverts | ZA07-2 | februari 2011
nieuws Google News: vaak alleen "nieuw nieuws" NL: 1 maand; VS: enkele jaren + (€) LexisNexis (€): ook "oud nieuws" >> mediatheek >> databanken >> LexisNexis Newsportal Eric Sieverts | ZA07-2 | februari 2011
nieuws + aparte versies in andere talen dan Engels: Engelstalig nieuws uit 4500 bronnen + aparte versies in andere talen dan Engels: chinees (1000 bronnen) duits (700 bronnen) frans (500 bronnen) hebreeuws (100 bronnen) italiaans (250 bronnen) japans (600 bronnen) koreaans (550 bronnen) nederlands (>400 bronnen) portugees (200 bronnen) spaans (700 bronnen) ... Eric Sieverts | ZA07-2 | februari 2011
real-time web gewone zoekmachines (Google , Bing ) erg onvolledig in speciale zoekmachines alleen nieuwste berichten voor alleen twitter: search.twitter, kurrently, tweetzi, … voor twitter + facebook + blogs + …. : socialmention, samepoint, whostalkin lees interview met Henk van Ess hoe je twitter e.d. als bron kunt gebruiken Eric Sieverts | ZA07-2 | februari 2011
book search google book search worldcat librarything o.a. om te zien of iets heel specifieks ergens in een boek een keer wordt genoemd mashup met Google maps alleen uit oude boeken altijd alles full-text op het scherm worldcat catalogus van 10.000 bibliotheken o.a. hoe dichtbij je bepaald boek kunt lenen (via postcode) librarything o.a. kijken wat anderen van een boek vinden Eric Sieverts | ZA07-2 | februari 2011
welk boek zou dit zijn?
ouwe spullen way-back-machine Koninklijke bibliotheek vindt oude versies van webpagina's terug tot 1996 (als je het -oude- URL weet) Koninklijke bibliotheek heeft groeiend aantal gedigitaliseerde full-text doorzoekbare (historische) kranten (nu 1618-1945) Google news archive stelt (tegen betaling) ook Amerikaanse krantenarchieven beschikbaar Eric Sieverts | ZA07-2 | februari 2011
hier nog geen MIM!
MIM-site juni 2000
mensen je kunt iedereen Googlen speciale mens-zoekmachines maken vooral gebruik van zo veel mogelijk sociale netwerken: pipl wieowie kgb-people 123people zijn eigenlijk dezelfde alleen verschillende interfacetaal Eric Sieverts | ZA07-2 | februari 2011
betrouwbaarheid s er is geen "bocca della verità" voor internet - iedereen kan alles op internet zetten - zelfs geen controle op feitelijke gegevens Eric Sieverts | ZA07-2 | februari 2011
wanneer leefde Johann Sebastian Bach? just ask Google!
betrouwbaarheid wat te doen? gebruik Wikipedia voor controle op feiten gebruik gespecialiseerd (selectief) zoeksysteem voor betrouwbaarder informatie zoek in social bookmark-site Delicious: wat daarin zit is bewust door mensen gebookmarked kijk of onafhankelijke bronnen hetzelfde beweren wetenschappelijke en vak-tijdschriften passen vaak "peer review" toe voor ze iets publiceren wees zelf kritisch Eric Sieverts | ZA07-2 | februari 2011
toegankelijkheid door zoekmachines zijn we gewend geraakt aan "instant satisfaction" van onze informatiebehoefte wat je vindt staat meteen op je scherm toch lukt dat ook niet in alle Googles: Google Scholar, Google Books sommige "betrouwbare" informatie krijg je alleen te zien als je abonnee bent (of je organisatie dat is) er is wel trend naar "open access" universiteiten en hogescholen hebben vaak licenties Eric Sieverts | ZA07-2 | februari 2011
slotopmerkingen er is (helaas) geen ideaal zoekrecept dat altijd werkt zorg dat je vertrouwd bent met een boel van de hier genoemde bronnen, systemen en technieken beperk je niet tot 1 zoektool zorg dat je altijd een plan B achter de hand hebt als je niet tevreden was met resultaat van plan A als plan A wel al goed ging, maar je toch ook nog nieuwsgierig bent of er meer / andere informatie is wees kritisch wees inventief Eric Sieverts | ZA07-2 | februari 2011