zoektechnieken voor zoekmachines op internet Eric Sieverts Universiteitsbibliotheek Utrecht & opleiding Media, Informatie & Communicatie (HVA) Ecabo, november 2011
programma Internet zoekstrategieën/zoeksystematiek Dekking van zoekmachines / not just Google Ranking van zoekmachines Zoekresultaten kwantitatief Gebruik zoektermen Google Translated search Booleaans zoeken Speciale tekens, getallen en exact zoeken Zoeken op velden / link zoeken Filteren op formele kenmerken Automatische attendering Beheer van zoekacties/zoekresultaten Eric Sieverts Ecabo, november 2011
systematische aanpak Vraaganalyse: wat zoek ik eigenlijk + speciale randvoorwaarden Verkenning Opstellen zoekprofiel: waaraan moet informatie voldoen, zoekwoorden Keuze bronnen/zoektools: zoekmachine, database, ... Daadwerkelijk zoeken: gebruik syntax en opties van zoektool Noteren afwijkingen van zoekplan, zijpaadjes, bevindingen Selectie uit zoekresultaat Evaluatie Nabewerking per relevante bron: beheren, citeren, delen Eventueel andere ingangen (verder zoeken op gevonden auteur, links) of geheel andere typen bronnen (gedrukte literatuur, deskundigen) Expliciete reflectie op zoekproces en zoekresultaat Bij doorlopende interesse event. instellen van web en page alerts / feeds Eric Sieverts Ecabo, november 2011
dekking (omvang) van zoekmachines > 15% van webpagina’s in geen van grote zoekmachines van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% (2005) http://www.cs.uiowa.edu/~asignori/web-size/ geen betrouwbare recentere cijfers mijn inschatting: Google nu iets kleiner dan Yahoo ? Google nu iets groter dan Bing ? maar nu: Yahoo==Bing ! Google nu ~10x zo groot als kleinere dekking zeer ongelijkmatig verschil in actualiteit verschil in dekking verschil in ranking (vaak zeer weinig overlap bij eerste 10) Eric Sieverts Ecabo, november 2011
andere algemene zoekmachines probeer naast Google eens: Bing (microsoft, groot) Yahoo! (content=Bing, groot) Exalead (frans, tamelijk klein, veel geavanceerde functies) Gigablast ("groene" zoekmachine, tamelijk klein, paar unieke functies) Blekko ("hashtags" om [domein-]selectiever te kunnen zoeken) DuckDuckGo (verzekert privacy, geen personalisatie, tamelijk klein) Ask (tamelijk klein, weinig unieks meer) in US hebben die samen nog 30% marktaandeel; in NL maar 3% Eric Sieverts Ecabo, november 2011
ranking: Google's pagerank pagerank van pagina x is: PR(x) = (1-d) + d* {PR(yx) / C(y)} y elke "pagina y" die naar pagina x linkt draagt bij aan die som PR(yx) = pagerank van pagina y die naar x linkt [link vanuit pagina die zelf hoge pagerank heeft, draagt meer bij] C(y) = aantal links in pagina y [link vanuit pagina die erg veel links bevat, draagt minder bij] d = "dempingsfactor" (ong. 0.85) waardoor: 0.15 PR(x) Eric Sieverts Ecabo, november 2011
ranking: inhoudelijke factoren pagerank is pas van belang als zoekwoord-gerelateerde (inhoudelijke) factoren weinig bepalend zijn, zoals: pagina relevanter als zoekwoord in titel pagina relevanter als zoekwoord in URL pagina relevanter als zoekwoord in koppen <H1> <H2> pagina relevanter als zoekwoord meer in begin van tekst pagina relevanter als zoekwoord daarin vaker wordt herhaald pagina relevanter als zoekwoorden daarin dicht bij elkaar pagina relevanter als zoekwoorden daarin in zelfde volgorde zeldzaam zoekwoord is belangrijker dan heel algemeen pagina relevanter als zoekwoord ook vaak voorkomt in tekst van verwijzende hyperlinks pagina relevanter als gebruiker eerder soortgelijke pagina's bekeek .... Eric Sieverts Ecabo, november 2011
aantallen resultaten van zoekmachines gemelde resultaataantallen zijn vaak zeer onbetrouwbaar bij Google (en andere) zijn vermelde aantallen zeer onbetrouwbaar, niet stabiel, met soms onverklaarbare effecten inperken geeft soms groter aantal, uitbreiden kleiner aantal afhankelijk van verdeling index over servers Google afhankelijk van Google versie / ingelogd zijn / zoekgeschiedenis afhankelijk van keuze “your part of the world” bij Bing Danny Sullivan legt uit waarom Google niet kan tellen: http://searchengineland.com/why-google-cant-count-results-properly-53559 Why Google Can’t Count Results Properly Eric Sieverts Ecabo, november 2011
gebruik zoektermen .... belang van "juiste" zoektermen: denk in termen van het te vinden document (wat zou in relevant document staan?) spellingvarianten, enkel-meervoud-werkwoord (zelf bedenken of automatisch - Google) truncatie (alleen Exalead) alternatieve zoektermen / synoniemen: soms automatisch bij Google te vinden met "thesauri" / synoniemenlijsten (mijnwoordenboek, synoniemen.net, Roget's, answers.com, Bartleby) te vinden via synoniemen uit Word-tekstverwerker te vinden door te kijken in wat al is gevonden .... Eric Sieverts Ecabo, november 2011
gebruik zoektermen denk in termen van het te vinden document (hoe zou het in relevant document staan?) .... "exact phrase" losse woorden woordnabijheid: met term-wildcard ( * ) bij Google & Yahoo "veiligheid * * tunnels" met NEAR bij Yahoo, Bing, Exalead veiligheid NEAR tunnels met AROUND(n) bij Google veiligheid AROUND(4) tunnels eventueel een phrase van losse woorden (zonder "") ! invloed van volgorde van losse woorden op ranking (zie: Thumbshots – Ranking) Eric Sieverts Ecabo, november 2011
gebruik zoektermen denk in termen van het te vinden document (hoe zou het in relevant document staan?) .... voor opsomming: generiek zoeken vs. voorbeeld zoeken (“overzicht amerikaanse presidenten" vs. "clinton, johnson, reagan, obama, lincoln, ..." ) gebruik context-specifieke zoektermen (event. slang, jargon) om te beperken tot specifieke context waarin onderwerp moet voorkomen (populair wetenschappelijk ; volwassenentaal jeugdtaal) gewicht specifieke term verhogen door herhaling (Google) Eric Sieverts Ecabo, november 2011
gebruik zoektermen belang van "juiste" zoektermen: gebruik van gesuggereerde termen vooraf: Google, Bing, Yahoo, Exalead achteraf inperken: Ask, Exalead, Gigablast, Scirus Eric Sieverts Ecabo, november 2011
Booleaanse combinaties gebruik van booleaanse operatoren om woorden te koppelen AND beide woorden gelijktijdig aanwezig computer AND bibliotheek OR minstens één van de woorden aanwezig fiets OR rijwiel NOT woorden uitsluiten greenhouse NOT climatic change NB: bij webzoekmachines altijd hoofdletters gebruiken voor die operatoren Eric Sieverts Ecabo, november 2011
Booleaanse combinaties veelgebruikte basis voor gestructureerde opzet van zoekstrategieën is "bouwsteenmethode": bepaal de samenstellende concepten van je vraag bedenk voor elk concept mogelijke zoekwoorden veiligheid lange tunnels veilig onveiligheid beveiliging veiligheidsmaatregelen .... lang lengte ... verkeerstunnels autotunnels spoortunnels OR OR AND AND Eric Sieverts Ecabo, november 2011
Booleaans combineren bij zoekmachines bijzonderheden van Booleaans bij Google & Yahoo: je mag de AND's weglaten hier gaat -nogal uitzonderlijk- OR voor AND je hoeft dus geen haakjes te gebruiken je moet i.p.v. "NOT" per losse term - (min)teken gebruiken voorbeelden: veilig OR veiligheid tunnels OR autotunnels -spoortunnels i.p.v. (veilig OR veiligheid) AND (tunnels OR autotunnels) NOT spoortunnels "lange tunnels OR autotunnels" i.p.v. "lange tunnels" OR "lange autotunnels" wat helemaal NIET kan bij Google/Yahoo: (veiligheid AND autotunnels) OR (safety AND "car tunnels") Eric Sieverts Ecabo, november 2011
Booleaans combineren bij zoekmachines maar Booleaans bij Bing je moet WEL haakjes gebruiken bij OR je mag ook NOT gebruiken dus wel: (veilig OR veiligheid) AND (tunnels OR autotunnels) NOT spoortunnels of (veilig OR veiligheid) (tunnels OR autotunnels) NOT spoortunnels maar weer geen: "lange tunnels OR autotunnels" dat moet voluit: "lange tunnels" OR "lange autotunnels" Eric Sieverts Ecabo, november 2011
Booleaanse bouwsteencombinatie bouwsteencombinaties met AND's en OR's (veilig OR veiligheid) AND lange AND (tunnels OR autotunnels OR verkeerstunnels) stapsgewijze opbouwen bij Google zoek op termen voor eerste bouwsteen: veilig OR veiligheid als Google-instant "aan" staat, zie je meteen al het resultaat (zonder op [search] te hoeven klikken) tik gewoon door met termen voor tweede bouwsteen; lange je ziet meteen weer het resultaat tik door met termen voor derde concept: tunnels OR autotunnels OR verkeerstunnels enz. resultaat: Eric Sieverts Ecabo, november 2011
zoektermen: Google denkt voor ons Google probeert de zoekvraag te verbeteren / verbreden automatische spellingcorrecties (veilgheid >> veiligheid) zoekt op woorden met dezelfde woordstam (enkel-/meervoud, werkwoordsvormen, vervoegingen, verbuigingen) spellingvarianten en afko's (color >> colour | wwii >> world war II) voegt synoniemen van woorden toe (vaccination >> immunization) bij losse zoekwoorden ook samengestelde term en omgekeerd (veiligheid maatregel >> veiligheidsmaatregel | catfood >> cat food) maakt soms een term optional als die niet discriminerend genoeg is dit alles wat vaker en uitgebreider in Engels dan in Nederlands personaliseert zoekactie op basis van eerder zoek/browse-gedrag en als je dat nou niet wilt ........ >> "verbatim" Eric Sieverts Ecabo, november 2011
verbatim == "woordelijk" vorige week nieuw geïntroduceerde optie verbatim == "woordelijk" NB: nog NIET op google.nl
zoektermen: taalaspecten taalvoorkeuze eigenlijk alleen belangrijk bij taalonafhankelijke begrippen en eigennamen taalinstelling; bij Google verschil tussen zoekresultaattaal interfacetaal landsversie (pas op: ook bij Bing “… a search experience tailored to your part of the world” !) automatische vertaling: Google.com language tools, met translated search! of Yahoo-BabelFish of Systran of Bing Translator maken ook verschil voor ranking van resultaten Eric Sieverts Ecabo, november 2011
zoeken in taal die je niet kent Google "translated search" / "vertaalde zoekopdracht" kies in welke talen je resultaten wilt zoeken kies in welke taal jij je zoekvraag intikt bekijk in jouw taal terugvertaalde resultatenlijst bekijk in jouw taal terugvertaalde pagina's controleer zo nodig hoe het er oorspronkelijk uitzag Eric Sieverts Ecabo, november 2011
vertaalt Nederlandse zoekvraag in aangevinkte taal en vertaalt daarmee gevonden resultaten weer terug naar het Nederlands
speciale tekens, getallen en exact zoeken woordstam-zoeken voorkomen met "" of met Verbatim ( "greenhouses" <geeft NIET> greenhouse effect ) zoeken naar leestekens kan niet zoeken naar alle getallen die binnen een range vallen (10..20 of $10..$20, uniek voor Google) getallen werken net als woorden, maar: komma wordt gelezen als spatie, net als andere leestekens (12,93 12 93 , maar 100,000 wel 100000) punt kan wel (12.93 12.93) Eric Sieverts Ecabo, november 2011
zoeken in "velden" nuttig voor gerelateerde informatie nuttig als resultaat niet specifiek genoeg bijv. als woord in elke pagina in navigatiebalk voorkomt zoek op woord(en) in paginatitel intitle:agenda (limitering/syntax niet aangeboden in geavanceerd zoekscherm) zoek op woord in URL inurl:telefoonlijst nuttig voor gerelateerde informatie zoeken via backlinks (koppelingen naar …) : link:url maar pas op: Google geeft beperkt resultaat Eric Sieverts Ecabo, november 2011
filteren op formele kenmerken filters op formele vereisten, meestal in "geavanceerd zoekscherm" : taal, datum, domein, land/werelddeel, bestandstype, media, ... domein (site) : meervoudig sitefilter (bij Gigablast of je moet Google-syntax kennen) in gewone zoekscherm kan met Google-syntax vaak meer dan in voorgeprogrammeerde “advanced search”; bijv.: site:microsoft.com OR site:google.com | filetype:rss selectie vooraf vs. achteraf inperken via "facetten" (onder "more search tools" in google.com veel meer dan in google.nl) op datum zoeken .... >> Eric Sieverts Ecabo, november 2011
zoeken / filteren op datum op datum beperken : = meestal datum van -recentste- indexering door zoekmachine (niet werkelijke datum van publicatie) in advanced search biedt Google (vooraf) keuze tussen past 24 hours / week / month / year bij Google resultaat achteraf in te perken op periode (facetten in linker kolom): "custom range" / "aangepaste periode" - "from: .. to: .." hoe datum van publicatie van gevonden pagina te controleren? soms werkt: javascript:alert(document.lastModified) Eric Sieverts Ecabo, november 2011
nog wat diversen .... waar zijn "cache" en "vergelijkbaar" van Google gebleven? links daarvoor zitten nu in pop-up previews rechts cache: versie van site ten tijde van indexering vergelijkbaar: pagina's die "erop lijken" gebruik van metazoekmachines voor snel vergelijken van resultaten voor spelden in hooiberg online o.a.: Ixquick, Dogpile, Yippy of Polymeta desktop: Copernic agent ook gespecialiseerde: Searchgov (USA), Worldwidescience, ... zie ook Browsys-finder Eric Sieverts Ecabo, november 2011
attendering op nieuwe resultaten indien ingelogd, kun je bij Google "alerts" starten op basis van zoekvragen (per e-mail of RSS) indien ingelogd, kun je in de zoekgeschiedenis oude zoekvragen terugzoeken en opnieuw uitvoeren (daarin zie je ook wat je uit oude resultaat hebt bekeken) bij interessante pagina's veranderingen bijhouden met page-alerts/spionnen: Copernic Tracker / Website Watcher (desktop) Watchthatpage / TrackEngine (online diensten) RSS feed-reader toont automatisch nieuwe afleveringen van geselecteerde nieuwsbronnen en weblogs en nieuwe resultaten uit sommige zoeksystemen Eric Sieverts Ecabo, november 2011
beheer van zoekacties / resultaten in browser: bookmarks, favorieten zoekgeschiedenis webgeschiedenis (met Google account) desktop metasearch tool administreert lokaal je acties: Copernic Agent social bookmarks: Delicious, Diigo, Pinboard, .... social scientific bookmarks: CiteUlike, Connotea, Bibsonomy, .... bibliographic bookmarks (lokaal + "in the cloud"): Mendeley, RefWorks (€), Zotero (firefox add-on), .... knipsels, bookmarks, copieën bewaren in Evernote Eric Sieverts Ecabo, november 2011