De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Ecabo, november 2011 Eric Sieverts Universiteitsbibliotheek Utrecht & opleiding Media, Informatie & Communicatie (HVA) zoektechnieken voor zoekmachines.

Verwante presentaties


Presentatie over: "Ecabo, november 2011 Eric Sieverts Universiteitsbibliotheek Utrecht & opleiding Media, Informatie & Communicatie (HVA) zoektechnieken voor zoekmachines."— Transcript van de presentatie:

1 Ecabo, november 2011 Eric Sieverts Universiteitsbibliotheek Utrecht & opleiding Media, Informatie & Communicatie (HVA) zoektechnieken voor zoekmachines op internet

2 programma Internet zoekstrategieën/zoeksystematiek Dekking van zoekmachines / not just Google Ranking van zoekmachines Zoekresultaten kwantitatief Gebruik zoektermen Google Translated search Booleaans zoeken Speciale tekens, getallen en exact zoeken Zoeken op velden / link zoeken Filteren op formele kenmerken Automatische attendering Beheer van zoekacties/zoekresultaten Ecabo, november 2011 Eric Sieverts

3 systematische aanpak 1.Vraaganalyse: wat zoek ik eigenlijk + speciale randvoorwaarden 2.Verkenning 3.Opstellen zoekprofiel: waaraan moet informatie voldoen, zoekwoorden 4.Keuze bronnen/zoektools: zoekmachine, database,... 5.Daadwerkelijk zoeken: gebruik syntax en opties van zoektool 6.Noteren afwijkingen van zoekplan, zijpaadjes, bevindingen 7.Selectie uit zoekresultaat 8.Evaluatie 9.Nabewerking per relevante bron: beheren, citeren, delen 10.Eventueel andere ingangen (verder zoeken op gevonden auteur, links) of geheel andere typen bronnen (gedrukte literatuur, deskundigen) 11.Expliciete reflectie op zoekproces en zoekresultaat 12.Bij doorlopende interesse event. instellen van web en page alerts / feeds Ecabo, november 2011 Eric Sieverts

4 dekking (omvang) van zoekmachines > 15% van webpagina’s in geen van grote zoekmachines van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% (2005 ) geen betrouwbare recentere cijfers mijn inschatting: Google nu iets kleiner dan Yahoo ? Google nu iets groter dan Bing ? maar nu: Yahoo==Bing ! Google nu ~10x zo groot als kleinere dekking zeer ongelijkmatig verschil in actualiteit verschil in dekking  verschil in ranking (vaak zeer weinig overlap bij eerste 10) Ecabo, november 2011 Eric Sieverts

5

6 andere algemene zoekmachines probeer naast Google eens:Google Bing (microsoft, groot)Bing Yahoo! (content=Bing, groot)Yahoo! Exalead (frans, tamelijk klein, veel geavanceerde functies)Exalead Gigablast ("groene" zoekmachine, tamelijk klein, paar unieke functies)Gigablast Blekko ("hashtags" om [domein-]selectiever te kunnen zoeken)Blekko DuckDuckGo (verzekert privacy, geen personalisatie, tamelijk klein)DuckDuckGo Ask (tamelijk klein, weinig unieks meer)Ask in US hebben die samen nog 30% marktaandeel; in NL maar 3% Ecabo, november 2011 Eric Sieverts

7 ranking: Google's pagerank Ecabo, november 2011 Eric Sieverts pagerank van pagina x is: PR(x) = (1-d) + d*  {PR(y  x) / C(y)} y elke "pagina y" die naar pagina x linkt draagt bij aan die som  PR(y  x) = pagerank van pagina y die naar x linkt [link vanuit pagina die zelf hoge pagerank heeft, draagt meer bij] C(y) = aantal links in pagina y [link vanuit pagina die erg veel links bevat, draagt minder bij] d = "dempingsfactor" (ong. 0.85) waardoor:0.15  PR(x)  

8 ranking: inhoudelijke factoren pagerank is pas van belang als zoekwoord-gerelateerde (inhoudelijke) factoren weinig bepalend zijn, zoals: pagina relevanter als zoekwoord in titel pagina relevanter als zoekwoord in URL pagina relevanter als zoekwoord in koppen pagina relevanter als zoekwoord meer in begin van tekst pagina relevanter als zoekwoord daarin vaker wordt herhaald pagina relevanter als zoekwoorden daarin dicht bij elkaar pagina relevanter als zoekwoorden daarin in zelfde volgorde zeldzaam zoekwoord is belangrijker dan heel algemeen pagina relevanter als zoekwoord ook vaak voorkomt in tekst van verwijzende hyperlinks pagina relevanter als gebruiker eerder soortgelijke pagina's bekeek.... Ecabo, november 2011 Eric Sieverts

9 aantallen resultaten van zoekmachines gemelde resultaataantallen zijn vaak zeer onbetrouwbaar bij Google (en andere) zijn vermelde aantallen zeer onbetrouwbaar, niet stabiel, met soms onverklaarbare effecten –inperken geeft soms groter aantal, uitbreiden kleiner aantal –afhankelijk van verdeling index over servers Google –afhankelijk van Google versie / ingelogd zijn / zoekgeschiedenis –afhankelijk van keuze “your part of the world” bij Bing Danny Sullivan legt uit waarom Google niet kan tellen: Why Google Can’t Count Results Properly Ecabo, november 2011 Eric Sieverts

10 gebruik zoektermen belang van "juiste" zoektermen: denk in termen van het te vinden document (wat zou in relevant document staan?) –spellingvarianten, enkel-meervoud-werkwoord (zelf bedenken of automatisch - Google) –truncatie (alleen Exalead) –alternatieve zoektermen / synoniemen: soms automatisch bij Google te vinden met "thesauri" / synoniemenlijsten (mijnwoordenboek, synoniemen.net, Roget's, answers.com, Bartleby)mijnwoordenboeksynoniemen.netRoget's answers.comBartleby te vinden via synoniemen uit Word-tekstverwerker te vinden door te kijken in wat al is gevonden –.... Ecabo, november 2011 Eric Sieverts

11 gebruik zoektermen denk in termen van het te vinden document (hoe zou het in relevant document staan?) –.... –"exact phrase"  losse woorden –woordnabijheid: met term-wildcard ( * ) bij Google & Yahoo "veiligheid * * tunnels" met NEAR bij Yahoo, Bing, Exalead veiligheid NEAR tunnels met AROUND(n) bij Google veiligheid AROUND(4) tunnels –eventueel een phrase van losse woorden (zonder "") ! invloed van volgorde van losse woorden op ranking (zie: Thumbshots – Ranking)Thumbshots – Ranking –.... Ecabo, november 2011 Eric Sieverts

12

13 gebruik zoektermen denk in termen van het te vinden document (hoe zou het in relevant document staan?) –.... –voor opsomming: generiek zoeken vs. voorbeeld zoeken (“overzicht amerikaanse presidenten" vs. "clinton, johnson, reagan, obama, lincoln,..." ) –gebruik context-specifieke zoektermen (event. slang, jargon) om te beperken tot specifieke context waarin onderwerp moet voorkomen (populair  wetenschappelijk ; volwassenentaal  jeugdtaal) –gewicht specifieke term verhogen door herhaling (Google) –.... Ecabo, november 2011 Eric Sieverts

14 gebruik zoektermen belang van "juiste" zoektermen: –gebruik van gesuggereerde termen vooraf: Google, Bing, Yahoo, Exalead achteraf inperken: Ask, Exalead, Gigablast, Scirus Ecabo, november 2011 Eric Sieverts

15 Booleaanse combinaties gebruik van booleaanse operatoren om woorden te koppelen –AND beide woorden gelijktijdig aanwezig computer AND bibliotheek –OR minstens één van de woorden aanwezig fiets OR rijwiel –NOT woorden uitsluiten greenhouse NOT climatic change NB:bij webzoekmachines altijd hoofdletters gebruiken voor die operatoren Ecabo, november 2011 Eric Sieverts

16 Booleaanse combinaties veelgebruikte basis voor gestructureerde opzet van zoekstrategieën is "bouwsteenmethode": –bepaal de samenstellende concepten van je vraag –bedenk voor elk concept mogelijke zoekwoorden Ecabo, november 2011 Eric Sieverts veiligheidlangetunnels veiligheid veilig onveiligheid beveiliging veiligheidsmaatregelen.... lang lengte... tunnels verkeerstunnels autotunnels spoortunnels.... OR AND

17 Booleaans combineren bij zoekmachines bijzonderheden van Booleaans bij Google & Yahoo: je mag de AND's weglaten hier gaat -nogal uitzonderlijk- OR voor AND je hoeft dus geen haakjes te gebruiken je moet i.p.v. "NOT" per losse term - (min)teken gebruiken voorbeelden: veilig OR veiligheid tunnels OR autotunnels -spoortunnels i.p.v. (veilig OR veiligheid) AND (tunnels OR autotunnels) NOT spoortunnels "lange tunnels OR autotunnels" i.p.v. "lange tunnels" OR "lange autotunnels" wat helemaal NIET kan bij Google/Yahoo: (veiligheid AND autotunnels) OR (safety AND "car tunnels") Ecabo, november 2011 Eric Sieverts

18 Booleaans combineren bij zoekmachines maar Booleaans bij Bing je moet WEL haakjes gebruiken bij OR je mag ook NOT gebruiken dus wel: (veilig OR veiligheid) AND (tunnels OR autotunnels) NOT spoortunnels of (veilig OR veiligheid) (tunnels OR autotunnels) NOT spoortunnels maar weer geen: "lange tunnels OR autotunnels" dat moet voluit: "lange tunnels" OR "lange autotunnels" Ecabo, november 2011 Eric Sieverts

19 Booleaanse bouwsteencombinatie bouwsteencombinaties met AND's en OR's (veilig OR veiligheid) AND lange AND (tunnels OR autotunnels OR verkeerstunnels) stapsgewijze opbouwen bij Google zoek op termen voor eerste bouwsteen: veilig OR veiligheid als Google-instant "aan" staat, zie je meteen al het resultaat (zonder op [search] te hoeven klikken) tik gewoon door met termen voor tweede bouwsteen; lange je ziet meteen weer het resultaat tik door met termen voor derde concept: tunnels OR autotunnels OR verkeerstunnels enz. resultaat: (veilig OR veiligheid) AND lange AND (tunnels OR autotunnels OR verkeerstunnels) Ecabo, november 2011 Eric Sieverts

20 zoektermen: Google denkt voor ons Google probeert de zoekvraag te verbeteren / verbreden automatische spellingcorrecties (veilgheid >> veiligheid) zoekt op woorden met dezelfde woordstam (enkel-/meervoud, werkwoordsvormen, vervoegingen, verbuigingen) spellingvarianten en afko's (color >> colour | wwii >> world war II) voegt synoniemen van woorden toe (vaccination >> immunization) bij losse zoekwoorden ook samengestelde term en omgekeerd (veiligheid maatregel >> veiligheidsmaatregel | catfood >> cat food) maakt soms een term optional als die niet discriminerend genoeg is dit alles wat vaker en uitgebreider in Engels dan in Nederlands personaliseert zoekactie op basis van eerder zoek/browse-gedrag en als je dat nou niet wilt >> "verbatim" Ecabo, november 2011 Eric Sieverts

21

22 vorige week nieuw geïntroduceerde optie verbatim == "woordelijk" NB: nog NIET op google.nl

23

24 zoektermen: taalaspecten taalvoorkeuze eigenlijk alleen belangrijk bij taalonafhankelijke begrippen en eigennamen taalinstelling; bij Google verschil tussen –zoekresultaattaal –interfacetaal –landsversie (pas op: ook bij Bing “… a search experience tailored to your part of the world” !) automatische vertaling: Google.com language tools, met translated search! of Yahoo-BabelFish of Systran of Bing Translator Ecabo, november 2011 Eric Sieverts maken ook verschil voor ranking van resultaten

25 zoeken in taal die je niet kent Google "translated search" / "vertaalde zoekopdracht" kies in welke talen je resultaten wilt zoeken kies in welke taal jij je zoekvraag intikt bekijk in jouw taal terugvertaalde resultatenlijst bekijk in jouw taal terugvertaalde pagina's controleer zo nodig hoe het er oorspronkelijk uitzag Ecabo, november 2011 Eric Sieverts

26

27 vertaalt Nederlandse zoekvraag in aangevinkte taal en vertaalt daarmee gevonden resultaten weer terug naar het Nederlands

28

29

30 speciale tekens, getallen en exact zoeken woordstam-zoeken voorkomen met "" of met Verbatim ( "greenhouses" greenhouse effect ) zoeken naar leestekens kan niet zoeken naar alle getallen die binnen een range vallen ( of $10..$20, uniek voor Google) getallen werken net als woorden, maar: –komma wordt gelezen als spatie, net als andere leestekens (12,93  12 93, maar 100,000 wel  ) –punt kan wel (12.93  12.93) Ecabo, november 2011 Eric Sieverts

31 zoeken in "velden" nuttig als resultaat niet specifiek genoeg bijv. als woord in elke pagina in navigatiebalk voorkomt zoek op woord(en) in paginatitel intitle:agenda (limitering/syntax niet aangeboden in geavanceerd zoekscherm) zoek op woord in URL inurl:telefoonlijst (limitering/syntax niet aangeboden in geavanceerd zoekscherm) nuttig voor gerelateerde informatie zoeken via backlinks (koppelingen naar …) : link:url maar pas op: Google geeft beperkt resultaat Ecabo, november 2011 Eric Sieverts

32 filteren op formele kenmerken filters op formele vereisten, meestal in "geavanceerd zoekscherm" : taal, datum, domein, land/werelddeel, bestandstype, media,... domein (site) : meervoudig sitefilter (bij Gigablast of je moet Google-syntax kennen)Gigablast in gewone zoekscherm kan met Google-syntax vaak meer dan in voorgeprogrammeerde “advanced search”; bijv.: site:microsoft.com OR site:google.com | filetype:rss selectie vooraf vs. achteraf inperken via "facetten" (onder "more search tools" in google.com veel meer dan in google.nl) op datum zoeken.... >> Ecabo, november 2011 Eric Sieverts

33 zoeken / filteren op datum op datum beperken : = meestal datum van -recentste- indexering door zoekmachine (niet werkelijke datum van publicatie) in advanced search biedt Google (vooraf) keuze tussen past 24 hours / week / month / year bij Google resultaat achteraf in te perken op periode (facetten in linker kolom):  "custom range" / "aangepaste periode" - "from:.. to:.." hoe datum van publicatie van gevonden pagina te controleren? Ecabo, november 2011 Eric Sieverts soms werkt: javascript:alert(document.lastModified)javascript:alert(document.lastModified)

34 nog wat diversen.... waar zijn "cache" en "vergelijkbaar" van Google gebleven? links daarvoor zitten nu in pop-up previews rechts cache: versie van site ten tijde van indexering vergelijkbaar: pagina's die "erop lijken" gebruik van metazoekmachines voor snel vergelijken van resultaten voor spelden in hooiberg online o.a.: Ixquick, Dogpile, Yippy of PolymetaIxquickDogpileYippyPolymeta desktop: Copernic agentCopernic agent ook gespecialiseerde: Searchgov (USA), Worldwidescience,... SearchgovWorldwidescience zie ook Browsys-finderBrowsys-finder Ecabo, november 2011 Eric Sieverts

35 attendering op nieuwe resultaten indien ingelogd, kun je bij Google "alerts" starten op basis van zoekvragen (per of RSS)"alerts" indien ingelogd, kun je in de zoekgeschiedenis oude zoekvragen terugzoeken en opnieuw uitvoerenzoekgeschiedenis (daarin zie je ook wat je uit oude resultaat hebt bekeken) bij interessante pagina's veranderingen bijhouden met page-alerts/spionnen : –Copernic Tracker / Website Watcher (desktop)Copernic Tracker –Watchthatpage / TrackEngine (online diensten)WatchthatpageTrackEngine RSS feed-reader toont automatisch nieuwe afleveringen van geselecteerde nieuwsbronnen en weblogs en nieuwe resultaten uit sommige zoeksystemen Ecabo, november 2011 Eric Sieverts

36 beheer van zoekacties / resultaten in browser: –bookmarks, favorieten –zoekgeschiedenis webgeschiedenis (met Google account) desktop metasearch tool administreert lokaal je acties: Copernic Agent Copernic Agent social bookmarks: Delicious, Diigo, Pinboard,....DeliciousDiigoPinboard social scientific bookmarks: CiteUlike, Connotea, Bibsonomy,....CiteUlikeConnotea Bibsonomy bibliographic bookmarks (lokaal + "in the cloud"): Mendeley, RefWorks ( € ), Zotero (firefox add-on),.... MendeleyRefWorksZotero knipsels, bookmarks, copieën bewaren in EvernoteEvernote Ecabo, november 2011 Eric Sieverts


Download ppt "Ecabo, november 2011 Eric Sieverts Universiteitsbibliotheek Utrecht & opleiding Media, Informatie & Communicatie (HVA) zoektechnieken voor zoekmachines."

Verwante presentaties


Ads door Google