De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

zoektechnieken voor zoekmachines op internet

Verwante presentaties


Presentatie over: "zoektechnieken voor zoekmachines op internet"— Transcript van de presentatie:

1 zoektechnieken voor zoekmachines op internet
Eric Sieverts Universiteitsbibliotheek Utrecht & opleiding Media, Informatie & Communicatie (HVA) Ecabo, november 2011

2 programma Internet zoekstrategieën/zoeksystematiek
Dekking van zoekmachines / not just Google Ranking van zoekmachines Zoekresultaten kwantitatief Gebruik zoektermen Google Translated search Booleaans zoeken Speciale tekens, getallen en exact zoeken Zoeken op velden / link zoeken Filteren op formele kenmerken Automatische attendering Beheer van zoekacties/zoekresultaten Eric Sieverts Ecabo, november 2011

3 systematische aanpak Vraaganalyse: wat zoek ik eigenlijk + speciale randvoorwaarden Verkenning Opstellen zoekprofiel: waaraan moet informatie voldoen, zoekwoorden Keuze bronnen/zoektools: zoekmachine, database, ... Daadwerkelijk zoeken: gebruik syntax en opties van zoektool Noteren afwijkingen van zoekplan, zijpaadjes, bevindingen Selectie uit zoekresultaat Evaluatie Nabewerking per relevante bron: beheren, citeren, delen Eventueel andere ingangen (verder zoeken op gevonden auteur, links) of geheel andere typen bronnen (gedrukte literatuur, deskundigen) Expliciete reflectie op zoekproces en zoekresultaat Bij doorlopende interesse event. instellen van web en page alerts / feeds Eric Sieverts Ecabo, november 2011

4 dekking (omvang) van zoekmachines
> 15% van webpagina’s in geen van grote zoekmachines van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% (2005) geen betrouwbare recentere cijfers mijn inschatting: Google nu iets kleiner dan Yahoo ? Google nu iets groter dan Bing ? maar nu: Yahoo==Bing ! Google nu ~10x zo groot als kleinere dekking zeer ongelijkmatig verschil in actualiteit verschil in dekking  verschil in ranking (vaak zeer weinig overlap bij eerste 10) Eric Sieverts Ecabo, november 2011

5

6 andere algemene zoekmachines
probeer naast Google eens: Bing (microsoft, groot) Yahoo! (content=Bing, groot) Exalead (frans, tamelijk klein, veel geavanceerde functies) Gigablast ("groene" zoekmachine, tamelijk klein, paar unieke functies) Blekko ("hashtags" om [domein-]selectiever te kunnen zoeken) DuckDuckGo (verzekert privacy, geen personalisatie, tamelijk klein) Ask (tamelijk klein, weinig unieks meer) in US hebben die samen nog 30% marktaandeel; in NL maar 3% Eric Sieverts Ecabo, november 2011

7 ranking: Google's pagerank
pagerank van pagina x is: PR(x) = (1-d) + d* {PR(yx) / C(y)} y elke "pagina y" die naar pagina x linkt draagt bij aan die som  PR(yx) = pagerank van pagina y die naar x linkt [link vanuit pagina die zelf hoge pagerank heeft, draagt meer bij] C(y) = aantal links in pagina y [link vanuit pagina die erg veel links bevat, draagt minder bij] d = "dempingsfactor" (ong. 0.85) waardoor: 0.15  PR(x)   Eric Sieverts Ecabo, november 2011

8 ranking: inhoudelijke factoren
pagerank is pas van belang als zoekwoord-gerelateerde (inhoudelijke) factoren weinig bepalend zijn, zoals: pagina relevanter als zoekwoord in titel pagina relevanter als zoekwoord in URL pagina relevanter als zoekwoord in koppen <H1> <H2> pagina relevanter als zoekwoord meer in begin van tekst pagina relevanter als zoekwoord daarin vaker wordt herhaald pagina relevanter als zoekwoorden daarin dicht bij elkaar pagina relevanter als zoekwoorden daarin in zelfde volgorde zeldzaam zoekwoord is belangrijker dan heel algemeen pagina relevanter als zoekwoord ook vaak voorkomt in tekst van verwijzende hyperlinks pagina relevanter als gebruiker eerder soortgelijke pagina's bekeek .... Eric Sieverts Ecabo, november 2011

9 aantallen resultaten van zoekmachines
gemelde resultaataantallen zijn vaak zeer onbetrouwbaar bij Google (en andere) zijn vermelde aantallen zeer onbetrouwbaar, niet stabiel, met soms onverklaarbare effecten inperken geeft soms groter aantal, uitbreiden kleiner aantal afhankelijk van verdeling index over servers Google afhankelijk van Google versie / ingelogd zijn / zoekgeschiedenis afhankelijk van keuze “your part of the world” bij Bing Danny Sullivan legt uit waarom Google niet kan tellen: Why Google Can’t Count Results Properly Eric Sieverts Ecabo, november 2011

10 gebruik zoektermen .... belang van "juiste" zoektermen:
denk in termen van het te vinden document (wat zou in relevant document staan?) spellingvarianten, enkel-meervoud-werkwoord (zelf bedenken of automatisch - Google) truncatie (alleen Exalead) alternatieve zoektermen / synoniemen: soms automatisch bij Google te vinden met "thesauri" / synoniemenlijsten (mijnwoordenboek, synoniemen.net, Roget's, answers.com, Bartleby) te vinden via synoniemen uit Word-tekstverwerker te vinden door te kijken in wat al is gevonden .... Eric Sieverts Ecabo, november 2011

11 gebruik zoektermen denk in termen van het te vinden document
(hoe zou het in relevant document staan?) .... "exact phrase"  losse woorden woordnabijheid: met term-wildcard ( * ) bij Google & Yahoo "veiligheid * * tunnels" met NEAR bij Yahoo, Bing, Exalead veiligheid NEAR tunnels met AROUND(n) bij Google veiligheid AROUND(4) tunnels eventueel een phrase van losse woorden (zonder "") ! invloed van volgorde van losse woorden op ranking (zie: Thumbshots – Ranking) Eric Sieverts Ecabo, november 2011

12

13 gebruik zoektermen denk in termen van het te vinden document
(hoe zou het in relevant document staan?) .... voor opsomming: generiek zoeken vs. voorbeeld zoeken (“overzicht amerikaanse presidenten" vs. "clinton, johnson, reagan, obama, lincoln, ..." ) gebruik context-specifieke zoektermen (event. slang, jargon) om te beperken tot specifieke context waarin onderwerp moet voorkomen (populair  wetenschappelijk ; volwassenentaal  jeugdtaal) gewicht specifieke term verhogen door herhaling (Google) Eric Sieverts Ecabo, november 2011

14 gebruik zoektermen belang van "juiste" zoektermen:
gebruik van gesuggereerde termen vooraf: Google, Bing, Yahoo, Exalead achteraf inperken: Ask, Exalead, Gigablast, Scirus Eric Sieverts Ecabo, november 2011

15 Booleaanse combinaties
gebruik van booleaanse operatoren om woorden te koppelen AND beide woorden gelijktijdig aanwezig computer AND bibliotheek OR minstens één van de woorden aanwezig fiets OR rijwiel NOT woorden uitsluiten greenhouse NOT climatic change NB: bij webzoekmachines altijd hoofdletters gebruiken voor die operatoren Eric Sieverts Ecabo, november 2011

16 Booleaanse combinaties
veelgebruikte basis voor gestructureerde opzet van zoekstrategieën is "bouwsteenmethode": bepaal de samenstellende concepten van je vraag bedenk voor elk concept mogelijke zoekwoorden veiligheid lange tunnels veilig onveiligheid beveiliging veiligheidsmaatregelen .... lang lengte ... verkeerstunnels autotunnels spoortunnels OR OR AND AND Eric Sieverts Ecabo, november 2011

17 Booleaans combineren bij zoekmachines
bijzonderheden van Booleaans bij Google & Yahoo: je mag de AND's weglaten hier gaat -nogal uitzonderlijk- OR voor AND je hoeft dus geen haakjes te gebruiken je moet i.p.v. "NOT" per losse term - (min)teken gebruiken voorbeelden: veilig  OR  veiligheid  tunnels  OR  autotunnels  -spoortunnels   i.p.v. (veilig OR veiligheid) AND (tunnels OR autotunnels) NOT spoortunnels "lange tunnels OR autotunnels" i.p.v. "lange tunnels" OR "lange autotunnels" wat helemaal NIET kan bij Google/Yahoo: (veiligheid AND autotunnels) OR (safety AND "car tunnels") Eric Sieverts Ecabo, november 2011

18 Booleaans combineren bij zoekmachines
maar Booleaans bij Bing je moet WEL haakjes gebruiken bij OR je mag ook NOT gebruiken dus wel: (veilig OR veiligheid) AND (tunnels OR autotunnels) NOT spoortunnels of (veilig OR veiligheid) (tunnels OR autotunnels) NOT spoortunnels maar weer geen: "lange tunnels OR autotunnels" dat moet voluit: "lange tunnels" OR "lange autotunnels" Eric Sieverts Ecabo, november 2011

19 Booleaanse bouwsteencombinatie
bouwsteencombinaties met AND's en OR's (veilig OR veiligheid) AND lange AND (tunnels OR autotunnels OR verkeerstunnels) stapsgewijze opbouwen bij Google zoek op termen voor eerste bouwsteen:   veilig OR veiligheid als Google-instant "aan" staat, zie je meteen al het resultaat (zonder op [search] te hoeven klikken) tik gewoon door met termen voor tweede bouwsteen; lange je ziet meteen weer het resultaat tik door met termen voor derde concept:     tunnels OR autotunnels OR verkeerstunnels enz. resultaat: Eric Sieverts Ecabo, november 2011

20 zoektermen: Google denkt voor ons
Google probeert de zoekvraag te verbeteren / verbreden automatische spellingcorrecties (veilgheid >> veiligheid) zoekt op woorden met dezelfde woordstam (enkel-/meervoud, werkwoordsvormen, vervoegingen, verbuigingen) spellingvarianten en afko's (color >> colour | wwii >> world war II) voegt synoniemen van woorden toe (vaccination >> immunization) bij losse zoekwoorden ook samengestelde term en omgekeerd (veiligheid maatregel >> veiligheidsmaatregel | catfood >> cat food) maakt soms een term optional als die niet discriminerend genoeg is dit alles wat vaker en uitgebreider in Engels dan in Nederlands personaliseert zoekactie op basis van eerder zoek/browse-gedrag en als je dat nou niet wilt >> "verbatim" Eric Sieverts Ecabo, november 2011

21

22 verbatim == "woordelijk"
vorige week nieuw geïntroduceerde optie verbatim == "woordelijk" NB: nog NIET op google.nl

23

24 zoektermen: taalaspecten
taalvoorkeuze eigenlijk alleen belangrijk bij taalonafhankelijke begrippen en eigennamen taalinstelling; bij Google verschil tussen zoekresultaattaal interfacetaal landsversie (pas op: ook bij Bing “… a search experience tailored to your part of the world” !) automatische vertaling: Google.com language tools, met translated search! of Yahoo-BabelFish of Systran of Bing Translator maken ook verschil voor ranking van resultaten Eric Sieverts Ecabo, november 2011

25 zoeken in taal die je niet kent
Google "translated search" / "vertaalde zoekopdracht" kies in welke talen je resultaten wilt zoeken kies in welke taal jij je zoekvraag intikt bekijk in jouw taal terugvertaalde resultatenlijst bekijk in jouw taal terugvertaalde pagina's controleer zo nodig hoe het er oorspronkelijk uitzag Eric Sieverts Ecabo, november 2011

26

27 vertaalt Nederlandse zoekvraag in aangevinkte taal en vertaalt daarmee gevonden resultaten weer terug naar het Nederlands

28

29

30 speciale tekens, getallen en exact zoeken
woordstam-zoeken voorkomen met "" of met Verbatim ( "greenhouses" <geeft NIET> greenhouse effect ) zoeken naar leestekens kan niet zoeken naar alle getallen die binnen een range vallen ( of $10..$20, uniek voor Google) getallen werken net als woorden, maar: komma wordt gelezen als spatie, net als andere leestekens (12,93  , maar 100,000 wel  ) punt kan wel (12.93  12.93) Eric Sieverts Ecabo, november 2011

31 zoeken in "velden" nuttig voor gerelateerde informatie
nuttig als resultaat niet specifiek genoeg bijv. als woord in elke pagina in navigatiebalk voorkomt zoek op woord(en) in paginatitel intitle:agenda (limitering/syntax niet aangeboden in geavanceerd zoekscherm) zoek op woord in URL inurl:telefoonlijst nuttig voor gerelateerde informatie zoeken via backlinks (koppelingen naar …) : link:url maar pas op: Google geeft beperkt resultaat Eric Sieverts Ecabo, november 2011

32 filteren op formele kenmerken
filters op formele vereisten, meestal in "geavanceerd zoekscherm" : taal, datum, domein, land/werelddeel, bestandstype, media, ... domein (site) : meervoudig sitefilter (bij Gigablast of je moet Google-syntax kennen) in gewone zoekscherm kan met Google-syntax vaak meer dan in voorgeprogrammeerde “advanced search”; bijv.: site:microsoft.com OR site:google.com | filetype:rss selectie vooraf vs. achteraf inperken via "facetten" (onder "more search tools" in google.com veel meer dan in google.nl) op datum zoeken .... >> Eric Sieverts Ecabo, november 2011

33 zoeken / filteren op datum
op datum beperken : = meestal datum van -recentste- indexering door zoekmachine (niet werkelijke datum van publicatie) in advanced search biedt Google (vooraf) keuze tussen past 24 hours / week / month / year bij Google resultaat achteraf in te perken op periode (facetten in linker kolom):  "custom range" / "aangepaste periode" - "from: .. to: .." hoe datum van publicatie van gevonden pagina te controleren? soms werkt: javascript:alert(document.lastModified) Eric Sieverts Ecabo, november 2011

34 nog wat diversen .... waar zijn "cache" en "vergelijkbaar" van Google gebleven? links daarvoor zitten nu in pop-up previews rechts cache: versie van site ten tijde van indexering vergelijkbaar: pagina's die "erop lijken" gebruik van metazoekmachines voor snel vergelijken van resultaten voor spelden in hooiberg online o.a.: Ixquick, Dogpile, Yippy of Polymeta desktop: Copernic agent ook gespecialiseerde: Searchgov (USA), Worldwidescience, ... zie ook Browsys-finder Eric Sieverts Ecabo, november 2011

35 attendering op nieuwe resultaten
indien ingelogd, kun je bij Google "alerts" starten op basis van zoekvragen (per of RSS) indien ingelogd, kun je in de zoekgeschiedenis oude zoekvragen terugzoeken en opnieuw uitvoeren (daarin zie je ook wat je uit oude resultaat hebt bekeken) bij interessante pagina's veranderingen bijhouden met page-alerts/spionnen: Copernic Tracker / Website Watcher (desktop) Watchthatpage / TrackEngine (online diensten) RSS feed-reader toont automatisch nieuwe afleveringen van geselecteerde nieuwsbronnen en weblogs en nieuwe resultaten uit sommige zoeksystemen Eric Sieverts Ecabo, november 2011

36 beheer van zoekacties / resultaten
in browser: bookmarks, favorieten zoekgeschiedenis webgeschiedenis (met Google account) desktop metasearch tool administreert lokaal je acties: Copernic Agent social bookmarks: Delicious, Diigo, Pinboard, .... social scientific bookmarks: CiteUlike, Connotea, Bibsonomy, .... bibliographic bookmarks (lokaal + "in the cloud"): Mendeley, RefWorks (€), Zotero (firefox add-on), .... knipsels, bookmarks, copieën bewaren in Evernote Eric Sieverts Ecabo, november 2011


Download ppt "zoektechnieken voor zoekmachines op internet"

Verwante presentaties


Ads door Google