De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 4 november 2014 Wageningen.

Verwante presentaties


Presentatie over: "1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 4 november 2014 Wageningen."— Transcript van de presentatie:

1 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 4 november 2014 Wageningen

2 2

3 3

4 4

5 5 Kenmerken zoekexpert Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica (“verzamelingenleer”) Zorgvuldig gebruik zoektools Snelheid (m.n. bij selecteren en evalueren) Reflectie op eigen zoekproces (bv met reverse search)

6 6 Deel I: keuzes in het zoekproces

7 7 Zoeksystematiek 1.Vraaganalyse Wensen ‘opdrachtgever’ Verkenning Opstellen zoekprofiel: waaraan moet de informatie voldoen, genereren zoektermen 2.Aanbod Keuze ingang(en): zoekmachines, databases, gidsen, bookmarksites 3.Match Daadwerkelijk zoeken (gebruik syntax, opties en filters) Selecteren (is het relevant?) 4.Nabewerking per relevante bron Evaluatie (is het goed genoeg?) Opslaan, printen, delen Eventueel doorzoeken via auteurs en verwijzingen uit gevonden bronnen 5.Nabewerking zoekactie geheel Bij doorlopende interesse evt. web en page alerts/feeds instellen Expliciete reflectie op zoekproces en zoekresultaat 6.Vervolg op zoekactie Eventueel andere ingangen of geheel andere typen bronnen (gedrukte literatuur, deskundigen)

8 8 Vraaganalyse 1: wensen opdrachtgever Opdrachtgever: wat wil men met de informatie? Voorwaarden aan aard van informatie (onderzoek, opinie, peer reviewed, actualiteit etc.) Randvoorwaarden: tijd, geld, vertrouwelijkheid Rapportagevorm (inhoudelijk, technisch)

9 9 Vraaganalyse 2: Verkenning Welke vraag/onderwerp Wat ligt er al, nuttig als uitgangspunt? Inhoudelijk verkennen (via bv Wikipedia of ander naslagwerk of via korte zoekactie) Ideeën opdoen qua context, jargon, zoektermen, typen bronnen, auteurs

10 10 Vraaganalyse 3: Zoekprofiel Onderscheiden elementen (variabelen) Welke? Allebei even belangrijk? Vooraf genereren zoektermen Uit reeds gevonden bronnen Uit naslagwerken/zoekacties van verkenningsfase Uit woordenboeken, thesauri (Het juiste woord, Roget’s Thesaurus) Uit keyword facets in bv. Scopus Afbakening in tijd, ruimte, speciale omstandigheden waaronder een proces moet spelen Relevante typen informatie en publicaties Relevante publicatieperiode

11 11 Aanbod: Keuze zoekingang Bepaald door zoekprofiel: onderwerp, type informatie, type publicatie, relevante publicatiejaren, disciplinair perspectief Bepaald door beschikbaarheid: toegankelijkheid, kosten, licenties Bepaald door extra wensen: –Zoekmethode: catalogus-, bibliografische, sneeuwbal(citatie)methode (op het web: zoekmachines, gidsen/directories, backlinks) –Zoeken in full-text, links naar full-text Ook letten op volgorde ingangen (dekking, bekendheid, selectiviteit, + afh. van doel) Zie voor links naar ingangen de ‘startpagina’ bij deze cursusstartpagina

12 12 Match 1: Zoektermen ingeven Let op woordvarianten en spelling: Varianten in OR-relatie of: Trunceren: alles wat met woordstam begint (niet op web) Automatische “stemming” en meer bij Google Oxford-English of American–English (s/z, ou/o) Samenstellingen in Engels los: kwaliteitscontrole > quality control Denken in termen van het te vinden document (jargon/slang), gebruik zinsnedes / exact phrase met “… …” Bij Google: wildcard binnen exact phrase “… * …” Bij Google: verbatim/woord-voor-woord zoeken

13 13 Match 2: zoektermen ingeven, vv. Gebruik termsuggesties –voor zoekactie: Google, Exalead, Bing, Yahoo –termen uit gevonden goede webpagina’s –hulpmiddelen: thesaurus, synoniemenwoordenb. (startpag.) BingGoogleYahoo

14 14 Match 3: zoektermen ingeven, vv. Gewicht aanbrengen met zoektermherhaling in Google Voorbeeldzoeken voor ‘lijstjes’ Iteratief proces: één of meer keren snelle beoordeling zoekresultaat en aanpassing termen/instellingen –Aantallen treffers (in webzoekmachines): wel letten op veranderingen, niet op absolute niveau

15 15 Match 4: Selectie op relevantie Wat voor rangorde hebben de resultaten? De rangorde: beïnvloeden, vertrouwen of alles bekijken? Kijk naar meer dan titels: –bij boeken/artikelen: samenvattingen citaties omvang (bv LexisNexis) –bij web: KWIC domein/organisatie wel/niet PDF omvang (bv. bij images en video) info rich snippets (bv. organisaties)

16 16 Nabewerking per bron 1: beoordeling Formeel (vooral bij websites): –Aanduiding maker/auteur (“about us”) –Aanduiding postadres, telefoonnummer –Aanduiding doel/doelgroep –Goede opmaak –Geen reclame en pop-ups –Heldere navigatie –Interne zoekfunctie –Voldoende snelheid server –Backlinks door gezaghebbende organisaties –Up to date? –Zinnige datering inhoud –Geen grof taalgebruik –Geen kinderlijk taalgebruik –Geen storende taalfouten Beoordeling door anderen –Status bron (peer reviewed, uitgever, gezaghebbende instantie) –Affiliatie auteur –Plaats in citatienetwerk (door wie, hoe vaak) Zelf, inhoudelijk –Bronvermelding (voldoende, geen kernpublicaties gemist) –Opbouw, argumentatie, methode, verantwoording

17 17 Nabewerking per bron 2: opslaan (mail, document, Endnote / Refworks / Mendeley / Zotero / Evernote / Diigo e.d.) versturen (handmatig, vanuit systeem) bookmark (browser, Delicious, CiteUlike, ‘like’, +) alert/spion (donderdag) RSS-feed )met Feedly, Digg etc…. of Outlook

18 18 Vervolg op zoekactie: Reflectie Hoeveel gevonden in hoeveel tijd? Voldoet oogst aan zoekprofiel? Welke aspecten van zoekprofiel waren meest selectief? Waren alle vooraf bedachte ingangen even nuttig? Wat was de overlap tussen de ingangen? Goede volgorde ingangen gehanteerd? Wat had de zoekvraag moeten zijn om het beste gevonden document direct te vinden (reverse earch) Iets geleerd over eigen sterke/zwakke punten?

19 19 Deel II: Structuur van het web

20 20 Er is wel structuur: domeinen soorten top-level-domains (TLD) iso-3166iso-3166 –generiek: com / org / net (vrij) int / edu / gov / mil / arpa (beperkt) –landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%) –jump: tv / nu / to / tk –nieuw: biz/info/name/coop/pro/aero/museum/mobi generieke ‘subtopleveldomeinen’: co / gob / ac / org etc. (zie http://www.iana.org/domains/root/db/http://www.iana.org/domains/root/db/ en http://www.whois365.com/en/listtld/gtld )http://www.whois365.com/en/listtld/gtld per 2009 ook URL’s in niet-Latijns schrift

21 21 opbouw URL protocol : // servernaam. subdomein. domein. TLD / map / filenaam. extensie http : // libguides. library. uu. nl / evalueren

22 22 URL’s van databasepagina’s http://aleph.library.uu.nl/F/HDRH5QK8UGC775UMSMU4 4VT2GSG5VD5VKEI6FMCCN7G75L75LG-04490?func=find- b&find_code=WRD&request=geografische+huis&adjacent =N&x=43&y=11http://aleph.library.uu.nl/F/HDRH5QK8UGC775UMSMU4 4VT2GSG5VD5VKEI6FMCCN7G75L75LG-04490?func=find- b&find_code=WRD&request=geografische+huis&adjacent =N&x=43&y=11 http://www.google.nl/search?as_q=vogin+wageningen&h l=nl&rlz=1R2MEDC_nlNL330&num=10&btnG=Google+zoe ken&as_epq=&as_oq=&as_eq=&lr=lang_nl&cr=&as_ft=i& as_filetype=pdf&as_qdr=all&as_occt=any&as_dt=i&as_sit esearch=&as_rights=&safe=images

23 23 zoektools: wanneer wat? indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk: zoekmachines indien zoekvraag breed, exploratief, inventariserend, met weinig voorkennis, met relatief veel tijd: onderwerpsgidsen, door mensen gemaakte overzichten

24 24 “Onderwerpsgidsen”: plus en min + geen zoektermen nodig vaak actueel annotaties weinig ruis - onvolledig dode links voorkeur maker houdt groei niet bij voor homepages

25 25 Onderwerpsgidsen Alle onderwerpen: Open Directory Nederlands: startpagina, meta: startnederland Breed wetenschappelijk: Infomine Gericht op onderwijs: IPL2 (niet meer browseable), Scout report Web2.0-variant: Digg (nieuws) Sociaal met voting: Reddit Zoeken van gidsen: –via Open Directory –via Pinakes (wetenschappelijke gidsen) –vragen aan collegae, via discussielijsten, twitter etc.

26 26 Zoekmachines: dekking > 15% van de webpagina’s in geen enkele van de grootste zoekmachines van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, Live/Bing 62% ( http://www.cs.uiowa.edu/~asignori/web-size/ ) ( http://www.cs.uiowa.edu/~asignori/web-size/ ) overlap eerste pagina slechts 10% (Spink studie 2006)Spink studie 2006 dekking zeer ongelijkmatig verschil in actualiteit

27 27 Zoekmachines: ontwikkeling 1994 Webcrawler, Lycos, Alta Vista (10) 1995 concurrentie Hotbot, Excite, Yahoo (50) 1997 Northern Light, MSN, sterke groei web > 200 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o.a. (100) 2002 komst Teoma, Wisenut, Gigablast (1000) 2003 renaissance AV, glorietijd Google (3000) 2004 consolidatie/concurrentie (4000) : –Google+Blogger, verbreding: boeken, kritiek, beursgang –Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW –Microsoft: introductie MSNsearch beta: zelf indexeren 2005 verbreding/innovatie/content (5000-10000) –Samenwerking content providers-zoekmachines? –Teoma wordt Ask en opkomst Amazon met A9 –Doorgroei Gigablast (2000) 2006-2007 puur zoeken raakt op achtergrond (20000-40000) –Live gelanceerd, YouTube gekocht –uploaden, web 2.0 –gemengde content (Google universal, iGoogle bv.) –specifieke diensten (Google CSE bv) 2008 Google universal verder ingevoerd (>100000) 2009 Nieuwe zoekmachine van Microsoft: Bing (>400000) 2010 Yahoo stopt eigen index; Instant search en preview bij Google (>800000) 2011 Groei Blekko / Google+ en effect op rest Google 2012 Pinterest / Facebook in search 2013 Google Now 2014 Yahoo stopt met directory

28 28 Zoekmachines: wat vind je niet? recente webpagina’s/wijzigingen dynamisch gegenereerde pagina’s informatie in databases pagina’s met no robots file pagina’s met toegangsrestricties verdwenen pagina’s maar: –Cache (bij Google onde driehoekje –Wayback Machine archive.org –kleinere archiveringsprojecten KB en BL

29 29 Zoekmachines: beperkingen Google genest Booleaans zoeken > Bing/Exalead + niet bruikbaar voor exact search van 1 woord Truncatie (maar elders op web ook niet) zoekgeschiedenis zonder inloggen: Bing webpagina’s met audio: Exalead

30 30 Land/taalversies Google Interfacetaal –beïnvloedt ook (ranking) resultaat! Taalinstelling zoekactie –voorkeuren eenmalig of ‘implied’ door zoekterm Landsversie: –beïnvloedt ranking sterk –ncr: no country redirect –Let ook bij Bing op landsinstelling: alleen VS versie heeft alle functionaliteit

31 Personalisation/localisation Localisatie effect sterker dan personalisatie Effect beperken: –Voeg "&pws=0“ toe om in Google personalisation uit te zetten –Gebruik een Chrome incognito window –Log niet in –Zet locatie in mobiel apparaat uit 31


Download ppt "1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 4 november 2014 Wageningen."

Verwante presentaties


Ads door Google