Keuzes in het zoekproces en structuur van het web

Slides:



Advertisements
Verwante presentaties
Inleiding Na het bestuderen van dit hoofdstuk kun je:
Advertisements

RSI? zoeken naar de in de e-hooiberg >
De catalogus: verrijking door toegevoegde functionaliteit & toegevoegde functionaliteit door verrijking Jeroen Bosman, universiteitsbibliotheek Utrecht.
1 Bestandkeuze en zoekstrategieën nieuws Jeroen Bosman VOGIN, 18 mei 2011 Wageningen.
7 sep 04 pag. 1 Zoeken op Internet © 2004 Be Value BV Zoeken op Internet Bert Plat.
1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen.
Internet als informatiebron
LITERATUUR ONDERZOEK.
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken
Basishandleiding Limo Meer info online via LIMO Help 1.
Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management Hogeschool van Amsterdam DARE zomerschool - juni Tilburg.
Google Scholar de googlificatie van de wetenschap ? Eric Sieverts
Bibliotheekinstructie
1 Nieuwe (on)mogelijkheden webzoekmachines Jeroen Bosman VOGIN, 16 mei 2011 Wageningen.
1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 16 november 2010 Wageningen.
1 Nieuwe (on)mogelijkheden webzoekmachines Jeroen Bosman VOGIN, 16 november 2009 Wageningen.
1 Bestandkeuze en zoekstrategieën nieuws Jeroen Bosman VOGIN, 23 november 2009 Wageningen.
1 Nieuwe (on)mogelijkheden zoekmachines Jeroen Bosman VOGIN, 4 juni 2009 Wageningen.
1 Bijblijven met het web: attenderingen en spionnen Jeroen Bosman VOGIN, 21 november 2013 Wageningen.
1 realtime & social: blogs & tweets Jeroen Bosman VOGIN, Wageningen, 16 mei 2013.
1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 20 november 2012 Wageningen.
1 Bestandkeuze en zoekstrategieën nieuws Jeroen Bosman VOGIN, 17 november 2011 Wageningen.
1 Weblogs, RSS en tweets zoeken Jeroen Bosman VOGIN, 20 mei 2010 Wageningen.
1 Nieuwe (on)mogelijkheden webzoekmachines Jeroen Bosman VOGIN, 16 november 2010 Wageningen.
1 Nieuwe (on)mogelijkheden webzoekmachines Jeroen Bosman VOGIN, 18 mei 2010 Wageningen.
1 RSS, weblogs en tweets zoeken Jeroen Bosman VOGIN, 23 november 2009 Wageningen.
1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 1 november 2006 Wageningen.
1 Keuzes in het zoekproces Jeroen Bosman VOGIN, 7 juni 2006 Wageningen.
Opsporen en beheren onderwijskundige literatuur Literatuurzoeken: aandachtspunten Kritisch lezen Opfrissen ERIC, PsycINFO Web of Science Opfrissen EndNote.
Informatievaardigheden Welkom bij de introductie INFORMATIEVAARDIGHEDEN Mediatheek PTH Zoeken, verwerken en beoordelen van relevante informatie
Workshop Informatievaardigheden Propedeuse FHSS Mediatheek TF.
Together, We Can LexisNexis Academic 2009 Chris Vastenhoud.
1 realtime and social: blogs & tweets, FB & G+ Jeroen Bosman VOGIN, 17 november 2011 Wageningen.
 Website faculteitsbibliotheek  Zoekmachine LIMO: boeken, artikels, eindwerken, tijdschrifttitels, kranten Bibliotheek Sociale Wetenschappen Introductie.
Bibliotheek Sociale Wetenschappen Introductie tot het zoeken  Website faculteitsbibliotheek  Catalogus LIBISng: boeken, eindwerken, tijdschriften  Databanken:artikels.
Website Mediacentrum Hogeschool Leiden:
1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 4 november 2014 Wageningen.
Human Geography (SAL-10306) Informatievaardigheden
realtime & social: blogs & tweets
Informatievaardigheden Ecologie-2 (NCP-20503) september/oktober 2012 Corrie van Zeist, Liza Bruggenkamp, Marco van Veller, Wouter Gerritsma en Ans Brouwer.
Universiteit Leiden. Bij ons leer je de wereld kennen. Wetenschappelijke literatuur Bibliotheekinstructie als onderdeel Studievaardigheden Hans Fransen,
Informatievaardigheden
Informatievaardigheden
Informatievaardigheden YAS Inleiding in de Dierwetenschappen 25 en 27 september 2012, Marja Maclaine Pont & Annemie Kersten.
Informatievaardigheden Corrie van Zeist, Marco van Veller, Ans Brouwer en Wouter Gerritsma September 2009.
Inhoud Presentatie 1. Probleemstelling onderzoek 2. Wat is een search engine? 3. Geschiedenis van search engines 4. Hoe werkt een search engine? 5. Welke.
Informatievaardigheden NCP Ecologie II Corrie van Zeist, Marco van Veller, Ans Brouwer en Wouter Gerritsma Bibliotheek Wageningen UR September 2009.
Informatievaardigheden NCP Ecologie II
Literatuur zoeken. VOORBEREIDING - Wat wil je weten? - Wat is de exacte zoekvraag? - Welke aspecten wil je uitzoeken? - Zet de vraag om in zoektermen.
Blackboard Diensten Mediacentrum Instructies “Thuis toegang tot de databanken” Print deze instructie uit en volg de aanwijzingen op.
Informatievaardigheden Corrie van Zeist en Marco van Veller September 2008.
Informatievaardigheden Corrie van Zeist September 2007.
Informatievaardigheden Bedrijfs- en Consumentenwetenschappen
1 Bijblijven met het web: attenderingen en spionnen Jeroen Bosman VOGIN, 6 november 2014 Wageningen.
1 Bijblijven met het web: RSS, attenderingen en trackers Jeroen Bosman VOGIN, 3 november 2006 Wageningen.
4/15/2015 | 1 Bibliotheekinstructie Informatiekunde 2014.
Informatievaardigheden Introductie BPE-10806
Academic Search Premier Bewaren van resultaten: mailen, printen, opslaan Universiteitsbibliotheek verder = klikken.
INFORMATIEVAARDIGHEDEN SAW B.Wydooghe L. Gheysen C. Neckebroeck.
Zoekstrategie VOGIN najaar 2015 Zoekstrategie. Effectief en efficiënt zoeken Zoekstrategie VOGIN najaar 2015.
1 realtime & social: blogs & tweets Jeroen Bosman VOGIN, 19 november 2015 Wageningen.
1 Bijblijven met het web: attenderingen en spionnen Jeroen Bosman VOGIN, 19 november 2015 Wageningen.
Inhoud van deze handleiding Wat is Limo Werken in Limo Om optimaal te werken: meld je aan in LIMOmeld je aan in LIMO Thuiswerken = gebruik de EZProxyEZProxy.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
1 Philosopher’s Index Handleiding Philosopher’s Index.
Social bookmarking Evy Mertens Maud Schyns Laurent Mulliez Lien Staelens.
Surfen op het internet Basisbegrippen
realtime & social: blogs & tweets
Bijblijven met het web: attenderingen en spionnen
Introductie Bibliotheek
Transcript van de presentatie:

Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 10 mei 2016 Wageningen

Kenmerken zoekexpert Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica (“verzamelingenleer”) Zorgvuldig gebruik zoektools Snelheid (m.n. bij selecteren en evalueren) Reflectie op eigen zoekproces (bv met reverse search)

Deel I: keuzes in het zoekproces

Zoeksystematiek Vraaganalyse Aanbod Match Wensen ‘opdrachtgever’ Verkenning Opstellen zoekprofiel: waaraan moet de informatie voldoen, genereren zoektermen Aanbod Keuze zoeksysteem: zoekmachines, databases, gidsen, bookmarksites Match Daadwerkelijk zoeken (gebruik syntax, opties en filters) Selecteren (is het relevant?) Nabewerking per relevante bron Evaluatie (is het goed genoeg?) Opslaan, printen, delen Eventueel doorzoeken via auteurs en verwijzingen uit gevonden bronnen Nabewerking zoekactie geheel Bij doorlopende interesse evt. web en page alerts/feeds instellen Expliciete reflectie op zoekproces en zoekresultaat Vervolg op zoekactie Eventueel andere ingangen of geheel andere typen bronnen (gedrukte literatuur, deskundigen)

Vraaganalyse 1: wensen opdrachtgever Opdrachtgever: wat wil men met de informatie? Voorwaarden aan aard van informatie (onderzoek, opinie, peer reviewed, actualiteit etc.) Randvoorwaarden: tijd, geld, vertrouwelijkheid Rapportagevorm (inhoudelijk, technisch)

Vraaganalyse 2: Verkenning Welke vraag/onderwerp Wat ligt er al, nuttig als uitgangspunt? Inhoudelijk verkennen (via bv Wikipedia of ander naslagwerk of via korte zoekactie) Ideeën opdoen qua context, jargon, zoektermen, typen bronnen, auteurs

Vraaganalyse 3: Zoekprofiel Onderscheiden elementen (variabelen) Welke? Allebei even belangrijk? Vooraf genereren zoektermen Uit reeds gevonden bronnen Uit naslagwerken/zoekacties van verkenningsfase Uit woordenboeken Uit vak- of algemene thesauri (Het juiste woord, Roget’s Thesaurus) Uit keyword facets in bv. Scopus Afbakening in tijd, ruimte, speciale omstandigheden waaronder een proces moet spelen Relevante typen informatie en publicaties Relevante publicatieperiode

Aanbod: Keuze zoeksysteem Bepaald door zoekprofiel: onderwerp, type informatie, type publicatie, relevante publicatiejaren, disciplinair perspectief Bepaald door beschikbaarheid: toegankelijkheid, kosten, licenties Bepaald door extra wensen: Zoekmethode: catalogus-, bibliografische, sneeuwbal(citatie)methode (op het web: zoekmachines, gidsen/directories, backlinks) Zoeken in full-text, links naar full-text Ook letten op volgorde ingangen (dekking, bekendheid, selectiviteit, + afh. van doel) Zie voor links naar ingangen de ‘startpagina’ bij deze cursus

Match 1: Zoektermen ingeven Let op woordvarianten en spelling: Varianten in OR-relatie of: Trunceren: alles wat met woordstam begint (niet op web) Automatische “stemming” en meer bij Google Oxford-English of American–English (s/z, ou/o) Samenstellingen in Engels los: kwaliteitscontrole > quality control Denken in termen van het te vinden document (jargon/slang), gebruik zinsnedes / exact phrase met “… …” Bij Google: wildcard binnen exact phrase “… * …” Bij Google: verbatim/woord-voor-woord zoeken

Match 2: zoektermen ingeven, vv. Gebruik termsuggesties voor zoekactie: Google, Exalead, Bing, Yahoo termen uit gevonden goede webpagina’s hulpmiddelen: thesaurus, synoniemenwoordenb. (startpag.) Bing Google Yahoo

Match 3: zoektermen ingeven, vv. Gewicht aanbrengen met zoektermherhaling in Google Voorbeeldzoeken voor ‘lijstjes’ Iteratief proces: één of meer keren snelle beoordeling zoekresultaat en aanpassing termen/instellingen Aantallen treffers (in webzoekmachines): wel letten op veranderingen, niet op absolute niveau

Recall & precision recall precision 30% 50% 60% 25% 100% 100%

Match 4: Selectie op relevantie Wat voor rangorde hebben de resultaten? De rangorde: beïnvloeden, vertrouwen of alles bekijken? Kijk naar meer dan titels: bij boeken/artikelen: samenvattingen citaties omvang (bv LexisNexis) bij web: KWIC domein/organisatie wel/niet PDF omvang (bv. bij images en video) info rich snippets (bv. organisaties)

Nabewerking per bron 1: beoordeling Formeel (vooral bij websites): Aanduiding maker/auteur (“about us”) Aanduiding postadres, telefoonnummer Aanduiding doel/doelgroep Goede opmaak Geen reclame en pop-ups Heldere navigatie Interne zoekfunctie Voldoende snelheid server Backlinks door gezaghebbende organisaties Up to date? Zinnige datering inhoud Geen grof taalgebruik Geen kinderlijk taalgebruik Geen storende taalfouten Beoordeling door anderen Status bron (peer reviewed, uitgever, gezaghebbende instantie) Affiliatie auteur Plaats in citatienetwerk (door wie, hoe vaak) Zelf, inhoudelijk Bronvermelding (voldoende, geen kernpublicaties gemist) Opbouw, argumentatie, methode, verantwoording

Nabewerking per bron 2: opslaan (mail, document, Endnote / Refworks / Mendeley / Zotero / Evernote / Diigo e.d.), zie vgl. in UU LibGuides doorsturen vanuit systeem bookmark (browser, Delicious, CiteUlike, ‘like’, +) alert/spion (donderdag) RSS-feed) met Feedly, Digg etc…. of Outlook

Vervolg op zoekactie: Reflectie Hoeveel gevonden in hoeveel tijd? Voldoet oogst aan zoekprofiel? Welke aspecten van zoekprofiel waren meest selectief? Waren alle vooraf bedachte ingangen even nuttig? Wat was de overlap tussen de ingangen? Goede volgorde ingangen gehanteerd? Wat had de zoekvraag moeten zijn om het beste gevonden document direct te vinden (reverse earch) Iets geleerd over eigen sterke/zwakke punten?

Deel II: Structuur van het web

Er is wel structuur: domeinen soorten top-level-domains (TLD) iso-3166 generiek: com / org / net (vrij) int / edu / gov / mil / arpa (beperkt) landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%) jump: tv / nu / to / tk nieuw: biz/info/name/coop/pro/aero/museum/mobi generieke ‘subtopleveldomeinen’: co / gob / ac / org etc. (zie http://www.iana.org/domains/root/db/ en http://www.whois365.com/en/listtld/gtld) per 2009 ook URL’s in niet-Latijns schrift

opbouw URL protocol : // servernaam . subdomein . domein . TLD / map / filenaam . extensie http : // libguides. library . uu . nl / evalueren

URL’s van databasepagina’s http://aleph.library.uu.nl/F/HDRH5QK8UGC775UMSMU44VT2GSG5VD5VKEI6FMCCN7G75L75LG-04490?func=find-b&find_code=WRD&request=geografische+huis&adjacent=N&x=43&y=11 http://www.google.nl/search?as_q=vogin+wageningen&hl=nl&rlz=1R2MEDC_nlNL330&num=10&btnG=Google+zoeken&as_epq=&as_oq=&as_eq=&lr=lang_nl&cr=&as_ft=i&as_filetype=pdf&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=&as_rights=&safe=images

“Onderwerpsgidsen” Alle onderwerpen: Open Directory Nederlands: startpagina, meta: startnederland Web2.0-variant: Digg (nieuws) Sociaal met voting&discussie: Reddit Gericht op wetenschappelijke tools en data: DiRT (Humanities) SciCrunch (Life Science) 400+ tools and innovations (alle) Zoeken van gidsen: via Open Directory vragen aan collegae, via discussielijsten, twitter etc.

Zoekmachines: dekking > 15% van de webpagina’s in geen enkele van de grootste zoekmachines van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, Live/Bing 62% (http://www.cs.uiowa.edu/~asignori/web-size/) overlap eerste pagina slechts 10% (Spink studie 2006) dekking zeer ongelijkmatig verschil in actualiteit

Zoekmachines: ontwikkeling 1994 Webcrawler, Lycos, Alta Vista (10) 1995 concurrentie Hotbot, Excite, Yahoo (50) 1997 Northern Light, MSN, sterke groei web > 200 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o.a. (100) 2002 komst Teoma, Wisenut, Gigablast (1000) 2003 renaissance AV, glorietijd Google (3000) 2004 consolidatie/concurrentie (4000): Google+Blogger, verbreding: boeken, kritiek, beursgang Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW Microsoft: introductie MSNsearch beta: zelf indexeren 2005 verbreding/innovatie/content (5000-10000) Samenwerking content providers-zoekmachines? Teoma wordt Ask en opkomst Amazon met A9 Doorgroei Gigablast (2000) 2006-2007 puur zoeken raakt op achtergrond (20000-40000) Live gelanceerd, YouTube gekocht uploaden, web 2.0 gemengde content (Google universal, iGoogle bv.) specifieke diensten (Google CSE bv) 2008 Google universal verder ingevoerd (>100000) 2009 Nieuwe zoekmachine van Microsoft: Bing (>400000) 2010 Yahoo stopt eigen index; Instant search en preview bij Google (>800000) 2011 Groei Blekko / Google+ en effect op rest Google 2012 Pinterest / Facebook in search 2013 Google Now 2014 Yahoo stopt met directory 2015 weer minder opties Google, int. doorbraak Yandex?

Zoekmachines: wat vind je niet? recente webpagina’s/wijzigingen dynamisch gegenereerde pagina’s informatie in databases pagina’s met no robots file pagina’s met toegangsrestricties verdwenen pagina’s maar: Cache (bij Google onder driehoekje) Wayback Machine archive.org Memento Time Travel kleinere archiveringsprojecten KB en BL pagina’s behoeden voor verdwijning: Wayback / WebCite

Zoekmachines: beperkingen Google geen genest Booleaans zoeken → Bing/Exalead geen truncatie (maar elders op web ook niet) geen zoekgeschiedenis zonder inloggen: → Bing geen harde Boolean meer (→ Bing, Yandex) beperkte proximity search (→Yandex)

Land/taalversies Google Interfacetaal beïnvloedt ook (ranking) resultaat! Taalinstelling zoekactie voorkeuren eenmalig of ‘implied’ door zoekterm Landsversie: beïnvloedt ranking sterk ncr: no country redirect Let ook bij Bing op landsinstelling: alleen VS versie heeft alle functionaliteit

Personalisation/localisation Localisatie effect sterker dan personalisatie Effect beperken: Voeg "&pws=0“ toe om in Google personalisation uit te zetten Gebruik een Chrome incognito window Log niet in Zet locatie in mobiel apparaat uit Gebruik verbatim optie Gebruik Yandex