1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 1 november 2006 Wageningen
2
3
4 Kenmerken zoekexpert Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica Zorgvuldig gebruik zoektools Snelheid Reflectie op eigen zoekproces
5 Zoeksystematiek 1.Vraaganalyse 2.Verkenning 3.Opstellen zoekprofiel: waaraan moet de informatie voldoen 4.Keuze ingang(en): zoekmachines, directories, bookmarksites 5.Daadwerkelijk zoeken en selecteren 6.Beoordeling bron 7.Nabewerking per relevante bron 8.Eventueel andere ingangen of geheel andere typen bronnen (gedrukte literatuur, deskundigen) 9.Expliciete reflectie op zoekproces en zoekresultaat 10.Bij doorlopende interesse evt. web en page alerts/feeds instellen
6 Vraaganalyse Opdrachtgever: wat wil men met de informatie? Voorwaarden aan aard van informatie (onderzoek, opinie, peer reviewed, actualiteit etc.) Randvoorwaarden: tijd, geld, vertrouwelijkheid Rapportagevorm (inhoudelijk, technisch)
7 Verkenning Welke vraag/onderwerp Wat ligt er al, nuttig als uitgangspunt? Inhoudelijk verkennen (via bv Wikipedia of ander naslagwerk of via korte zoekactie) Ideeën opdoen qua context, jargon, zoektermen, typen bronnen, auteurs
8 Zoekprofiel Onderscheiden elementen (variabelen) Welke? Allebei even belangrijk? Vooraf genereren zoektermen Uit reeds gevonden bronnen Uit naslagwerken/zoekacties van verkenningsfase Uit woordenboeken, thesauri (Het juiste woord, Roget’s Thesaurus) Afbakening in tijd, ruimte, speciale omstandigheden waaronder een proces moet spelen Relevante typen informatie en publicaties Relevante publicatieperiode
9 Keuze zoekingang Bepaald door zoekprofiel: onderwerp, type informatie, type publicatie, relevante publicatiejaren Bepaald door beschikbaarheid: toegankelijkheid, kosten, licenties Bepaald door extra wensen: –Zoekmethode: catalogus-, bibliografische, sneeuwbal(citatie)methode (op het web: zoekmachines, gidsen/directories, backlinks) –Zoeken in full-text, links naar full-text Ook letten op volgorde ingangen (dekking, bekendheid, selectiviteit) Zie voor links naar ingangen de ‘startpagina’ bij deze cursus
10 Daadwerkelijk zoeken Bij zoekmachine input zoektermen en instellingen, bij gids klikken in hiërarchie of ook zoeken met zoektermen Eén of meer keren snelle beoordeling zoekresultaat en aanpassing termen/instellingen Selectie uit resultaat: waarnaar kijken? Evaluatie gevonden bron: waarop letten?
11 Beoordeling bron Formeel (vooral bij websites): –Aanduiding maker/auteur (“about us”) –Aanduiding postadres, telefoonnummer –Aanduiding doel/doelgroep –Goede opmaak –Geen reclame en pop-ups –Heldere navigatie –Interne zoekfunctie –Voldoende snelheid server –Backlinks door gezaghebbende organisaties –Up to date? –Zinnige datering inhoud –Geen grof taalgebruik –Geen kinderlijk taalgebruik –Geen storende taalfouten Inhoudelijk (vooral bij reguliere publicaties) –Status bron (peer reviewed, uitgever, gezaghebbende instantie) –Plaats in citatienetwerk (door wie, hoe vaak) –Bronvermelding (voldoende, geen kernpublicaties gemist)
12 Nabewerking per (relevante) bron opslaan (mail, document, endnote/refworks e.d) versturen (handmatig, vanuit systeem) bookmark (browser, del.icio.us) alert/spion RSS-feed Komt op vierde dag apart aan de orde
13 Reflectie Hoeveel gevonden in hoeveel tijd? Voldoet oogst aan zoekprofiel? Welke aspecten van zoekprofiel waren meest selectief? Waren alle vooraf bedachte ingangen even nuttig? Wat was de overlap tussen de ingangen? Goede volgorde ingangen gehanteerd? Iets geleerd over eigen sterke/zwakke punten?
14 domeinen soorten top-level-domains (TLD) iso-3166iso-3166 –generiek: com / org / net (vrij) int / edu / gov / mil / arpa (beperkt) –landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%) –jump: tv / nu / to / tk –nieuw: biz/info/name/coop/pro/aero generieke ‘subtopleveldomeinen’: co / gob / ac / org etc. (zie bv.
15 opbouw URL protocol : // servernaam. subdomein. domein. TLD / map / filenaam. extensie http : // www. library. uu. nl / geosource / index. html
16 URL’s van databasepagina’s /scan?VALUE=geografische+huis&SCAN=TIT bin/advsearch?offset=40&terms=3&type=any&query=utre cht&exec=FAST+Search&lang=any&enco=iso &A1=+&A2=%2B&A3=-&hits=10&nooc=on
17 Inhoud WWW: aanbieders Bedrijven Overheid Internationale organisaties Verenigingen, actiegroepen Universiteiten Bibliotheken Uitgevers Particulieren
18 zoektools: wanneer wat? indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk: zoekmachines indien zoekvraag breed, exploratief, inventariserend, met weinig voorkennis, met relatief veel tijd: onderwerpsgidsen
19 Onderwerpsgidsen: algemeen + geen zoektermen nodig vaak actueel annotaties weinig ruis - onvolledig dode links voorkeur maker houdt groei niet bij voor homepages
20 Onderwerpsgidsen: breed internationaal/VS: –Open Directory (in Gigablast extra zoekfuncties hiervoor)Open Directory –YahooYahoo Nederlands: –startpagina+dochters en concurrentenstartpaginadochters –startnederland (meta-gids)startnederland
21 Onderwerpsgidsen: gespecialiseerd Miljoenen Breed wetenschappelijk: Infomine, BUBL Zoeken: –via Yahoo (per onderwerp onder ‘webdirectories’) –via Open Directory of Startnederland –via RDN (wetenschappelijk) –via Pinakes (wetenschappelijk) Tijd besteden aan vinden van goede onderwerpsgidsen: –via collegae –via discussielijsten
22 Zoekmachines: dekking > 15% van de webpagina’s in geen enkele van de grootste zoekmachines Van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% ( size/ ) dekking zeer ongelijkmatig verschil in actualiteit
23 Zoekmachines: ontwikkeling Webcrawler, Lycos, Alta Vista (10) concurrentie Hotbot, Excite, Yahoo (50) 1997 Northern Light, MSN, sterke groei web > opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o.a. (100) 2002 komst Teoma, Wisenut, Gigablast (1000) 2003 renaissance AV, glorietijd Google (3000) 2004 consolidatie/concurrentie (4000) : –Google+Blogger, verbreding: boeken, kritiek, beursgang –Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW –Microsoft: introductie MSNsearch beta: zelf indexeren 2005 verbreding/innovatie/content ( ) –Samenwerking content providers-zoekmachines? –Opkomst vijfde grote speler, Amazon met A9? –Doorgroei Gigablast (2000) 2006 puur zoeken raakt op achtergrond, uploaden, gemengde content, specifieke diensten ( )
24 Zoekmachines: wat vind je niet? recente webpagina’s/wijzigingen dynamisch gegenereerde pagina’s informatie in databases pagina’s met no robots file pagina’s met toegangsrestricties verdwenen pagina’s (maar: cache en Wayback Machine archive.org)
25 Zoekmachines: beperkingen Google genest Booleaans zoeken > Yahoo/Live/Exalead/Gigablast backlinksindex vrij klein > Yahoo zeer grote pagina’s niet volledig geïndexeerd > Yahoo truncatie en patroonzoeken > Exalead
26 kwaliteit van de invoer in zoekmachines, termen 1.belang van juiste zoektermen 2.spellingsvarianten en truncatie (alleen nog Exalead, hoewel…) 3.denken in termen van het te vinden document, gebruik zinsnedes 4.gebruik van algemene thesauri (Het juiste woord en Roget's) en evt. gespecialiseerde thesauri bij het zoeken naar alternatieve zoektermen, Word-synoniemen 5.gewicht aanbrengen met zoektermherhaling in Google 6.gebruik van speciale termen (evt slang) om te beperken tot een specifieke context waarin term moet voorkomen 7.gebruik van gesuggereerde termen (o.a. Google Suggest / Gigablast) 8.inschatten effect gebruikte termen op basis van resultaat 9.gevaar effect combineren gespecialiseerde en algemene termen 10. voorbeeldzoeken versus generiek zoeken voor opsommingen
27 Relatieve omvang, april 2006 A9 ExaleadGigablast Google MSNsearch ScirusAskYahoo! Nederlands algemeen fietsenstalling poldermodel Terschelling Schylge wad VMBO onderwijs "van de hak op de tak" gemiddelde Engels/internationaal algemeen production Cairo Coptic zenith aardvark MI5 submarine "read my lips" gemiddelde
28 lunchpauze Vervolg 13:30