De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen.

Verwante presentaties


Presentatie over: "1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen."— Transcript van de presentatie:

1 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

2 2

3 3

4 4 Kenmerken zoekexpert Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica Zorgvuldig gebruik zoektools Snelheid Reflectie op eigen zoekproces

5 5 Zoeksystematiek 1.Vraaganalyse Wensen ‘opdrachtgever’ Verkenning Opstellen zoekprofiel: waaraan moet de informatie voldoen 2.Aanbod Keuze ingang(en): zoekmachines, databases, gidsen, bookmarksites 3.Match Daadwerkelijk zoeken Selecteren 4.Nabewerking per relevante bron Evaluatie Opslaan, printen, delen Eventueel doorzoeken via auteurs en verwijzingen uit gevonden bronnen 5.Nabewerking zoekactie geheel Bij doorlopende interesse evt. web en page alerts/feeds instellen Expliciete reflectie op zoekproces en zoekresultaat 6.Vervolg op zoekactie Eventueel andere ingangen of geheel andere typen bronnen (gedrukte literatuur, deskundigen) Reflectie

6 6 Vraaganalyse 1: wensen opdrachtgever Opdrachtgever: wat wil men met de informatie? Voorwaarden aan aard van informatie (onderzoek, opinie, peer reviewed, actualiteit etc.) Randvoorwaarden: tijd, geld, vertrouwelijkheid Rapportagevorm (inhoudelijk, technisch)

7 7 Vraaganalyse 2: Verkenning Welke vraag/onderwerp Wat ligt er al, nuttig als uitgangspunt? Inhoudelijk verkennen (via bv Wikipedia of ander naslagwerk of via korte zoekactie) Ideeën opdoen qua context, jargon, zoektermen, typen bronnen, auteurs

8 8 Vraaganalyse 3: Zoekprofiel Onderscheiden elementen (variabelen) Welke? Allebei even belangrijk? Vooraf genereren zoektermen Uit reeds gevonden bronnen Uit naslagwerken/zoekacties van verkenningsfase Uit woordenboeken, thesauri (Het juiste woord, Roget’s Thesaurus) Afbakening in tijd, ruimte, speciale omstandigheden waaronder een proces moet spelen Relevante typen informatie en publicaties Relevante publicatieperiode

9 9 Aanbod: Keuze zoekingang Bepaald door zoekprofiel: onderwerp, type informatie, type publicatie, relevante publicatiejaren Bepaald door beschikbaarheid: toegankelijkheid, kosten, licenties Bepaald door extra wensen: –Zoekmethode: catalogus-, bibliografische, sneeuwbal(citatie)methode (op het web: zoekmachines, gidsen/directories, backlinks) –Zoeken in full-text, links naar full-text Ook letten op volgorde ingangen (dekking, bekendheid, selectiviteit) Zie voor links naar ingangen de ‘startpagina’ bij deze cursusstartpagina

10 10 Match 1: Daadwerkelijk zoeken Let op woordvarianten en spelling: Varianten in OR-relatie of: Trunceren: alles wat met woordstam begint (alleen Exalead) Automatische “stemming” (enkel-/meervoud enz. bij Google?) Oxford-English of American–English (s/z, ou/o) Samenstellingen in Engels los: kwaliteitscontrole > quality control Denken in termen van het te vinden document (jargon/slang), gebruik zinsnedes / exact phrase met “… …” Gebruik termsuggesties –voor zoekactie Yahoo, Google Suggest –na zoekactie: Ask, Exalead, Quintura Gewicht aanbrengen met zoektermherhaling in Google Voorbeeldzoeken voor ‘lijstjes’ Iteratief proces: één of meer keren snelle beoordeling zoekresultaat en aanpassing termen/instellingen –Aantallen treffers: wel letten op veranderingen, niet op absolute niveau

11 11 Match 2: Selectie op relevantie De rangorde: beïnvloeden, vertrouwen of alles bekijken? Meer dan titels, bij boeken/artikelen: samenvattingen citaties omvang (bv LexisNexis) Bij web: domein/organisatie wel/niet PDF omvang (in KB, vooral zinnig bij PDF)

12 12 Nabewerking per bron I: beoordeling Formeel (vooral bij websites): –Aanduiding maker/auteur (“about us”) –Aanduiding postadres, telefoonnummer –Aanduiding doel/doelgroep –Goede opmaak –Geen reclame en pop-ups –Heldere navigatie –Interne zoekfunctie –Voldoende snelheid server –Backlinks door gezaghebbende organisaties –Up to date? –Zinnige datering inhoud –Geen grof taalgebruik –Geen kinderlijk taalgebruik –Geen storende taalfouten Inhoudelijk (vooral bij reguliere publicaties) –Status bron (peer reviewed, uitgever, gezaghebbende instantie) –Plaats in citatienetwerk (door wie, hoe vaak) –Bronvermelding (voldoende, geen kernpublicaties gemist)

13 13 Nabewerking per bron II: opslaan (mail, document, endnote/refworks/zotero e.d) versturen (handmatig, vanuit systeem) bookmark (browser, delicious, connotea, citeUlike etc.) alert/spion RSS-feed

14 14 Vervolg op zoekactie: Reflectie Hoeveel gevonden in hoeveel tijd? Voldoet oogst aan zoekprofiel? Welke aspecten van zoekprofiel waren meest selectief? Waren alle vooraf bedachte ingangen even nuttig? Wat was de overlap tussen de ingangen? Goede volgorde ingangen gehanteerd? Iets geleerd over eigen sterke/zwakke punten?

15 15 Systematisch zoeken: toegepast op internetzoeken

16 16 domeinen soorten top-level-domains (TLD) iso-3166iso-3166 –generiek: com / org / net (vrij) int / edu / gov / mil / arpa (beperkt) –landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%) –jump: tv / nu / to / tk –nieuw: biz/info/name/coop/pro/aero generieke ‘subtopleveldomeinen’: co / gob / ac / org etc. (zie bv. http://www.derbal.com/domains.html) http://www.derbal.com/domains.html

17 17 opbouw URL protocol : // servernaam. subdomein. domein. TLD / map / filenaam. extensie http : // www. library. uu. nl / geosource / index. html

18 18 URL’s van databasepagina’s http://hardy.library.uu.nl:4505/ALEPH0/SESSION660676 04868/scan?VALUE=geografische+huis&SCAN=TIT http://www.ussc.alltheweb.com/cgi- bin/advsearch?offset=40&terms=3&type=any&query=utre cht&exec=FAST+Search&lang=any&enco=iso- 88591&A1=+&A2=%2B&A3=-&hits=10&nooc=on

19 19 zoektools: wanneer wat? indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk: zoekmachines indien zoekvraag breed, exploratief, inventariserend, met weinig voorkennis, met relatief veel tijd: onderwerpsgidsen

20 20 Onderwerpsgidsen: algemeen + geen zoektermen nodig vaak actueel annotaties weinig ruis - onvolledig dode links voorkeur maker houdt groei niet bij voor homepages

21 21 Onderwerpsgidsen Alle onderwerpen: Open Directory, Yahoo Nederlands: startpagina, meta: startnederland Breed wetenschappelijk: Intute, Infomine, BUBL Zoeken: –via Yahoo (per onderwerp onder ‘webdirectories’) –via Open Directory –via Pinakes (wetenschappelijk) Tijd besteden aan vinden van goede onderwerpsgidsen: –via collegae –via discussielijsten

22 22 Zoekmachines: dekking > 15% van de webpagina’s in geen enkele van de grootste zoekmachines van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% ( http://www.cs.uiowa.edu/~asignori/web-size/ ) ( http://www.cs.uiowa.edu/~asignori/web-size/ ) dekking zeer ongelijkmatig verschil in actualiteit

23 23 Zoekmachines: ontwikkeling 1994 Webcrawler, Lycos, Alta Vista (10) 1995 concurrentie Hotbot, Excite, Yahoo (50) 1997 Northern Light, MSN, sterke groei web > 200 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o.a. (100) 2002 komst Teoma, Wisenut, Gigablast (1000) 2003 renaissance AV, glorietijd Google (3000) 2004 consolidatie/concurrentie (4000) : –Google+Blogger, verbreding: boeken, kritiek, beursgang –Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW –Microsoft: introductie MSNsearch beta: zelf indexeren 2005 verbreding/innovatie/content (5000-10000) –Samenwerking content providers-zoekmachines? –Teoma wordt Ask en opkomst Amazon met A9 –Doorgroei Gigablast (2000) 2006-2007 puur zoeken raakt op achtergrond (20000-40000) –Live gelanceerd, YouTube gekocht –uploaden, web 2.0 –gemengde content (Google universal, iGoogle bv.) –specifieke diensten (Google CSE bv)

24 24 Zoekmachines: wat vind je niet? recente webpagina’s/wijzigingen dynamisch gegenereerde pagina’s informatie in databases pagina’s met no robots file pagina’s met toegangsrestricties verdwenen pagina’s (maar: cache en Wayback Machine archive.org)

25 25 Zoekmachines: beperkingen Google genest Booleaans zoeken > Yahoo/Live/Exalead/Gigablast backlinksindex vrij klein > Yahoo zeer grote pagina’s niet volledig geïndexeerd > Yahoo truncatie, nabijheids- en patroonzoeken > Exalead daterange zoeken > Altavista/Alltheweb/Exalead

26 26 Land/taalversies Google Interfacetaal –beinvloedt ook resultaat! Taalinstelling zoekactie –voorkeuren of eenmalig Landsversie: –beinvloedt ranking sterk –ncr


Download ppt "1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen."

Verwante presentaties


Ads door Google