Internetzoeken inleidingen en opdrachten Jeroen Bosman VOGIN, voor HVU Utrecht
Kenmerken zoekexpert Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica Zorgvuldig gebruik zoektools Snelheid Reflectie op eigen zoekproces
Programma 9:40 / zoeken op het web en bijbehorende tools (1) 9:30 / welkom, introductie 9:40 / zoeken op het web en bijbehorende tools (1) 10:30 / gevorderde zoekmachine-tactieken (2) 12:00 / lunchpauze 13:00 / mini-workshop: bronnenkennis (4) 13:45 / interactieve bronnen: nieuwsgroepen/discussielijsten (5) 14:10 / current awareness & attenderingen (6) 15:00 / databases op internet: het diepe web (7) 14:40 / bronnen van zoekkennis (8) 15:30 / systematisch zoeken en case studies: (9)
Inhoud WWW: algemeen 1 Omvang: 11,5 miljard + databases + FTP Weinig wetenschappelijke teksten onafgeschermd Kwaliteit Betrouwbaarheid Actualiteit Kosten/afscherming
Zoeken: benaderingen 1 Aanbieders Bekende pagina’s URL verzinnen Onderwerpsgids Zoekmachines Online vragen stellen
Inhoud WWW: aanbieders 1 Bedrijven Overheid Internationale organisaties Verenigingen, actiegroepen Universiteiten Bibliotheken Uitgevers Particulieren
zoektools: wanneer wat? 1 zoektools: wanneer wat? indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk: zoekmachines indien zoekvraag breed, exploratief, inventariserend, met weinig voorkennis, met relatief veel tijd: onderwerpsgidsen
Onderwerpsgidsen: algemeen 1 Onderwerpsgidsen: algemeen + geen zoektermen nodig vaak actueel annotaties weinig ruis - onvolledig dode links voorkeur maker houdt groei niet bij voor homepages
Onderwerpsgidsen: breed 1 Onderwerpsgidsen: breed internationaal/VS: Open Directory (in Gigablast extra zoekfuncties hiervoor) Yahoo Looksmart Nederlands: startpagina+dochters en concurrenten startnederland (meta-gids)
Onderwerpsgidsen: gespecialiseerd 1 Miljoenen Breed wetenschappelijk: Infomine, Internet Scout Zoeken: via Yahoo (per onderwerp onder ‘webdirectories’) via Open Directory of Startnederland via RDN (wetenschappelijk) via Pinakes (wetenschappelijk) Tijd besteden aan vinden van goede onderwerpsgidsen: via collegae via discussielijsten
Zoekmachines: dekking 1 Zoekmachines: dekking > 15% van de webpagina’s in geen enkele van de grootste zoekmachines Van resterende wel geïindexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% (http://www.cs.uiowa.edu/~asignori/web-size/) dekking zeer ongelijkmatig verschil in actualiteit (Google/MSN meest vers volgens studie uit 2003) langzame groei dekking bij subtop: Teoma, Gigablast, Ask(Jeeves) verschil in dekking: Teoma en Wisenut beperkt in Nederland
Zoekmachines: ontwikkeling 1 Webcrawler, Lycos, Alta Vista (10) concurrentie Hotbot, Excite, Yahoo (50) 1997 Northern Light, MSN, sterke groei web > 200 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o.a. (100) 2002 komst Teoma, Wisenut, Gigablast (1000) 2003 renaissance AV, glorietijd Google (3000) 2004 consolidatie/concurrentie (4000): Google+Blogger, verbreding: boeken, kritiek, beursgang Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW Microsoft: introductie MSNsearch beta: zelf indexeren 2005 verbreding/innovatie/content (5000-10000) Samenwerking content providers-zoekmachines? Opkomst vijfde grote speler, Amazon met A9? Doorgroei Gigablast (2000)
Relatieve omvang, maart 2005 A9 ATW AV Exalead Giga- blast Google MSNsearch Scirus Teoma Wisenut YH Nederlands fietsenstalling 24 132 138 11 15 100 81 1 5 142 poldermodel 94 101 7 17 45 2 8 Terschelling Schylge wad 53 66 69 48 49 56 19 3 64 VMBO onderwijs 2000 25 103 106 63 6 "van de hak op de tak" 31 43 41 51 42 gemiddelde 30 85 91 59 9 Engels production 215 225 4 55 235 Cairo 20 111 130 266 83 131 zenith aardvark 18 27 78 26 28 MI5 submarine 2000 13 "read my lips" 23 93 88 40 36 12 161 95 77 57 112
Zoekmachines: wat vind je niet? 1 recente webpagina’s/wijzigingen bij sommige: PDF en andere niet html bestanden tekst onderaan zeer lange documentendynamisch gegenereerde pagina’s informatie in databases pagina’s met no robots file pagina’s met toegangsrestricties verdwenen pagina’s (maar: Google/Gigablast cache en Wayback Machine archive.org)
Zoekmachines: beperkingen Google 1 Zoekmachines: beperkingen Google genest Booleaans zoeken > Yahoo/MSN/Gigablast backlinksindex vrij klein > Yahoo zoeken beperken tot meer dan 1 specifieke site > Gigablast zeer grote pagina’s niet volledig geïndexeerd > Yahoo truncatie > Exalead
Maak nu de opdrachten bij onderdeel 1 opdrachten zoektools Maak nu de opdrachten bij onderdeel 1
WWW: bowtie model 2
vaak gebruikte relevantie criteria 2 vaak gebruikte relevantie criteria hoe meer van de gevraagde termen, hoe beter als termen in titel of begin document staan, des te beter hoe vaker die termen in document herhaald worden, hoe beter hoe dichter termen bij elkaar en in zelfde volgorde staan, hoe beter zeldzame term krijgt hoger gewicht dan heel algemene term termen in opsommingslijst hoger gewicht en: "populaire" pagina's zijn relevanter aantal backlinks aantal links op herkomstpagina van backlinks (zorgt voor ‘traagheid’)
domeinen 2 soorten top-level-domains (TLD) generiek: com / org / net (vrij) int / edu / gov / mil / arpa (beperkt) landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%) jump: tv / nu / to / tk nieuw: biz/info/name/coop/pro/aero generieke ‘subtopleveldomeinen’: co / gob / ac / org etc. (zie http://www.derbal.com/domains.html)
2 opbouw URL protocol : // servernaam . subdomein . domein . TLD / map / filenaam . extensie http : // www . library . uu . nl / geosource / index . html
URL’s van databasepagina’s 2 URL’s van databasepagina’s http://hardy.library.uu.nl:4505/ALEPH0/SESSION66067604868/scan?VALUE=geografische+huis&SCAN=TIT http://www.ussc.alltheweb.com/cgi-bin/advsearch?offset=40&terms=3&type=any&query=utrecht&exec=FAST+Search&lang=any&enco=iso-88591&A1=+&A2=%2B&A3=-&hits=10&nooc=on
recall-killers en precisie-killers bij zoekmachines 2 recall-killers: verkeerde bron: -> probeer andere verkeer spelling: -> woordenboeken woordvarianten gemist: -> trunceren te smalle zoektermen precisie-killers niet genoeg termen (bij best-match) niet genoeg aspecten (bij Booleaans) geen inhoudelijke relatie: -> phrase/near homoniemen lange webpagina’s bevatten alle termen: -> in titelveld zoeken effect metatags
2 termen verzinnen voorbeeldzoeken versus generiek zoeken voor opsommingen (zie ook ‘Google sets’) gebruik minimaal 2, liever 3-5 termen gebruik zo mogelijk verwachte zinsneden, denk dan in termen van te vinden document gebruik eventueel termsuggesties van AV, Gigablast, Teoma of clusters van metazoekmachine Vivisimo evt. bekijken index van Google Suggest
opdrachten gevorderde zoekmachinetactieken Maak nu de opdrachten bij onderdeel 2
Kenmerken desktop search engines 3 Kenmerken desktop search engines Is een desktop programma Metazoekmachine + zoeken in set gekende databases Kan resultaten ordenen, controleren, ontdubbelen, vastleggen en binnenhalen Is tevens tool voor zoekvraagmanagement (zoekgeschiedenis) Te gebruiken als webattenderingsdienst Gericht op gevorderd particulier gebruik Databasesselectie vaak op VS gericht vb.: Copernic Agent (search history nu ook by Google en Yahoo)
Zoeken: 10 gouden regels Bedenk wie gezochte informatie zou aanbieden en gok URL daarvan Gebruik ‘advanced search’ van intern. zoekmachine en lees ‘help’ Gebruik Google voor vinden van homepages van organisaties, bedrijven etc. Gebruik voor uitputtende zoektochten Google / Yahoo, evt. Teoma Gebruik metazoekmachines (Dogpile, Ixquick, Vivisimo) alleen voor zeer specifieke termen Gebruik i.h.a. algemene onderwerpsgidsen (Yahoo, Open Directory, Looksmart, Startnederland) als u niet in staat bent specifieke termen te verzinnen Gebruik i.h.a. gespecialiseerde onderwerpsgidsen voor onderwerpen waar u regelmatig naar zoekt en alleen voor homepages en pagina's die niet te diep in een site zitten Gebruik 2 of meer termen, zo specifiek mogelijk, zo mogelijk een zinsnede ('phrase’) Gebruik CompletePlanet maar ook onderwerpsgidsen (‘directories’ bij Yahoo-categorieën) om databases te vinden Gebruik bij te veel resultaat gevorderde opties als beperken met domein, datum, taal, omvang of zoeken op titelwoorden
Lunchpauze (vervolg 13:00)
proefondervindelijk en met overleg in subgroepjes uit 40 brede bronnen de tien beste kiezen Aladin All Music Guide Alltheweb Alta Vista Amazon Bartleby BBC Britannica CBS-Statline Columbia Encyclopedia EVD Geassocieerde Persdiensten regionale kranten Geheugen van Nederland Gigablast webzoekmachine+gids Google webzoekmachine Google Groups Google Scholar IMDB Infomine Infoplease Internet Public Library KB Kennisnet Krantenbank Looksmart MSN search OCLC Worldcat Omroep.nl Open Directory Overheid.nl Perinorm Picarta Publist Pubmed Startnederland Swets Teletekst NOS Van Dale GWHN VNG Wettenbank Wikipedia Yahoo gids Beeldbank van Nat archief; allesovermilieu;
Maak nu (2 aan 2) de opdracht bij onderdeel 4
klassiek: bronnenkennis 4 encyclopedie bibliografie feitelijke naslag boeken tijdschriften nieuwsbrieven vraag/antwoord online edities: Britannica / Columbia e-only: Encarta / Nupedia / Wikipedia onderwerpsgidsen: Yahoo / Looksmart / Open Directory / Infomine / RDN / Geosource / WebEC meta: Pinakes / Yahoo webdirectories bibliografische databases: Google Scholar / Findarticles Pubmed / Eric / MLB / ADSABS e-almakken: CIA World Factbook / Quid integrators: Infoplease / Bartleby / Xrefer statistische diensten: CBS / UN / OESO / Eurostat landen/handelsinformatie: EVD bibliotheek(catalogi): Picarta / Library of Congress / meta: KB-gids fulltextboeken: Gutenberg / DBNL / Wordtheque boekwinkels: Amazon / Bol / Proxis tijdschriftsites: Publist / OCLC Firstsearch / Ingenta nieuwsbrieven: NewJour e-bibliofoons: Aladin / Allexperts / Google Answers discussielijsten/nieuwsgroepen (5)
Interactief: discussielijsten 5 Interactief: discussielijsten werkt via Email (later ook vaak web-interface) vaak eerst abonneren, verzenden alleen door abonnees vrij sterke communities soms zeer hoge kwaliteit zoeken lijsten: topica, catalist, jiscmail.ac.uk, listserv.surfnet.nl, groups.yahoo
Interactief: nieuwsgroepen 5 Interactief: nieuwsgroepen heet: usenet, news, forums, groups apart protocol vereist newsreader (kijk bij Tucows of ZDNet) of: lezen via archief bij Google voor specifieke problemen (foutmeldingen) voor laagdrempelige, actuele discussies voor sociaal-cultureel en taal(historisch) onderzoek vluchtig, wilde westen, illegale zaken functies deels overgenomen door vele internetfora a la fok.nl
maak nu de opdrachten bij onderdeel 5
bijblijven: current awareness, spionnen & attenderingen 6 bijblijven: current awareness, spionnen & attenderingen nieuwe sites: email nieuwsbrieven met nieuwe sites (Scout report, lii.org, weblogs webalerts/trackers (GoogleAlert, Google Web Alerts, Karnak) offline search engines als Copernic veranderde pagina’s: page-alerts/spionnen: desktop: C4U / Copernic Tracker / Website Watcher of evt. webdienst: Trackengine, Infominder, Profusion nieuws: gespecialiseerde sites bekende media (BBC, CNN) zoeken in nieuws (Yahoo, Daypop, Google (laatste niet nl)) Google news alert page alerts op resultaat nieuwszoekactie nieuwspagina’s als nu.nl RSS-nieuwsdiensten
6 RSS Rich Site Summary / Really Simple Syndication Voor sites met (on)regelmatig nieuwe actuele inhoud, bv nieuwsbrieven, weblogs Lezen, beheren als ware het email Maakt gebruik van xml-structuur Vereist software (reader), bv Feedreader (gratis) of Feeddemon Toevoegen van een ‘feed’: klik bij pagina op oranje xml-logo en voeg van die pagina url toe aan reader Drie nauwverwante formats: rss/atom/rdf Zoeken berichten: Daypop, Feedster, Blogpulse, Technorati Syndicatie gebuert ook op het web (bv. LISfeeds.com)
Maak de opdracht bij onderdeel 6
WWW zoekparadox 7 <1995: beperkte zoekmachines 1995-1997: gouden tijd zoekmachines 1998-2000: professionalisering websites 2000 e.v.: sterke groei zoekmachines, maar: diepe web blijft lastig Kortom: hoe beter de organisatie van websites, hoe lastiger inhoud te vinden is, want zit in databases
Zoeken naar databases 7 Bright Planet’s Complete Planet Internets.com via Invisibleweb.net van Gary Price via gewone onderwerpsgidsen of zoekmachines, bijvoorbeeld Yahoo
Zoeken in databases 7 via individuele databasetoegang meer dan 1 tegelijk: met behulp van offline search engines: Copernic of Bull’s Eye (evt. Lexibot) meer dan 1 tegelijk: via Intelliseek’s Profusion op het web (beperkt) traditioneel: online hosts (overlap met webdatabases) technologische oplossing: open-url
7-o opdrachten databases Maak nu de opdrachten bij onderdeel 7
Bronnen van zoekkennis 8 Bronnen van zoekkennis Searchenginewatch (Sullivan, Sherman) Searchengineshowdown (Notess) Voelspriet (Van Ess) (forum) Zoekprof (Stielstra) Weblogs: Resourceshelf (Price), Researchbuzz (Calishain) Kritische verhalen: Digital Reference Shelf (Jasco) Tutorials (Complete Planet, Science Direct) Literatuur: The Searcher, Informatie Professional, Online, D-Lib, Freepint De wetenschappelijke tijdschriften (JiS, WWW, JAL) Eigen tests!!!!!!!!
opdrachten bronnen van zoekkennis Maak nu de opdrachten bij onderdeel 8
9 MiniCases doel: integratie vaardigheden in praktijk en werken onder tijdsdruk keuze uit aangeboden cases, evt. eigen onderwerp
Zoeksystematiek 9 Verkenning Zoekprofiel: Keuze gids/zoekmachine Onderscheiden elementen Vooraf genereren zoektermen Keuze gids/zoekmachine Daadwerkelijk zoeken Bij zoekmachine eerste smal, dan breed, dan evt weer inzoomen Tweede zoekmachine Eventueel andere typen bronnen (gedrukte literatuur, deskundigen) Expliciete reflectie op zoekproces en zoekresultaat Bij doorlopende interesse evt. web en page alerts instellen
Hulpprogramma’s downloadmanagers (download accelerator) webstrippers viewers (Acrobat Reader) multimedia plug-ins (quicktime, flash, shockwave, etc.) personal search agents (Gossip bv.) searchbots (Copernic, Lexibot) screen capture (bv. jascap of hardcopy) page alerts: Copernic Tracker, C4U, Website Watcher web alerts: Google alert surfhulp: Quickbrowse