to Google or not to Google hoe zoeken we op het web? Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool van Amsterdam)
zoekmachines zijn er al lang lycos in 1994 de eerste "echte", met bijna 1,5 miljoen pagina's altavista in 1996 de nieuwste grootste, met ruim 30 miljoen pagina's maar geen van alle heeft ons gedrag én zelfs onze taal zo beïnvloed als
wat maakte anders ? zijn "kale" interface zijn goede zoekresultaten (al geeft elke zoekmachine -bijna- exact wat je vraagt) –andere, betere relevantie-ordening –grote dekking (> 20 miljard) geeft vaker goed resultaat –goed voor simpele vragen van de grote massa zijn timing –Microsoft meldt eind 2004 index van 5 miljard pagina's, Google 3 dagen later: index 4 8 miljard pagina’s –Elsevier brengt eind 2004 definitief Scopus uit, Google komt binnen 2 weken met Google Scholar zijn PR –company motto: "Don't do evil“ –everyone loves Google (or don’t we?) Eric Sieverts | | |
Google 1960
marktaandeel zoekmachines (schattingen medio 2006) UK NL USA
agenda 10 redenen om Google te gebruiken 10 redenen om Google NIET te gebruiken web 2.0? trends in zoeken Eric Sieverts | | |
waarom Google gebruiken 1. Google is de grootste 2. Google is zo eenvoudig in gebruik 3. uitstekend ranking mechanisme 4. slimme automatische vraagverbetering 5. vraagexpansie met synoniemen 6. extra online tools 7. veel offline tools & online diensten 8. additionele zoekmachines voor andere media 9. automatische attenderingsdienst 10. bewaart desgewenst je zoekgeschiedenis Eric Sieverts | | |
1: google is de grootste hoewel Google zelf geen aantal pagina’s meer opgeeft, hoewel Searchenginewatch en Searchengineshowdown geen groottes van zoekmachines meer vermelden, blijkt uit zoekresultaten dat Google gemiddeld wat vaker meer oplevert dan runner-up Yahoo! en Google zeker groter is dan Ask, LiveSearch, Exalead of Gigablast Eric Sieverts | | |
2: google eenvoudig in gebruik het “kale” zoekscherm van Google is de usability benchmark voor zoeksystemen geworden iedereen kan met Google uit de voeten (en iets vinden) als een zoeksysteem ingewikkelder is dan Google, wordt het niet meer gebruikt (?) maar: Google kan ingewikkelder zijn dan het er uitziet! Eric Sieverts | | |
3: uitstekend ranking mechanisme “pagerank” was eerste mechanisme waarin “democratisch bepaalde kwaliteit” van gevonden informatie meespeelde PR(x) = (1-d) + d* {PR(y x) / C(y)} y maar dat jouw pagina niet altijd als eerste uit Google komt, ligt minder aan Google dan aan jouw pagina “pagerank” vooral maatgevend voor ranking-volgorde bij “stupid one-word queries” bij “intelligenter” queries goede ranking vooral op basis van andere parameters (positie, phrases, woordvolgorde) maar: LiveSearch biedt mogelijkheid ranking zelf te tunen Eric Sieverts | | |
4: ingebouwde vraagverbetering Google zoekt automatisch op enkel- en meervoud en nog enkele woordvarianten van Engelse woorden op de Engelstalige site Google doet dat met sommige Nederlandse woorden op de Nederlandstalige site, maar niet heel consistent Google doet dat slim voor bepaalde vaste afkortingen (JFK, WWII) Google doet dat ook voor bepaalde Nederlandse namen op de Nederlandstalige site maar: nogal onduidelijk wat wanneer wel of niet Eric Sieverts | | |
5: vraagexpansie met synoniemen door ~ voor een (Engelse) zoekterm te zetten, zoekt Google ook op (Engelse) synoniemen van dat woord maar: levert vaak meer troep dan verbetering Eric Sieverts | | |
6: extra online tools via gewone zoekvenster is Google ook: rekenmachine ( 3*7/5 ) omrekenaar ( 87F in C ) valutahulp ( 27USD in EUR ) adreszoeker ( 650 Madison Avenue, Albany, NY ) telefoonboek ( john smith, schenectady, ny ) definities ( define:relevance ) enz. Eric Sieverts | | |
7: offline tools & online diensten Google toolbar Google desktop Picasa – foto’s beheren en uitwisselen Google mail online RSS reader online tekstverwerker online spreadsheet Blogger weblog host coop – custom search engine Google suggest enz. Eric Sieverts | | |
8: zoeken in andere media image search newsgroup search video search blog search news search (voor 10 talen) book search google scholar google maps / google earth shopping search finance search desktop search program code search Eric Sieverts | | |
8: zoeken in nieuws Eric Sieverts | | | Engelstalig nieuws uit 4500 bronnen + aparte versies in andere talen dan Engels: –chinees(1000 bronnen) –duits(700 bronnen) –frans(500 bronnen) –hebreeuws(100 bronnen) –italiaans(250 bronnen) –japans(600 bronnen) –koreaans(550 bronnen) –nederlands(>400 bronnen) –portugees(200 bronnen) –spaans(700 bronnen)
9: persoonlijke attenderingsdienst regelmatige attendering via mail, op basis van eigen zoekvraag, uit: –web –nieuws –nieuwsgroepen –blogs Eric Sieverts | | |
10: bewaart je zoekgeschiedenis als je een account hebt aangemaakt, kan je zoekgeschiedenis worden bewaard je kunt zo terugvinden hoe je eerder hebt gezocht je kunt zo terugvinden wat je eerder had gevonden (als je resultaten wel hebt aangeklikt, maar hebt vergeten te bookmarken) Eric Sieverts | | |
waarom Google NIET gebruiken 1. Google biedt geen truncatie en “proximity” search 2. Google biedt geen goede tijdinperking 3. Google zoekt niet op metadata 4. Google biedt geen reproduceerbare resultaten 5. Google levert veel minder backlinks 6. Google biedt geen hulp zoekvraag te verfijnen 7. voor video zijn YouTube en Blinkx veel beter 8. voor blogsearch is Technorati beter 9. problemen met privacy? 10. Google biedt weinig web-2.0 functionaliteit Eric Sieverts | | |
1: geen truncatie en proximity maar: Google zoekt (in Engels) toch al op enkel- en meervoud woordnabijheid telt toch al flink mee bij ranking meeste andere grote zoekmachines bieden dat ook niet uitzondering: Exalead Eric Sieverts | | |
truncatie proximity fuzzy
2 : geen (goede) tijdinperking alleen heel beperkte keuze: laatste 3 / 6 / 12 maanden en dat werkt bovendien NIET goed wel ongedocumenteerde "daterange" optie met gebruik van juliaans datum format daterange: maar dat werkt bovendien NIET goed wel gedetailleerd en betrouwbaar mogelijk bij AllTheWeb, AltaVista of Exalead Eric Sieverts | | |
2 : geen (goede) tijdinperking Eric Sieverts | | |
3: Google zoekt niet in metadata Google niet i.v.m. mogelijk misbruik van metadata maar andere doen dat wel (weer): yahoo, alltheweb, altavista, ask, hotbot, gigablast (maar meestal niet meer dan eerste 16 of 24 keywords) die vinden dus makkelijker pagina’s met weinig “eigen” tekst Eric Sieverts | | |
buitenbeentje: Gigablast ondanks zijn naam, met 10 G niet zo groot als Google of Yahoo maar wel groot aantal metadata zoekvelden en juist andere dan keyword(s) en description! alleen jammer dat er zoveel webpagina's zonder dat soort metadata zijn alleen jammer dat ze dan meestal niet op standaard wijze gebruikt worden Eric Sieverts | | |
metadata zoeken bij Gigablast city:amsterdam country:belgium state:alabama author:eric subject:soccer language:french audience:youth dc.creator:eric dc.language:dutch enz. Eric Sieverts | | |
4: geen betrouwbare aantallen gevonden aantal van zelfde vraag blijkt vaak telkens verschillend bij bekijken van afzienbaar aantal resultaten zie je pas bij bekijken van hele lijst hoeveel echt is gevonden (meestal minder) niet duidelijk wanneer op woordvarianten wordt gezocht Booleaanse resultaten kloppen (daardoor?) vaak niet verschillen tussen NL en USA versie maar: bij Ask en andere zoekmachines soms ook rare effecten Eric Sieverts | | |
4: geen betrouwbare aantallen voorbeeld: recept AND doornhaai123 (in resultaat ook “recepten”) recepten AND doornhaai195(in resultaat geen “recept”) (recept OR recepten) AND doornhaai123 Eric Sieverts | | |
5: veel minder backlinks met “link zoeken” vindt Google altijd vele malen minder webpagina’s die een link naar een opgegeven URL bevatten dan Yahoo, AllTheWeb, AltaVista of Exalead maar: het zijn de minst belangrijke (met laagste pagerank) die ontbreken Eric Sieverts | | |
6: geen hulp bij verfijnen zoekvraag omdat mensen vaak slecht zoeken en veel te veel vinden, is het vaak nodig zoekvragen te verfijnen sommige zoekmachines bieden daarbij hulp door statistische analyse van woorden uit zoekresultaat (Ask, Quintura/Yahoo, AllTheWeb, Clusty) sommige zoekmachines delen resultaat (ook) op naar meer formele kenmerken (Exalead) Eric Sieverts | | |
Google video begon ooit met publieke TV-programma’s van de satelliet in Californië, met gebruikmaking van de ondertitels voor slechthorenden om op te zoeken halfslachtige switch naar uploads door gebruikers YouTube intussen veel populairder voor het uploaden, het uitwisselen en het via tagging karakteriseren (van al die slechte met mobieltjes opgenomen filmpjes) daarom [?] recent opgekocht door Google Blinkx bevat veel meer, ook professioneel materiaal van nieuwsdiensten, via spraakherkenning “full-text” zoeken Eric Sieverts | | | 7: YouTube & Blinkx veel beter voor video
uploaden crawlen kwaliteit vaak slecht veel professioneel materiaal “metadata” (tagging) spraakherkenning meer browsen dan full-text zoeken zoeken 7: YouTube & Blinkx beter voor video
8: blogsearch liever met Technorati voor blog-posts is Technorati vaak completer (zeker voor niet-Engelstalig) en wat sneller aparte zoekmachines voor podcasts (audio & video van omroepen, amateurs en ook bedrijven) zelfs met “full-text” search via spraakherkenning en aanduiding na hoeveel minuten het zoekwoord voorkomt Eric Sieverts | | |
9: privacy problematiek bij Google, identificeer je je als je contact maakt –voor -dienstverlening (Gmail) –voor persoonlijke attendering (Google alerts) –voor bewaren van je persoonlijke zoekgeschiedenis dan wordt veel van je voor lange tijd bewaard: –al je verdere zoekacties EN OOK alle aangeklikte resultaten –surf-gedrag via Google-toolbar –en google maakt (voor jou privé) full-text index op al je Gmail –en ze kennen de onderwerpen van "alerts" die je hebt lopen ze weten dus heel veel van je, zeker als ze ook nog slimme textmining technieken op die gegevens loslaten dat kunnen en willen ze om advertenties en resultaten te kunnen leveren die voor jou persoonlijk relevanter zijn; aan die nieuwe ranking technieken wordt al gewerkt Eric Sieverts | | |
geruststellend motto van Google is "do no evil" –ze beloven je privacy te respecteren –ze hebben ook rechtzaak gewonnen van het US Dept. of Justice die gebruiksgegevens van ze wilde hebben (en ze van andere zoekmachines ook kreeg!) maar wie garandeert dat dat altijd zo blijft, tegenover elk rechtssysteem, en tegenover elke overheid? how about privacy ?
10: Google weinig web 2.0 aware veel van Google's oplossingen berusten op software, veel aspecten van web 2.0 vooral op "peopleware" honderden nieuwe diensten en startups (en ook Yahoo!) leggen wel "de macht bij het volk" bij Google zelf –geen tagging –geen tagclouds –weinig sociale netwerken maar wel in zekere mate: –overnames van web 2.0 successen –ajax-achtige browser-based toepassingen –rss en blog ondersteuning Eric Sieverts | | |
auteurs
wat valt onder Web 2.0 ? zelf publiceren (blogs, wiki's, foto's, video's, podcasts, …) zelf het nieuws bepalen (newsvine, digg, postgenomic, …) zelf bookmarken (del.icio.us, myweb, furl, H2O playlist, connotea, citeulike, …) zelf "ontsluiten" (taggen van eigen en andermans spul: flickr, del.icio.us, digg, youtube, technorati, rawsugar, …) zelf netwerken (hyves, myspace, orkut, facebook, …) zelf zoekmachientje "maken" (rollyo, wink, yoono, stumbleupon, google-coop) samen voor ons zelf ("delen" bij al het bovenstaande)
Web 2.0 en zoeken social software en tagging als concurrentie voor het "echte" zoeken? "most popular" zelf omschreven behoefte tags metadata tag cloud zoekvenster andermans advies zelf zoeken notification (rss) zelf zoeken amusement werk en studie Flickr.com klassieke image-search YouTube Blinkx
verdere trends in het zoeken disclaimer: "ik ben geen trendwatcher" weer concurrentie bij gewone zoekmachines (Ask, Exalead, …) weer concurrentie bij wetenschappelijk zoeken (Academic Live, Scirus, OAister, DOAJ, …) weer concurrentie bij full-text boek-zoeken (Microsoft, Yahoo!, …) weer concurrentie bij gespecialiseerd zoeken –specialisatie op media –specialisatie op toepassingen –specialisatie op domeinen ook relevance ranking gepersonaliseerd