Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers
Wat is een zoekmachine? Definitie: Een zoekmachine is een programma dat op basis van een zoekopdracht relevante informatie probeert te vinden in een verzameling met documenten, zoals het WWW.
Geschiedenis Explosieve groei WWW steeds meer informatie digitaal en online beschikbaar/bereikbaar gemiddeld 19 clicks tussen 2 webpagina's zoals in een bibliotheek: onvindbaar zonder ordening en index Oplossing: directories en zoekmachines
Geschiedenis Directories hierarchie van handmatig toegevoegde wegpagina’s voorbeelden: Yahoo! Directory, DMOZ
Geschiedenis Directories voordelen hogere kwaliteit geordend nadelen subjectief arbeidsintensief passief
Geschiedenis Zoekmachines doorzoeken automatisch het WWW op basis van een zoekopdracht voorbeelden:
Geschiedenis Zoekmachines voordelen geautomatiseerd objectief actief nadelen ……
Hoe werkt een zoekmachine? search engine client query search engine server documents Web pages Web pages browser
Hoe werkt een zoekmachine? search engine client search engine server query documents Web pages Web pages browser
Hoe werkt een zoekmachine? World Wide Web World Wide Web search engine client search engine server query documents browser
Hoe werkt een zoekmachine? webpage search engine client search engine server query documents browser webpage
Hoe werkt een zoekmachine? Web index webpage search engine client search engine server query documents browser webpage
Hoe werkt een zoekmachine? crawler Web index webpage search engine client search engine server query documents browser webpage
Geschiedenis Verschillende generaties 1e generatie (Archie) locatie 2e generatie (Lycos) locatie & inhoud 3e generatie (Google) locatie, inhoud & autoriteit 4e generatie ??? webpage hubautoriteit
Lies, damned lies & statistics Getallen marktaandeel VS
Lies, damned lies & statistics Getallen marktaandeel VS
Lies, damned lies & statistics Getallen marktaandeel Groot-Brittannië
Lies, damned lies & statistics Getallen marktaandeel Nederland & Duitsland
Lies, damned lies & statistics Getallen marktaandeel grootte geindexeerde Web overlap (70%-90%) “much of the Web is crap” > 14,3 miljard geindexeerde pagina’s
Lies, damned lies & statistics Getallen marktaandeel grootte geindexeerde Web
Lies, damned lies & statistics Getallen marktaandeel grootte geindexeerde Web > 14,3 miljard pagina’s aantal zoekopdrachten ± 1 miljard per dag ≈ per seconde
Zoeken basis Booleaanse operatoren pirate AND monkey pirate OR monkey pirate NOT monkey pirate AND monkey NOT robot filteren stopwoorden exacte frases “pirates of the caribbean”
Zoeken gevorderden proximity (NEAR, ADJ) pirates NEAR software wildcards (*) “pirates of *” synoniemen (~) ~pirate veldspecifiek zoeken (title, domain, filetype) pirate filetype:ppt
Problemen voor zoekmachines groei & dynamiek van het WWW +11 miljoen pagina’s per dag dynamisch updates link rot
Problemen voor zoekmachines groei & dynamiek van het WWW niet alles is indexeerbaar geen verwijzing geen indexering dynamisch gegenereerde pagina’s Surface Web > 14,3 miljard Deep Web 400 tot 550 keer groter totale WWW > 5 biljoen
Problemen voor zoekmachines groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden search engine spamming keyword stuffing link farms
Problemen voor zoekmachines groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden query syntax niet toereikend beperkt tot keywords ambiguiteit!
Problemen voor zoekmachines ‘jaguar’
Problemen voor zoekmachines groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden query syntax niet toereikend beperkt tot keywords ambiguiteit! gemiddelde 2 zoektermen
4e generatie zoekmachines andere domeinen desktop Google Desktop, Spotlight enterprise/intranet Verity, Panoptic, Grokker blogs Bloogz, Technorati, Google Blog Search multimedia Ditto, Google Images/Video, AllTheWeb
4e generatie zoekmachines andere domeinen andere algoritmes/toepassingen meta search Dogpile, Vivisimo clustering Clusty, Grokker question answering systemen Brainboost, AnswerBus, Inferret, Ionaut
4e generatie zoekmachines andere domeinen andere algoritmes/toepassingen meta search Dogpile, Vivisimo clustering Clusty, Grokker question answering systemen Brainboost, AnswerBus, Inferret, Ionaut personalizatie recommender systems Amazon, MyStrands, Pandora, MovieLens
4e generatie zoekmachines andere domeinen andere algoritmes/toepassingen meta search Dogpile, Vivisimo clustering Clusty, Grokker question answering systemen Brainboost, AnswerBus, Inferret, Ionaut personalizatie recommender systems Amazon, MyStrands, Pandora, MovieLens social tagging Flickr, del.icio.us, LastFM
4e generatie zoekmachines andere domeinen andere algoritmes/toepassingen andere rol van passief naar actief IntelliGent, Watson
Fun with Google 101 Google Bomb miserable failure raar kapsel vreemdelingenhaat more evil than satan
Fun with Google 101 Google Bomb Google suggestions
Fun with Google 101 Google Bomb Google suggestions Googlewhack intergalactically janitorial icebreaking snaggletooth obverse tartiness tailgated winnebagoes arachnophobic swashbuckler
Fun with Google 101 Google Bomb Google suggestions Googlewhack Googlisms Google Trends
The Dark side of the Force search censuur Frankrijk Duitsland China
The Dark side of the Force search censuur AOL search data grootte gebruikers 3 maanden 20 miljoen zoektermen slecht geanonimiseerd mirrors
Literatuur Van Driel (Red.), Digitale Communicatie (tweede editie), Boom, hoofdstuk 7 Engelse Wikipedia pagina’s search engine web directory Google Google pagerank