Download de presentatie
De presentatie wordt gedownload. Even geduld aub
GepubliceerdMelanie Vink Laatst gewijzigd meer dan 10 jaar geleden
1
Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers
2
Wat is een zoekmachine? Definitie: Een zoekmachine is een programma dat op basis van een zoekopdracht relevante informatie probeert te vinden in een verzameling met documenten, zoals het WWW.
3
Geschiedenis Explosieve groei WWW steeds meer informatie digitaal en online beschikbaar/bereikbaar gemiddeld 19 clicks tussen 2 webpagina's zoals in een bibliotheek: onvindbaar zonder ordening en index Oplossing: directories en zoekmachines
4
Geschiedenis Directories hierarchie van handmatig toegevoegde wegpagina’s voorbeelden: Yahoo! Directory, DMOZ
7
Geschiedenis Directories voordelen hogere kwaliteit geordend nadelen subjectief arbeidsintensief passief
8
Geschiedenis Zoekmachines doorzoeken automatisch het WWW op basis van een zoekopdracht voorbeelden:
9
Geschiedenis Zoekmachines voordelen geautomatiseerd objectief actief nadelen ……
10
Hoe werkt een zoekmachine? search engine client query search engine server documents Web pages Web pages browser
11
Hoe werkt een zoekmachine? search engine client search engine server query documents Web pages Web pages browser
12
Hoe werkt een zoekmachine? World Wide Web World Wide Web search engine client search engine server query documents browser
13
Hoe werkt een zoekmachine? webpage search engine client search engine server query documents browser webpage
14
Hoe werkt een zoekmachine? Web index webpage search engine client search engine server query documents browser webpage
15
Hoe werkt een zoekmachine? crawler Web index webpage search engine client search engine server query documents browser webpage
16
Geschiedenis Verschillende generaties 1e generatie (Archie) locatie 2e generatie (Lycos) locatie & inhoud 3e generatie (Google) locatie, inhoud & autoriteit 4e generatie ??? webpage hubautoriteit
17
Lies, damned lies & statistics Getallen marktaandeel VS
18
Lies, damned lies & statistics Getallen marktaandeel VS
19
Lies, damned lies & statistics Getallen marktaandeel Groot-Brittannië
20
Lies, damned lies & statistics Getallen marktaandeel Nederland & Duitsland
21
Lies, damned lies & statistics Getallen marktaandeel grootte geindexeerde Web overlap (70%-90%) “much of the Web is crap” > 14,3 miljard geindexeerde pagina’s
22
Lies, damned lies & statistics Getallen marktaandeel grootte geindexeerde Web
23
Lies, damned lies & statistics Getallen marktaandeel grootte geindexeerde Web > 14,3 miljard pagina’s aantal zoekopdrachten ± 1 miljard per dag ≈11.500 per seconde
24
Zoeken basis Booleaanse operatoren pirate AND monkey pirate OR monkey pirate NOT monkey pirate AND monkey NOT robot filteren stopwoorden exacte frases “pirates of the caribbean”
25
Zoeken gevorderden proximity (NEAR, ADJ) pirates NEAR software wildcards (*) “pirates of *” synoniemen (~) ~pirate veldspecifiek zoeken (title, domain, filetype) pirate filetype:ppt
26
Problemen voor zoekmachines groei & dynamiek van het WWW +11 miljoen pagina’s per dag dynamisch updates link rot
27
Problemen voor zoekmachines groei & dynamiek van het WWW niet alles is indexeerbaar geen verwijzing geen indexering dynamisch gegenereerde pagina’s Surface Web > 14,3 miljard Deep Web 400 tot 550 keer groter totale WWW > 5 biljoen
28
Problemen voor zoekmachines groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden search engine spamming keyword stuffing link farms
29
Problemen voor zoekmachines groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden query syntax niet toereikend beperkt tot keywords ambiguiteit!
30
Problemen voor zoekmachines ‘jaguar’
31
Problemen voor zoekmachines groei & dynamiek van het WWW niet alles is indexeerbaar niet alles moet geindexeerd worden query syntax niet toereikend beperkt tot keywords ambiguiteit! gemiddelde 2 zoektermen
32
4e generatie zoekmachines andere domeinen desktop Google Desktop, Spotlight enterprise/intranet Verity, Panoptic, Grokker blogs Bloogz, Technorati, Google Blog Search multimedia Ditto, Google Images/Video, AllTheWeb
33
4e generatie zoekmachines andere domeinen andere algoritmes/toepassingen meta search Dogpile, Vivisimo clustering Clusty, Grokker question answering systemen Brainboost, AnswerBus, Inferret, Ionaut
35
4e generatie zoekmachines andere domeinen andere algoritmes/toepassingen meta search Dogpile, Vivisimo clustering Clusty, Grokker question answering systemen Brainboost, AnswerBus, Inferret, Ionaut personalizatie recommender systems Amazon, MyStrands, Pandora, MovieLens
40
4e generatie zoekmachines andere domeinen andere algoritmes/toepassingen meta search Dogpile, Vivisimo clustering Clusty, Grokker question answering systemen Brainboost, AnswerBus, Inferret, Ionaut personalizatie recommender systems Amazon, MyStrands, Pandora, MovieLens social tagging Flickr, del.icio.us, LastFM
43
4e generatie zoekmachines andere domeinen andere algoritmes/toepassingen andere rol van passief naar actief IntelliGent, Watson
44
Fun with Google 101 Google Bomb miserable failure raar kapsel vreemdelingenhaat more evil than satan
45
Fun with Google 101 Google Bomb Google suggestions
46
Fun with Google 101 Google Bomb Google suggestions Googlewhack intergalactically janitorial icebreaking snaggletooth obverse tartiness tailgated winnebagoes arachnophobic swashbuckler
47
Fun with Google 101 Google Bomb Google suggestions Googlewhack Googlisms Google Trends
48
The Dark side of the Force search censuur Frankrijk Duitsland China
51
The Dark side of the Force search censuur AOL search data grootte 650.000 gebruikers 3 maanden 20 miljoen zoektermen slecht geanonimiseerd mirrors http://www.dontdelete.com http://www.dontdelete.com http://www.aolpsycho.com http://www.aolpsycho.com
53
Literatuur Van Driel (Red.), Digitale Communicatie (tweede editie), Boom, 2005. hoofdstuk 7 Engelse Wikipedia pagina’s search engine web directory Google Google pagerank
Verwante presentaties
© 2024 SlidePlayer.nl Inc.
All rights reserved.