De presentatie wordt gedownload. Even geduld aub

De presentatie wordt gedownload. Even geduld aub

Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers.

Verwante presentaties


Presentatie over: "Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers."— Transcript van de presentatie:

1 Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers

2 Wat is een zoekmachine?  Definitie: Een zoekmachine is een programma dat op basis van een zoekopdracht relevante informatie probeert te vinden in een verzameling met documenten, zoals het WWW.

3 Geschiedenis  Explosieve groei WWW  steeds meer informatie digitaal en online beschikbaar/bereikbaar  gemiddeld 19 clicks tussen 2 webpagina's  zoals in een bibliotheek: onvindbaar zonder ordening en index  Oplossing: directories en zoekmachines

4 Geschiedenis  Directories  hierarchie van handmatig toegevoegde wegpagina’s  voorbeelden: Yahoo! Directory, DMOZ

5

6

7 Geschiedenis  Directories  voordelen  hogere kwaliteit  geordend  nadelen  subjectief  arbeidsintensief  passief

8 Geschiedenis  Zoekmachines  doorzoeken automatisch het WWW op basis van een zoekopdracht  voorbeelden:

9 Geschiedenis  Zoekmachines  voordelen  geautomatiseerd  objectief  actief  nadelen ……

10 Hoe werkt een zoekmachine? search engine client query search engine server documents Web pages Web pages browser

11 Hoe werkt een zoekmachine? search engine client search engine server query documents Web pages Web pages browser

12 Hoe werkt een zoekmachine? World Wide Web World Wide Web search engine client search engine server query documents browser

13 Hoe werkt een zoekmachine? webpage search engine client search engine server query documents browser webpage

14 Hoe werkt een zoekmachine? Web index webpage search engine client search engine server query documents browser webpage

15 Hoe werkt een zoekmachine? crawler Web index webpage search engine client search engine server query documents browser webpage

16 Geschiedenis  Verschillende generaties  1e generatie (Archie)  locatie  2e generatie (Lycos)  locatie & inhoud  3e generatie (Google)  locatie, inhoud & autoriteit  4e generatie  ??? webpage hubautoriteit

17 Lies, damned lies & statistics  Getallen  marktaandeel VS

18 Lies, damned lies & statistics  Getallen  marktaandeel VS

19 Lies, damned lies & statistics  Getallen  marktaandeel Groot-Brittannië

20 Lies, damned lies & statistics  Getallen  marktaandeel Nederland & Duitsland

21 Lies, damned lies & statistics  Getallen  marktaandeel  grootte geindexeerde Web  overlap (70%-90%)  “much of the Web is crap”  > 14,3 miljard geindexeerde pagina’s

22 Lies, damned lies & statistics  Getallen  marktaandeel  grootte geindexeerde Web

23 Lies, damned lies & statistics  Getallen  marktaandeel  grootte geindexeerde Web  > 14,3 miljard pagina’s  aantal zoekopdrachten  ± 1 miljard per dag ≈ per seconde

24 Zoeken  basis  Booleaanse operatoren  pirate AND monkey  pirate OR monkey  pirate NOT monkey  pirate AND monkey NOT robot  filteren stopwoorden  exacte frases  “pirates of the caribbean” 

25 Zoeken  gevorderden  proximity (NEAR, ADJ)  pirates NEAR software  wildcards (*)  “pirates of *”  synoniemen (~)  ~pirate  veldspecifiek zoeken (title, domain, filetype)  pirate filetype:ppt

26 Problemen voor zoekmachines  groei & dynamiek van het WWW  +11 miljoen pagina’s per dag  dynamisch  updates  link rot

27 Problemen voor zoekmachines  groei & dynamiek van het WWW  niet alles is indexeerbaar  geen verwijzing  geen indexering  dynamisch gegenereerde pagina’s Surface Web > 14,3 miljard Deep Web 400 tot 550 keer groter totale WWW > 5 biljoen

28 Problemen voor zoekmachines  groei & dynamiek van het WWW  niet alles is indexeerbaar  niet alles moet geindexeerd worden  search engine spamming  keyword stuffing  link farms

29 Problemen voor zoekmachines  groei & dynamiek van het WWW  niet alles is indexeerbaar  niet alles moet geindexeerd worden  query syntax niet toereikend  beperkt tot keywords  ambiguiteit!

30 Problemen voor zoekmachines ‘jaguar’

31 Problemen voor zoekmachines  groei & dynamiek van het WWW  niet alles is indexeerbaar  niet alles moet geindexeerd worden  query syntax niet toereikend  beperkt tot keywords  ambiguiteit!  gemiddelde 2 zoektermen

32 4e generatie zoekmachines  andere domeinen  desktop  Google Desktop, Spotlight  enterprise/intranet  Verity, Panoptic, Grokker  blogs  Bloogz, Technorati, Google Blog Search  multimedia  Ditto, Google Images/Video, AllTheWeb

33 4e generatie zoekmachines  andere domeinen  andere algoritmes/toepassingen  meta search  Dogpile, Vivisimo  clustering  Clusty, Grokker  question answering systemen  Brainboost, AnswerBus, Inferret, Ionaut

34

35 4e generatie zoekmachines  andere domeinen  andere algoritmes/toepassingen  meta search  Dogpile, Vivisimo  clustering  Clusty, Grokker  question answering systemen  Brainboost, AnswerBus, Inferret, Ionaut  personalizatie  recommender systems  Amazon, MyStrands, Pandora, MovieLens

36

37

38

39

40 4e generatie zoekmachines  andere domeinen  andere algoritmes/toepassingen  meta search  Dogpile, Vivisimo  clustering  Clusty, Grokker  question answering systemen  Brainboost, AnswerBus, Inferret, Ionaut  personalizatie  recommender systems  Amazon, MyStrands, Pandora, MovieLens  social tagging  Flickr, del.icio.us, LastFM

41

42

43 4e generatie zoekmachines  andere domeinen  andere algoritmes/toepassingen  andere rol  van passief naar actief  IntelliGent, Watson

44 Fun with Google 101  Google Bomb  miserable failure  raar kapsel  vreemdelingenhaat  more evil than satan

45 Fun with Google 101  Google Bomb  Google suggestions

46 Fun with Google 101  Google Bomb  Google suggestions  Googlewhack  intergalactically janitorial  icebreaking snaggletooth  obverse tartiness  tailgated winnebagoes  arachnophobic swashbuckler

47 Fun with Google 101  Google Bomb  Google suggestions  Googlewhack  Googlisms  Google Trends

48 The Dark side of the Force search  censuur  Frankrijk  Duitsland  China

49

50

51 The Dark side of the Force search  censuur  AOL search data  grootte  gebruikers  3 maanden  20 miljoen zoektermen  slecht geanonimiseerd  mirrors  

52

53 Literatuur  Van Driel (Red.), Digitale Communicatie (tweede editie), Boom,  hoofdstuk 7  Engelse Wikipedia pagina’s  search engine  web directory  Google  Google pagerank


Download ppt "Zoekmachines ICT voor Studie en Werk College 6 5 oktober 2006 Toine Bogers."

Verwante presentaties


Ads door Google