Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent

2 Zoekrobotten (1) Doelstelling van Zoekrobotten: het vinden van documenten, in grote documentverzamelingen, die beantwoorden aan bepaalde eigenschappen Doelstelling van Zoekrobotten: het vinden van documenten, in grote documentverzamelingen, die beantwoorden aan bepaalde eigenschappen Documenttypes: html, pdf, andere Documenttypes: html, pdf, andere Eigenschappen: meestal het bevatten van een aantal trefwoorden, opgegeven a.d.h. een vraag (query) Eigenschappen: meestal het bevatten van een aantal trefwoorden, opgegeven a.d.h. een vraag (query) Eigenschappen kunnen ook anders zijn (metadata) Eigenschappen kunnen ook anders zijn (metadata) Zoekrobotten voor de WWW Zoekrobotten voor de WWW Eigenlijk een gigantisch “hyperlinked” document Eigenlijk een gigantisch “hyperlinked” document Zoekrobotten voor DMS (Document Management Systems) Zoekrobotten voor DMS (Document Management Systems) Belangrijk conceptueel verschil: Belangrijk conceptueel verschil: Documenten worden op de WWW totaal ongecontroleerd geplaatst Documenten worden op de WWW totaal ongecontroleerd geplaatst Het opslaan van documenten in DMS gebeurt volledig gecontroleerd Het opslaan van documenten in DMS gebeurt volledig gecontroleerd

3 Zoekrobotten (2) Zoekrobotten voor de WWW Zoekrobotten voor de WWW Hoe groot is de WWW (aantal bladzijden)? Hoe groot is de WWW (aantal bladzijden)? Enkele duizendtallen in het begin (1990+) Enkele duizendtallen in het begin (1990+) 20 miljard vandaag 20 miljard vandaag Tot een paar jaar geleden, >50% Engelstalig Tot een paar jaar geleden, >50% Engelstalig De meeste zoekrobotten zijn zelf bereikbaar via het Internet, als zgn. “web-toepassingen” op een bepaald adres De meeste zoekrobotten zijn zelf bereikbaar via het Internet, als zgn. “web-toepassingen” op een bepaald adres www.google.com of IP-adres 64.233.183.99 www.google.com of IP-adres 64.233.183.99 www.google.com Hoe werkt zo’n zoekrobot? Hoe werkt zo’n zoekrobot? Gebruik van (soms zeer uitgebreide) indextafels, waarvan de opbouw een totaal afzonderlijk proces is Gebruik van (soms zeer uitgebreide) indextafels, waarvan de opbouw een totaal afzonderlijk proces is Indextafels bevatten de trefwoorden waarop kan gezocht worden Indextafels bevatten de trefwoorden waarop kan gezocht worden Zoektijd is dus allen de zoektijd in die indextafels Zoektijd is dus allen de zoektijd in die indextafels

4 Zoekrobotten (3) Korte geschiedenis: Korte geschiedenis: Archie, 1990, McGill University; eigenlijk geen WWW zoekrobot, maar een FMS zoekrobot, voorganger van DMS zoekrobotten Archie, 1990, McGill University; eigenlijk geen WWW zoekrobot, maar een FMS zoekrobot, voorganger van DMS zoekrobotten Lycos, 1994, Carnegie Mellon University; ongeveer 1.000.000 documenten geïndexeerd Lycos, 1994, Carnegie Mellon University; ongeveer 1.000.000 documenten geïndexeerd Altavista, 1995, Digital Equipment Corp; eerste meertalig zoekrobot (ENG, FRA, ESP, GER, POR, ITA, RUS) Altavista, 1995, Digital Equipment Corp; eerste meertalig zoekrobot (ENG, FRA, ESP, GER, POR, ITA, RUS) Google, 1998-2001, Google Corp; ontworpen voor massieve opschaling (duizendtallen computers onderhouden de index) Google, 1998-2001, Google Corp; ontworpen voor massieve opschaling (duizendtallen computers onderhouden de index) Baidu, 1999, China; eerste Chinees zoekrobot; gecensureerd door Chinese regering Baidu, 1999, China; eerste Chinees zoekrobot; gecensureerd door Chinese regering Quaero, 2006, Europa; multimedia zoekrobot (beelden, klanken, enz) Quaero, 2006, Europa; multimedia zoekrobot (beelden, klanken, enz) Zie www.searchengines.com Zie www.searchengines.comwww.searchengines.com

5 Zoekrobotten (4) Uit Wikipedia ©

6 Zoekrobotten (5) Prestatieparameters van zoekrobotten, op een gestelde vraag: Prestatieparameters van zoekrobotten, op een gestelde vraag: Recall: het aantal gevonden documenten Recall: het aantal gevonden documenten Relevance: een maat van hoe sterk de gevonden documenten aan de vraag beantwoorden Relevance: een maat van hoe sterk de gevonden documenten aan de vraag beantwoorden Return time: de tijd nodig om de documenten te vinden (of liever, referenties naar die documenten) Return time: de tijd nodig om de documenten te vinden (of liever, referenties naar die documenten) Typische verhouding tussen “recall” en “relevance”: Typische verhouding tussen “recall” en “relevance”: Recall Relevance

7 Zoekrobotten (6) Zoekvragen zijn Boolese uitdrukkingen met Zoekvragen zijn Boolese uitdrukkingen met EnAND + & EnAND + & OfOR | OfOR | NietNOT - ! NietNOT - ! NabijNEAR ~ NabijNEAR ~ Vorming van zinnen “ … “ Vorming van zinnen “ … “ Gebruik van haakjes ( ) is meestal toegelaten Gebruik van haakjes ( ) is meestal toegelaten Bijkomende opties op bepaalde zoekrobotten Bijkomende opties op bepaalde zoekrobotten Datum Datum Formaat van de bestanden Formaat van de bestanden Filters Filters Benadrukken van gezochte trefwoorden Benadrukken van gezochte trefwoorden Taalfuncties Taalfuncties Beperkte zoekgebieden Beperkte zoekgebieden

8 Zoekrobotten (7) Opbouwen van de index: door “(Web) Crawlers” (kruipprogramma’s) Opbouwen van de index: door “(Web) Crawlers” (kruipprogramma’s) Maken de ronde van de WWW; starten met een lijst van vooropgestelde URL’s Maken de ronde van de WWW; starten met een lijst van vooropgestelde URL’s Halen bladzijden in; deze fase wordt soms “spider” genoemd; opgehaalde bladzijden worden opgeslagen in een “cache” Halen bladzijden in; deze fase wordt soms “spider” genoemd; opgehaalde bladzijden worden opgeslagen in een “cache” Extraheren van trefwoorden uit de bladzijden en stoppen die in de index (“indexer”) Extraheren van trefwoorden uit de bladzijden en stoppen die in de index (“indexer”) Identificeren hyperlinks in de bladzijde, en ze doorgeven aan de “spider” Identificeren hyperlinks in de bladzijde, en ze doorgeven aan de “spider” Details over de werking van web crawlers worden dikwijls geheim gehouden door de firma’s die ze uitbaten Details over de werking van web crawlers worden dikwijls geheim gehouden door de firma’s die ze uitbaten

9 Zoekrobotten (8) (Web) crawlers worden ook anders genoemd: bots, wanderers, agents, enz (Web) crawlers worden ook anders genoemd: bots, wanderers, agents, enz Web crawlers kunnen ook andere taken vervullen Web crawlers kunnen ook andere taken vervullen Geautomatiseerd onderhoud van web sites Geautomatiseerd onderhoud van web sites Verzamelen van specifieke informatie (e-mail adressen, telefoonnummers) Verzamelen van specifieke informatie (e-mail adressen, telefoonnummers) Bewaking en detectie van nieuwigheden Bewaking en detectie van nieuwigheden Verzameling van statistische gegevens Verzameling van statistische gegevens Architectuur van web crawlers Architectuur van web crawlers Gecentraliseerd: bestaat praktisch niet meer Gecentraliseerd: bestaat praktisch niet meer Parallel: om vanuit verschillende processen, bladzijden in parallel op te laden Parallel: om vanuit verschillende processen, bladzijden in parallel op te laden Gedistribueerd: parallel maar ook fysisch verdeeld Gedistribueerd: parallel maar ook fysisch verdeeld Getypeerd: zoekproces beperkt zich tot bepaalde types Getypeerd: zoekproces beperkt zich tot bepaalde types

10 Zoekrobotten (9) Strategie van web crawlers Strategie van web crawlers Selectiestrategie bepaalt welke bladzijden opgeladen worden Selectiestrategie bepaalt welke bladzijden opgeladen worden Ontdekkingsmechanisme (exploratie)Ontdekkingsmechanisme (exploratie) Filtering bepaalt welke bladzijden weerhouden wordenFiltering bepaalt welke bladzijden weerhouden worden Prioriteitstrategie bepaalt de volgorde Prioriteitstrategie bepaalt de volgorde Herneemstrategie bepaalt wanneer reeds bezochte bladzijden opnieuw bekeken worden (cache refresh) Herneemstrategie bepaalt wanneer reeds bezochte bladzijden opnieuw bekeken worden (cache refresh) Parameters van een bladzijde in de cache van een zoekrobot/crawler Parameters van een bladzijde in de cache van een zoekrobot/crawler Versheid (freshness): {0, 1} functie van de tijd die aanduidt dat de cache een exacte kopie bevat Versheid (freshness): {0, 1} functie van de tijd die aanduidt dat de cache een exacte kopie bevat Ouderdom (age): functie van de tijd die de tijd sedert de laatste niet-gedetecteerde wijziging aangeeft Ouderdom (age): functie van de tijd die de tijd sedert de laatste niet-gedetecteerde wijziging aangeeft

11 Zoekrobotten (10) Gemiddelde versheid moet zo hoog mogelijk zijn Gemiddelde versheid moet zo hoog mogelijk zijn Gemiddeld ouderdom moet zo laag mogelijk zijn Gemiddeld ouderdom moet zo laag mogelijk zijn

12 Zoekrobotten (11) Herneemstrategie (revisiting) kan Herneemstrategie (revisiting) kan Uniform zijn t.o.v. wijzigingsfrequentie van bladzijden Uniform zijn t.o.v. wijzigingsfrequentie van bladzijden Snelveranderende bladzijden frequenter hernemen Snelveranderende bladzijden frequenter hernemen Een mengsel van beide aanpakken Een mengsel van beide aanpakken “Beleefdheid” van web crawlers “Beleefdheid” van web crawlers Crawlers moeten opletten om web servers met beperkte prestatie niet nodeloos zwaar te belasten Crawlers moeten opletten om web servers met beperkte prestatie niet nodeloos zwaar te belasten Slecht ontworpen crawlers kunnen web servers “platleggen”; vergelijkbaar met D.O.S. virussen Slecht ontworpen crawlers kunnen web servers “platleggen”; vergelijkbaar met D.O.S. virussen Verdedigingsmechanisme tegen agressieve crawlers Verdedigingsmechanisme tegen agressieve crawlers Robot.txt protocol (conventioneel gedefinieerd) in Robot.txt protocol (conventioneel gedefinieerd) in http://www.robotstxt.org/wc/norobots.html http://www.robotstxt.org/wc/norobots.html

13 Zoekrobotten (12) Uitdagingen voor zoekrobotten en crawlers: Uitdagingen voor zoekrobotten en crawlers: Groei van de WWW: 100.000 bladzijden per dag!!! Groei van de WWW: 100.000 bladzijden per dag!!! Bestaande bladzijden worden ook heel dikwijls aangepast; moeten eveneens opnieuw geïndexeerd worden, uitgenomen als de aanpassing triviaal is (klok) Bestaande bladzijden worden ook heel dikwijls aangepast; moeten eveneens opnieuw geïndexeerd worden, uitgenomen als de aanpassing triviaal is (klok) Google index wordt “in parallel” onderhouden door meer dan 5.000 computers Google index wordt “in parallel” onderhouden door meer dan 5.000 computers De “deep web” De “deep web” Informatie op de WWW die schuilt in databanken (SQL, Access, enz) Informatie op de WWW die schuilt in databanken (SQL, Access, enz) Bladzijden worden met deze informatie dynamisch opgebouwd n.a.v. ondervragingen Bladzijden worden met deze informatie dynamisch opgebouwd n.a.v. ondervragingen Web sites met toegangscontrole Web sites met toegangscontrole

14 Zoekrobotten (13) DMS-gerichte zoekrobotten DMS-gerichte zoekrobotten Het opslaan/wijzigen van een document in een DMS geeft een signaal door aan de indexmanager, dat een document (opnieuw) moet geïndexeerd worden Het opslaan/wijzigen van een document in een DMS geeft een signaal door aan de indexmanager, dat een document (opnieuw) moet geïndexeerd worden Omdat het gebeurt met speciale functies van het DMS Omdat het gebeurt met speciale functies van het DMS Kan ook met eenvoudige FMS Kan ook met eenvoudige FMS Het vernietigen van een document eveneens Het vernietigen van een document eveneens Zodanig dat referenties naar dit document kunnen ongeldig gemaakt worden Zodanig dat referenties naar dit document kunnen ongeldig gemaakt worden In andere documentenIn andere documenten In de indexIn de index

15 Zoekrobotten (14) Index kan veel meer dan trefwoorden bevatten Index kan veel meer dan trefwoorden bevatten Elk document wordt voorzien van metadata, al dan niet automatisch gegenereerd Elk document wordt voorzien van metadata, al dan niet automatisch gegenereerd Auteur, oorsprong, enz. Auteur, oorsprong, enz. Inhoudstafel Inhoudstafel Historiek van wijzigingen Historiek van wijzigingen Samenvatting (summarization), automatisch of niet Samenvatting (summarization), automatisch of niet Eventueel vertaald, automatisch of nietEventueel vertaald, automatisch of niet Semantische trefwoorden Semantische trefwoorden Die metadata worden ook geïndexeerd Die metadata worden ook geïndexeerd Met vrij complexe operaties, bvb. semantische links Met vrij complexe operaties, bvb. semantische links Zoekvragen (queries) kunnen ook op specifieke metadata slaan Zoekvragen (queries) kunnen ook op specifieke metadata slaan Zoekrobot wordt dan integraal component van DMS Zoekrobot wordt dan integraal component van DMS

16 Zoekrobotten (15) Ander type zoekrobotten: meta-zoekrobotten Ander type zoekrobotten: meta-zoekrobotten Hebben zelf geen index Hebben zelf geen index Vormen de vraag om naar de vraagvorm van een of meerdere andere robotten Vormen de vraag om naar de vraagvorm van een of meerdere andere robotten Sturen de vraag door, soms naar tientallen zoekrobotten, die wel over indextafels beschikken Sturen de vraag door, soms naar tientallen zoekrobotten, die wel over indextafels beschikken Verzamelen de resultaten Verzamelen de resultaten Passen bepaalde criteria toe, en tonen geconsolideerde resultaten aan de gebruiker Passen bepaalde criteria toe, en tonen geconsolideerde resultaten aan de gebruiker Bijkomende eigenschappen van meta-zoekrobotten Bijkomende eigenschappen van meta-zoekrobotten Beheren van toegangsrechten Beheren van toegangsrechten Groeperen van resultaten (“clusteren”) Groeperen van resultaten (“clusteren”) Andere functies, zoals vertaling van de vraag, expansie van de vraag, enz. Andere functies, zoals vertaling van de vraag, expansie van de vraag, enz. Gemengd WWW en DMS meta-zoekrobotten Gemengd WWW en DMS meta-zoekrobotten

17 De Google Story (1) Waarom is Google zo bijzonder? Waarom is Google zo bijzonder? De creatie van het product/systeem en van het bedrijf De creatie van het product/systeem en van het bedrijf De technologie De technologie De bedrijfscultuur De bedrijfscultuur Het business model Het business model van Googlevan Google rond Googlerond Google De evolutie van het product/systeem en de strategie van het bedrijf De evolutie van het product/systeem en de strategie van het bedrijf

18 De Google Story (2) Het artikel dat alles begon kwam van twee doctoraatstudenten van Stanford University Het artikel dat alles begon kwam van twee doctoraatstudenten van Stanford University “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, van Sergey Brin and Lawrence Page http://infolab.stanford.edu/~backrub/google.html Uit de samenvatting: “To engineer a search engine is a challenging task” Uit de samenvatting: “To engineer a search engine is a challenging task” Honderdtallen miljoenen Web bladzijden Honderdtallen miljoenen Web bladzijden Tientallen of honderdtallen miljoenen verschillende termen Tientallen of honderdtallen miljoenen verschillende termen Tientallen miljoenen queries per dag Tientallen miljoenen queries per dag Honderdtallen of duizendtallen per secondeHonderdtallen of duizendtallen per seconde

19 De Google Story (3) Basisconcept: Grootschalig Basisconcept: Grootschalig Naam: Google is een andere schrijfwijze voor “Googol”, of 10 100 Naam: Google is een andere schrijfwijze voor “Googol”, of 10 100 Yahoo! Was er vóór Google, maar: Yahoo! Was er vóór Google, maar: Het bijhouden van de “index” van Yahoo! Gebeurt manueel Het bijhouden van de “index” van Yahoo! Gebeurt manueel OK voor populaire onderwerpen OK voor populaire onderwerpen Ingewikkeld en duur Ingewikkeld en duur Werkt niet voor gespecialiseerde onderwerpen Werkt niet voor gespecialiseerde onderwerpen Zoekrobotten met automatische index, en vergelijking van trefwoorden Zoekrobotten met automatische index, en vergelijking van trefwoorden Leveren te veel resultaten op Leveren te veel resultaten op Kunnen door agressieve adverteerders gestoord worden Kunnen door agressieve adverteerders gestoord worden

20 De Google Story (4) Het artikel verscheen in 1998; het vermeldt Het artikel verscheen in 1998; het vermeldt World Wide Web Worm (94) 110,000 web bladzijden World Wide Web Worm (94) 110,000 web bladzijden WebCrawler (97) 2 to 100 million bladzijden WebCrawler (97) 2 to 100 million bladzijden Voorziet in 2000 meer dan 1 miljard bladzijden Voorziet in 2000 meer dan 1 miljard bladzijden Het artikel focusseert op “improved search quality” Het artikel focusseert op “improved search quality” Volledigheid van de index is geen garantie voor kwaliteit Volledigheid van de index is geen garantie voor kwaliteit “Recall” steeg, maar relevantie werd een probleem “Recall” steeg, maar relevantie werd een probleem Gebruikers kijken niet verder dan de eerste (tientallen) resultaten Gebruikers kijken niet verder dan de eerste (tientallen) resultaten

21 De Google Story (5) In de eerst dagen van Google was Internet snel een belangrijke plaats aan het innemen in de “business” wereld In de eerst dagen van Google was Internet snel een belangrijke plaats aan het innemen in de “business” wereld 1993: 1,5% van alle web sites waren van het.com type 1993: 1,5% van alle web sites waren van het.com type 1997: 60% van alle web sites 1997: 60% van alle web sites Maar ook … de “Internet bubble” die barstte in de vroege jaren 2000 Maar ook … de “Internet bubble” die barstte in de vroege jaren 2000 Einddoelstelling: Einddoelstelling: Bouw een architectuur om nieuwe onderzoeksactiviteiten te ondersteunen op (zeer) grote schaal Bouw een architectuur om nieuwe onderzoeksactiviteiten te ondersteunen op (zeer) grote schaal Ondersteun bijkomend onderzoek op een echt draaiend systeem; verschillende onderzoeksprojecten hebben gebruik gemaakt van gegevens ingezameld door Google Ondersteun bijkomend onderzoek op een echt draaiend systeem; verschillende onderzoeksprojecten hebben gebruik gemaakt van gegevens ingezameld door Google

22 De Google Story (6) Systeemeigenschappen Systeemeigenschappen Gebruik de linkstructuur van de Web om een quality ranking voor elke bladzijde te berekenen; deze ranking heet PageRank (is het “page” van “web page”, of “page” van “Larry Page” ?) Gebruik de linkstructuur van de Web om een quality ranking voor elke bladzijde te berekenen; deze ranking heet PageRank (is het “page” van “web page”, of “page” van “Larry Page” ?) De “citation” of “link graph” van de web is een belangrijk begrip dat reeds door andere zoekrobotten werd gebruikt De “citation” of “link graph” van de web is een belangrijk begrip dat reeds door andere zoekrobotten werd gebruikt De Citation number van een bladzijde is het aantal andere bladzijden die naar die bladzijde wijzen (met html hyperlinks) De Citation number van een bladzijde is het aantal andere bladzijden die naar die bladzijde wijzen (met html hyperlinks) Niet het aantal links op de bladzijde, maar Niet het aantal links op de bladzijde, maar Het aantal “backlinks” Het aantal “backlinks”

23 De Google Story (7) PageRank gebruikt dit begrip, maar beschouwt niet alle backlinks als gelijkwaardig; en normaliseert het aantal links op een bladzijde PageRank gebruikt dit begrip, maar beschouwt niet alle backlinks als gelijkwaardig; en normaliseert het aantal links op een bladzijde [citaat uit het artikel] We assume page A has T1, T2, … Tn which point to it. The parameter d is a damping factor, between 0 and 1 (usually d=0,85). C(A) is the number of links out of A. The PageRank of A is [citaat uit het artikel] We assume page A has T1, T2, … Tn which point to it. The parameter d is a damping factor, between 0 and 1 (usually d=0,85). C(A) is the number of links out of A. The PageRank of A is PR(A) = (1-d) + d * [ PR(T1)/C(T1) + … + (PR(Tn)/C(Tn) ] [citaat uit het artikel] PageRank for 26 millions web pages can be computed in a few hours on a medium size PC [citaat uit het artikel] PageRank for 26 millions web pages can be computed in a few hours on a medium size PC

24 De Google Story (8) Men kan aantonen dat PR(A) de waarschijnlijkheid is dat een “random” surfer op bladzijde A terecht komt, als hij van tijd tot tijd, gedurende het random surfen, van een random bladzijde herbegint Men kan aantonen dat PR(A) de waarschijnlijkheid is dat een “random” surfer op bladzijde A terecht komt, als hij van tijd tot tijd, gedurende het random surfen, van een random bladzijde herbegint Een Bladzijden A heeft een hoge PageRank PR(A) Een Bladzijden A heeft een hoge PageRank PR(A) Als er veel bladzijden naar A wijzen Als er veel bladzijden naar A wijzen Als er enkele bladzijden, die zelf een hoge PR hebben, naar A wijzen Als er enkele bladzijden, die zelf een hoge PR hebben, naar A wijzen PageRank is een maat van … PageRank is een maat van … De populariteit van een bladzijde De populariteit van een bladzijde Het belang van een bladzijde Het belang van een bladzijde De relevantie van een bladzijde, als de categorie juist is De relevantie van een bladzijde, als de categorie juist is

25 De Google Story (9) [from Wikipedia]

26 De Google Story (10) “Anchor text” voor links is het gedeelte van de tekst tussen de hyperlink tags: anchor text “Anchor text” voor links is het gedeelte van de tekst tussen de hyperlink tags: anchor text De meeste systemen beschouwen enkel “anchor text” als belangrijk in de bladzijde die de tekst bevat De meeste systemen beschouwen enkel “anchor text” als belangrijk in de bladzijde die de tekst bevat Google associeert ook de “anchor text” met de bladzijde waarneer de link verwijst Google associeert ook de “anchor text” met de bladzijde waarneer de link verwijst Het concept werd reeds gebruikt in de World Wide Web Worm Het concept werd reeds gebruikt in de World Wide Web Worm Werd van in het begin ook door Google gebruikt Werd van in het begin ook door Google gebruikt Google steekt ook alle bladzijden opgehaald door de spider in een cache Google steekt ook alle bladzijden opgehaald door de spider in een cache Gedurende het opbouwen van de index, maakt Google gebruik van formattering informatie in de tekst (bvb. grootte van de tekst) Gedurende het opbouwen van de index, maakt Google gebruik van formattering informatie in de tekst (bvb. grootte van de tekst)

27 De Google Story (11) De bedrijfscultuur van Google is uiterst open De bedrijfscultuur van Google is uiterst open Oprichten van “space-age” Googleplex gebouwen waarin werken leuk is Oprichten van “space-age” Googleplex gebouwen waarin werken leuk is

28 De Google Story (12) De “tien geboden” van Google 1. Focus on the user and all else will follow. 2. It's best to do one thing really, really well. 3. Fast is better than slow 4. Democracy on the web works 5. You don't need to be at your desk to need an answer 6. You can make money without doing evil 7. There's always more information out there 8. The need for information crosses all borders 9. You can be serious without a suit 10. Great just isn't good enough [ van http://www.google.com/corporate/tenthings.html ]http://www.google.com/corporate/tenthings.html

29 De Google Story (13) Het Google businessmodel Het Google businessmodel Het businessmodel voor commerciële zoekrobotten is reclame; de prioritaire resultaten bevatten dikwijls reclame Het businessmodel voor commerciële zoekrobotten is reclame; de prioritaire resultaten bevatten dikwijls reclame Er zijn twee soorten reclameresultaten op Google bladzijden Er zijn twee soorten reclameresultaten op Google bladzijden

30 De Google Story (14) Search Engine Optimization (SEO) Search Engine Optimization (SEO) Het verkeer naar een web site doen stijgen als het gevolg van natuurlijke zoekactiviteiten, … Het verkeer naar een web site doen stijgen als het gevolg van natuurlijke zoekactiviteiten, … … door de algoritmen te begrijpen die gebruikt worden door de crawler, de spider en de indexgenerator … … door de algoritmen te begrijpen die gebruikt worden door de crawler, de spider en de indexgenerator … … en de structuur van bladzijden aan te passen om een hoge ranking te verwerven … en de structuur van bladzijden aan te passen om een hoge ranking te verwerven Maar de algoritmen zijn dikwijls “geheim” Maar de algoritmen zijn dikwijls “geheim” Bug business voor consultanten in het ontwerpen van web site Bug business voor consultanten in het ontwerpen van web site Talrijke boeken werden hierover gepubliceerd Talrijke boeken werden hierover gepubliceerd 736 referenties op Google Books over SEO 736 referenties op Google Books over SEO 462 referenties op Amazon.com over SEO 462 referenties op Amazon.com over SEO

31 De Google Story (15) Andere projecten projects/products/systems: Andere projecten projects/products/systems: Searches (opzoekingen) op The web (classic Google) The web (classic Google) Images Images Video Video News News Maps Maps Blogs Blogs Books Books Finance Finance Labs Labs Patents Patents Photos Photos Products Products Scholar Scholar

32 Lijst zoekrobotten (1) Algemene Zoekrobotten (soms gebruik makend van andere) www.altavista.com www.altavista.com www.askjeeves.com www.askjeeves.com www.excite.com www.excite.com www.go.com www.go.com www.go2.com www.go2.com www.google.com www.google.com www.hotbot.com www.hotbot.com www.lycos.com www.lycos.com www.northernlight.com www.northernlight.com www.opentext.com www.opentext.com www.rocketnews.com www.rocketnews.com www.teoma.com www.teoma.com www.webcrawler.com www.webcrawler.com www.vivisimo.com www.vivisimo.com

33 Lijst zoekrobotten (2) Gespecialiseerde Zoekrobotten www.lexibot.comdeep Web www.lexibot.comdeep Web www.quigo.comdeep Web www.quigo.comdeep Web www.about.comdirectory www.about.comdirectory www.looksmart.comdirectory www.looksmart.comdirectory www.netcenter.comdirectory www.netcenter.comdirectory www.suite101.comdirectory www.suite101.comdirectory www.a9.commetasearch www.a9.commetasearch www.dogpile.commetasearch www.dogpile.commetasearch www.go2net.commetasearch www.go2net.commetasearch www.mamma.commetasearch www.mamma.commetasearch www.profusion.commetasearch www.profusion.commetasearch www.search.commetasearch www.search.commetasearch www.webinfosearch.commetasearch www.webinfosearch.commetasearch

34 Lijst zoekrobotten (3) Web Crawlers 1 JumpStation JumpStation RBSE Spider RBSE Spider WebCrawler WebCrawler The NorthStar Robot The NorthStar Robot W4 (the World Wide Web Wanderer) W4 (the World Wide Web Wanderer) Fish search Fish search The Python Robot The Python Robot html_analyzer html_analyzer MOMspider MOMspider HTMLgobble HTMLgobble WWWW - the WORLD WIDE WEB WORM WWWW - the WORLD WIDE WEB WORM W3M2 W3M2 Websnarf Websnarf The Webfoot Robot The Webfoot Robot Lycos Lycos

35 Lijst zoekrobotten (4) Web Crawlers 2 ASpider (Associative Spider) ASpider (Associative Spider) SG-Scout SG-Scout EIT Link Verifier Robot EIT Link Verifier Robot NHSE Web Forager NHSE Web Forager WebLinker WebLinker Emacs-w3 Search Engine Emacs-w3 Search Engine Arachnophilia Arachnophilia Mac WWWWorm Mac WWWWorm churl churl tarspider tarspider The Peregrinator The Peregrinator Checkbot Checkbot webwalk webwalk Harvest Harvest Katipo Katipo

36 Lijst zoekrobotten (5) Web Crawlers 3 InfoSeek Robot 1.0 InfoSeek Robot 1.0 Open Text Corporation Robot Open Text Corporation Robot The TkWWW Robot The TkWWW Robot Tcl W3 Robot Tcl W3 Robot CS-HKUST WWW Index Server CS-HKUST WWW Index Server Spry Wizard Robot Spry Wizard Robot weblayers weblayers WebCopy WebCopy Scooter Scooter Aretha Aretha WebWatch WebWatch ArchitextSpider ArchitextSpider HI (HTML Index) Search HI (HTML Index) Search Hämähäkki Hämähäkki explorer explorer

37 Lijst zoekrobotten (6) Web Crawlers 4 Senrigan Senrigan FunnelWeb FunnelWeb The Jubii Indexing Robot The Jubii Indexing Robot Jobot Jobot DeWeb(c) Katalog/Index DeWeb(c) Katalog/Index Web Core / Roots Web Core / Roots Robot Francoroute Robot Francoroute Duppies Duppies IncyWincy IncyWincy IBM_Planetwide IBM_Planetwide Nomad Nomad UCSD Crawl UCSD Crawl webfetcher webfetcher libertech-rover libertech-rover HTDig HTDig

38 Lijst zoekrobotten (7) Web Crawlers 5 BlackWidow BlackWidow Pioneer Pioneer NetCarta WebMap Engine NetCarta WebMap Engine Wild Ferret Web Hopper #1, #2, #3 Wild Ferret Web Hopper #1, #2, #3 BackRub BackRub Templeton Templeton Wombat Wombat Inktomi Inktomi HKU WWW Octopus HKU WWW Octopus Vision Search Vision Search Resume Robot Resume Robot w3mir w3mir SafetyNet Robot SafetyNet Robot GetBot GetBot CACTVS Chemistry Spider CACTVS Chemistry Spider

39 Lijst zoekrobotten (8) Web Crawlers 6 Travel-Finder Spider Travel-Finder Spider pka pka ILSE ILSE Personal Times Personal Times Israeli-search Israeli-search Infoseek Sidewinder Infoseek Sidewinder WebMirror WebMirror........

Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

Verwante presentaties

Presentatie over: "Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback

Inloggen

Inloggen via een sociaal netwerk:

Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent.

Verwante presentaties

Presentatie over: "Documentverwerking P10 Zoekrobotten Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent."— Transcript van de presentatie:

Verwante presentaties

Over het project

Feedback