Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er loopt een pijl van een knoop naar een andere knoop als er een link is van de ene naar de andere webpagina Veel knopen: ~ 11.5 miljard! Nog (veel) meer pijlen… Bedenk… … dat niemand deze graaf exact kent! (Ook Google niet) …zoekmachines slechts met een deel werken, door de crawlers in kaart gebracht (maar dat snel veroudert…).
Structuur van het Web Mathematical Institute LAPP-Top C-I Structuur van een deel van het Web: (opnieuw) •200 miljoen pagina’s, 1.5 miljard links •Door Broder et al. (2000) SCC:Strictly Connected Component
Precieze graaf van het gecrawlde deel van het Web (op ‘een’ tijdstip) Google’s PageRank Mathematical Institute LAPP-Top C-I ? ? Echte Web Gebruik de ‘spiders’ om een webgraaf te maken van een deel van het (Surface) Web
Google’s PageRank Mathematical Institute LAPP-Top C-I Idee: Een pagina is belangrijk als veel en\of belangrijke pagina’s naar haar linken Google: hoe belangrijker de pagina, des te hoger de PageRank Hoe dit idee exact / wiskundig maken? Hoe hiermee praktisch te rekenen?
Google’s PageRank Mathematical Institute LAPP-Top C-I incidentiematrix=link matrix Voorbeeld Web Dus: Is dit een goede keuze?
Google’s PageRank Mathematical Institute LAPP-Top C-I incidentiematrix Voorbeeld Web Truc: verdeel de PageRank van een pagina eerlijk over haar uitgaande links Dan:
Google’s PageRank Mathematical Institute LAPP-Top C-I Dit geeft de PageRank vergelijkingen:
Google’s PageRank Mathematical Institute In de vorm van een matrixvergelijking wordt dit: = LAPP-Top C-I Of: = met
Google’s PageRank Mathematical Institute LAPP-Top C-I Gevraagd: een oplossing van de PageRank vergelijking Bestaat er altijd een oplossing? Zo ja, willen we er maar eentje! Wanneer is dit het geval? Twee stappen: Vergelijk link matrix en P Physisch model van random surfer om dit beter te begrijpen
3 Link matrix en P Mathematical Institute LAPP-Top C-I In linkmatrix: deel rij van webpagina i door het aantal uitgaande links rij i van P Rijen van P tellen op tot 1, elementen zijn niet-negatief d.w.z. P is een stochastische matrix
Machten van P Mathematical Institute LAPP-Top C-I dus: Kunnen we berekenen via matrixvermenigvuldiging: Zijn allemaal stochastisch!!
Verdelen.... Mathematical Institute LAPP-Top C-I Van gaat naar ennaar
Random surfer Mathematical Institute LAPP-Top C-I Is precies 2-de rij van Wat stelt dit nu voor? Dit is de kansverdeling waar een random surfer die op pagina 2 begint, na 2 klikken terecht komt
Random surfer Mathematical Institute LAPP-Top C-I Definieer de bezoekfrequenties van de random surfer: kans dat random surfer op pagina i begint kans dat random surfer na N klikken op pagina i is Bezoekfrequenties te berekenen via formule (Paragraaf 5.1, M= aantal webpagina’s)
Random surfer verdeling Mathematical Institute LAPP-Top C-I Stelling: in ons voorbeeld web geldt de PageRank vergelijking heeft 1 oplossing voor elk startpunt van de random surfer geldt dat Vraag: geldt dit altijd?? Volgende week ,3
Random surfer Mathematical Institute LAPP-Top C-I Idee:
Problemen: dangling node Mathematical Institute LAPP-Top C-I
Problemen Mathematical Institute LAPP-Top C-I
Google’s PageRank Mathematical Institute LAPP-Top C-I
Google’s PageRank Mathematical Institute LAPP-Top C-I
Google’s PageRank Mathematical Institute LAPP-Top C-I
Google’s PageRank Mathematical Institute LAPP-Top C-I
Google’s PageRank Mathematical Institute LAPP-Top C-I
Google’s PageRank Mathematical Institute LAPP-Top C-I
-graaf: Volledige graaf, zonder dangling links; surfer kan nooit in een deel ‘blijven hangen’ Google’s PageRank Mathematical Institute LAPP-Top C-I(26) Sander Hille 2.)‘Verwijder’ dangling links door ‘easily bored surfer model’: surfers kunnen met een (kleine) kans naar een willekeurige andere pagina klikken Precieze graaf van het gecrawlde deel van het Web Woensdag, 21 januari 2009
Google’s PageRank Mathematical Institute LAPP-Top C-I(27) Sander Hille ‘Google vergelijkingen’: Sergey Brin en Larry Page (voor i = 1,…, n ) n :Totaal aantal pagina’s (knopen) in de Googlegraaf d :‘Dempingsfactor’ (Google: d = 0.85) N j :Aantal uitgaande links vanuit knoop j A ji :‘Aantal’ links van knoop j naar knoop i (waarde: 0 of 1) PR( i ):PageRank van pagina i Woensdag, 21 januari 2009
Google’s PageRank Mathematical Institute LAPP-Top C-I(27) Sander Hille ‘Google vergelijkingen’: Sergey Brin en Larry Page (voor i = 1,…, n ) Bedenk dat … … de Google-PageRank hoort bij de zogenaamde Google-graaf; niet bij het web of bij het gecrawlde deel van het web (op een zeker tijdstip) … de Google-PageRank niet kijkt naar de inhoud van de pagina’s. … eens per maand wordt berekend! ‘Google dance’ In vervolg gaan we de vergelijkingen ‘afleiden’/aannemelijk maken Woensdag, 21 januari 2009
Google’s PageRank Mathematical Institute LAPP-Top C-I(27) Sander Hille ‘Google vergelijkingen’: Sergey Brin en Larry Page (voor i = 1,…, n ) Bedenk dat … … de Google-PageRank hoort bij de zogenaamde Google-graaf; niet bij het web of bij het gecrawlde deel van het web (op een zeker tijdstip) … de Google-PageRank niet kijkt naar de inhoud van de pagina’s. … eens per maand wordt berekend! ‘Google dance’ In vervolg gaan we de vergelijkingen ‘afleiden’/aannemelijk maken Woensdag, 21 januari 2009
Het Web als een graaf Mathematical Institute LAPP-Top C-I(23) Sander Hille ‘Dangling nodes’ Dead ends / pagina’s zonder uit-link Dead end •Herkenbaar aan een rij 0-en in de incidentiematrix: ~ 80% van de pagina’s in een webgraaf die verkregen is uit een ‘crawl’ zijn dangling nodes… Kevin McCurley: collectie dangling nodes in een crawl: Web Frontier