Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er.

Slides:



Advertisements
Verwante presentaties
Politiek Bedrijven Arnhem, 5 april 2005.
Advertisements

H3 Tweedegraads Verbanden
Sudoku puzzels: hoe los je ze op en hoe maak je ze?
28 juni 2009 Paëllanamiddag 1 Paëllanamiddag 28 juni 2009 Voorbereiding vrijdagavond (Loopt automatisch - 7 seconden)
Differentie vergelijkingen differentie vergelijkingen
Welkom.
H 14: Enkelvoudige interest
dia's bij lessenserie Pythagoras ± v Chr.
Marcel Vonk Museum Boerhaave, 10 mei 2010
voor de zomervakantie tot
Het oog wil oog wat. Kijk ook op
Excel, zin in een potje Zeeslag?
Hogere Wiskunde Complexe getallen college week 6
© BeSite B.V www.besite.nl Feit: In 2007 is 58% van de organisaties goed vindbaar op internet, terwijl in 2006 slechts 32% goed vindbaar.
Oppervlakten berekenen
WISKUNDIGE FORMULES.
Visibility-based Probabilistic Roadmaps for Motion Planning Tim Schlechter 13 februari 2003.
Oppervlakten berekenen een mogelijke ontstaansgeschiedenis voor integralen... 6de jaar – 3 & 4u wiskunde Pedro Tytgat: Aanpassing Ronny Vrijsen.
vwo C Samenvatting Hoofdstuk 12
Regelmaat in getallen … … …
Regelmaat in getallen (1).
Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)
Deze les wordt verzorgd door de Kansrekening en statistiekgroep Faculteit W&I TU/e.
BiO-M Wiskundig Modelleren BiO-M Wiskundig Modelleren Lineair Programmerings-modellen Hoorcollege 2.
Beslisbomen Robert de Hoog College Beslissingsondersteuning 26 september 2002.
TU Delft Groep Parallelle en Gedistribueerde Systemen Voorbeeld uitwerking reductie bewijs in3120 Cees Witteveen.
T U Delft Parallel and Distributed Systems group PGS Fundamentele Informatica in345 Deel 2 Oplossing Langste Pad Probleem Cees Witteveen
Bewegen Hoofdstuk 3 Beweging Ing. J. van de Worp.
Workshop: Geheimschrift op de TI-83+
Het Rekennet Een project van het Freudenthal Instituut met als doel het ondersteunen van leraren basisonderwijs bij rekenen-wiskunde Sociale Netwerk Rekenweb.
Een inleiding. Door: M.J.Roos 8 mei 2011
Hogere wiskunde Limieten college week 4
ribwis1 Toegepaste wiskunde Lesweek 3
ribwis1 Toegepaste wiskunde Lesweek 2
ribwis1 Toegepaste wiskunde – Exponentiele functies Lesweek 5
ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B
havo A Samenvatting Hoofdstuk 3
Tweedegraadsfuncties
3 factoren die de Google Ranking bepalen 1. Pagerank 3 factoren die de Ranking bepalen: “ Goede content “ 2. Duur op website + social media knoppen 3.
Wauw!!! Google Panda update WAUW !!!!. Google Panda update Plots geen bezoekers en/of omzet meer? In de US had deze update een impact op bijna 12% van.
Datastructuren Sorteren, zoeken en tijdsanalyse
1 van 8 Bernoulli-stochasten & Binomiale stochasten © CI 2003.
H4 Differentiëren.
ECHT ONGELOOFLIJK. Lees alle getallen. langzaam en rij voor rij
Interpreteren van data
De weegschaal methode Een goede methode om vergelijkingen mee op te lossen Klik linksonder op deze knop om presentatie te starten. volgende VMBO - Wiskunde.
Leer de toetsen van een keyboard!
“Een dure GSM hebben ze wel, maar hun schoolrekening betalen…”
PERIODE 2 Checkpoints Door: Achraf Chouhabi H4E. * Het ordenen van gegevens is heel belangrijk, omdat zonder het ordenen van de gegevens je niks meer.
Google versus Bing Gigantenstrijd.
havo B Samenvatting Hoofdstuk 1
24/11/ DE ADVIEZEN VAN BEURSMAKELAAR BERNARD BUSSCHAERT Week Stemkeuze is Vooral je eigen belang nastreven Spaarders vergeten dit soms.
Handleiding ClassDojo
Verbanden JTC’07.
Baarde en de goede Hoofdstuk 11: Data-analyse
45 levenslessen Klikken voor vervolg Muziek: snowdream.
ABC formule Algemeen Voorbeeld: Herleid naar: Nu volgorde veranderen:
Online marketing Expert (in een week)
T U Delft Parallel and Distributed Systems group PGS Fundamentele Informatica in345 Deel 2 College 6 Cees Witteveen.
Vervolg C Hogeschool van Utrecht / Institute for Computer, Communication and Media Technology 1 Onderwerpen voor vandaag top-down decompositie Opdrachten:
Ladies at Science – wiskunde 29 april 2015
Rekenen.
Kansverdelingen Kansverdelingen Inleiding In deze presentatie gaan we kijken naar hoe kansen zijn verdeeld. We gaan in op verschillende.
Hoe positioneer ik mijn uitgeverij 10 do’s en dont’s Windkracht62 1 WINDKRACHT (0) Ian Muller.
Basics SERP = Search Engine Results Page Betaalde resultaten = SEA Natuurlijke resultaten = SEO Search Engine Optimization SEO is een lange termijn verhaal.
Minimum Opspannende Bomen Algoritmiek. 2 Inhoud Het minimum opspannende bomen probleem Een principe om een minimum opspannende boom te laten groeien Twee.
Datastructuren voor grafen Algoritmiek. 2 Grafen Model van o.a.: –Wegennetwerk –Elektrische schakeling –Structuur van een programma –Computernetwerk –…
Vertelkast Sam Dielemans
Datastructuren voor graafrepresentatie
havo B Samenvatting Hoofdstuk 1
Transcript van de presentatie:

Het Web als een graaf Mathematical Institute LAPP-Top C-I We kunnen het (Surface) Web zien als een gerichte graaf: •Iedere webpagina is een knoop… •Er loopt een pijl van een knoop naar een andere knoop als er een link is van de ene naar de andere webpagina Veel knopen: ~ 11.5 miljard! Nog (veel) meer pijlen… Bedenk… … dat niemand deze graaf exact kent! (Ook Google niet) …zoekmachines slechts met een deel werken, door de crawlers in kaart gebracht (maar dat snel veroudert…).

Structuur van het Web Mathematical Institute LAPP-Top C-I Structuur van een deel van het Web: (opnieuw) •200 miljoen pagina’s, 1.5 miljard links •Door Broder et al. (2000) SCC:Strictly Connected Component

Precieze graaf van het gecrawlde deel van het Web (op ‘een’ tijdstip) Google’s PageRank Mathematical Institute LAPP-Top C-I ? ? Echte Web Gebruik de ‘spiders’ om een webgraaf te maken van een deel van het (Surface) Web

Google’s PageRank Mathematical Institute LAPP-Top C-I Idee: Een pagina is belangrijk als veel en\of belangrijke pagina’s naar haar linken Google: hoe belangrijker de pagina, des te hoger de PageRank Hoe dit idee exact / wiskundig maken? Hoe hiermee praktisch te rekenen?

Google’s PageRank Mathematical Institute LAPP-Top C-I incidentiematrix=link matrix Voorbeeld Web Dus: Is dit een goede keuze?

Google’s PageRank Mathematical Institute LAPP-Top C-I incidentiematrix Voorbeeld Web Truc: verdeel de PageRank van een pagina eerlijk over haar uitgaande links Dan:

Google’s PageRank Mathematical Institute LAPP-Top C-I Dit geeft de PageRank vergelijkingen:

Google’s PageRank Mathematical Institute In de vorm van een matrixvergelijking wordt dit: = LAPP-Top C-I Of: = met

Google’s PageRank Mathematical Institute LAPP-Top C-I Gevraagd: een oplossing van de PageRank vergelijking Bestaat er altijd een oplossing? Zo ja, willen we er maar eentje! Wanneer is dit het geval? Twee stappen: Vergelijk link matrix en P Physisch model van random surfer om dit beter te begrijpen

3 Link matrix en P Mathematical Institute LAPP-Top C-I In linkmatrix: deel rij van webpagina i door het aantal uitgaande links rij i van P Rijen van P tellen op tot 1, elementen zijn niet-negatief d.w.z. P is een stochastische matrix

Machten van P Mathematical Institute LAPP-Top C-I dus: Kunnen we berekenen via matrixvermenigvuldiging: Zijn allemaal stochastisch!!

Verdelen.... Mathematical Institute LAPP-Top C-I Van gaat naar ennaar

Random surfer Mathematical Institute LAPP-Top C-I Is precies 2-de rij van Wat stelt dit nu voor? Dit is de kansverdeling waar een random surfer die op pagina 2 begint, na 2 klikken terecht komt

Random surfer Mathematical Institute LAPP-Top C-I Definieer de bezoekfrequenties van de random surfer: kans dat random surfer op pagina i begint kans dat random surfer na N klikken op pagina i is Bezoekfrequenties te berekenen via formule (Paragraaf 5.1, M= aantal webpagina’s)

Random surfer verdeling Mathematical Institute LAPP-Top C-I Stelling: in ons voorbeeld web geldt de PageRank vergelijking heeft 1 oplossing voor elk startpunt van de random surfer geldt dat Vraag: geldt dit altijd?? Volgende week ,3

Random surfer Mathematical Institute LAPP-Top C-I Idee:

Problemen: dangling node Mathematical Institute LAPP-Top C-I

Problemen Mathematical Institute LAPP-Top C-I

Google’s PageRank Mathematical Institute LAPP-Top C-I

Google’s PageRank Mathematical Institute LAPP-Top C-I

Google’s PageRank Mathematical Institute LAPP-Top C-I

Google’s PageRank Mathematical Institute LAPP-Top C-I

Google’s PageRank Mathematical Institute LAPP-Top C-I

Google’s PageRank Mathematical Institute LAPP-Top C-I

-graaf: Volledige graaf, zonder dangling links; surfer kan nooit in een deel ‘blijven hangen’ Google’s PageRank Mathematical Institute LAPP-Top C-I(26) Sander Hille 2.)‘Verwijder’ dangling links door ‘easily bored surfer model’: surfers kunnen met een (kleine) kans naar een willekeurige andere pagina klikken Precieze graaf van het gecrawlde deel van het Web Woensdag, 21 januari 2009

Google’s PageRank Mathematical Institute LAPP-Top C-I(27) Sander Hille ‘Google vergelijkingen’: Sergey Brin en Larry Page (voor i = 1,…, n ) n :Totaal aantal pagina’s (knopen) in de Googlegraaf d :‘Dempingsfactor’ (Google: d = 0.85) N j :Aantal uitgaande links vanuit knoop j A ji :‘Aantal’ links van knoop j naar knoop i (waarde: 0 of 1) PR( i ):PageRank van pagina i Woensdag, 21 januari 2009

Google’s PageRank Mathematical Institute LAPP-Top C-I(27) Sander Hille ‘Google vergelijkingen’: Sergey Brin en Larry Page (voor i = 1,…, n ) Bedenk dat … … de Google-PageRank hoort bij de zogenaamde Google-graaf; niet bij het web of bij het gecrawlde deel van het web (op een zeker tijdstip) … de Google-PageRank niet kijkt naar de inhoud van de pagina’s. … eens per maand wordt berekend! ‘Google dance’ In vervolg gaan we de vergelijkingen ‘afleiden’/aannemelijk maken Woensdag, 21 januari 2009

Google’s PageRank Mathematical Institute LAPP-Top C-I(27) Sander Hille ‘Google vergelijkingen’: Sergey Brin en Larry Page (voor i = 1,…, n ) Bedenk dat … … de Google-PageRank hoort bij de zogenaamde Google-graaf; niet bij het web of bij het gecrawlde deel van het web (op een zeker tijdstip) … de Google-PageRank niet kijkt naar de inhoud van de pagina’s. … eens per maand wordt berekend! ‘Google dance’ In vervolg gaan we de vergelijkingen ‘afleiden’/aannemelijk maken Woensdag, 21 januari 2009

Het Web als een graaf Mathematical Institute LAPP-Top C-I(23) Sander Hille ‘Dangling nodes’ Dead ends / pagina’s zonder uit-link Dead end •Herkenbaar aan een rij 0-en in de incidentiematrix: ~ 80% van de pagina’s in een webgraaf die verkregen is uit een ‘crawl’ zijn dangling nodes… Kevin McCurley: collectie dangling nodes in een crawl: Web Frontier