Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)

Slides:

Advertisements

Verwante presentaties

Optellen en aftrekken tot 20

Advertisements

Transitie Ouderenzorg

H3 Tweedegraads Verbanden

Digitaal wedstrijd formulier Presentatie scheidsrechters Versie sept 2013.

Programmeren met Alice

Algoritmische problemen Onbeslisbaar / niet-berekenbaar Geen algoritme mogelijk Tegel- of domino-problemen Woordcorrespondentie-probleem Syntactisch equivalentie.

Datastructuren Quicksort

Dynamische tijdbalk Een dynamische tijdbalk geeft een uitvergroot deel van de algemene tijdbalk weer. Hij heet dynamisch omdat hij er voor elke periode.

Hoofdstuk 8: Recursie.

Workshop creatief brainstormen

Ronde (Sport & Spel) Quiz Night !

Practica Computerlinguistiek Tekst en uitleg:

Datastructuren Analyse van Algoritmen en O

Datastructuren Analyse van Algoritmen en O

‘Inleiding programmeren in Java’ SWI cursus: ‘Inleiding programmeren in Java’ 4e college Woe 19 januari 2000 drs. F. de Vries.

F. Rubben NI Lookout 1 06/RIS/05 - NI Lookout VTI Brugge F. Rubben, ing.

De implementatie van de UIML standaard in UIML.NET Ingo Berben Eindwerk voorgedragen tot het behalen van de graad van bachelor in de informatica/ICT/kennistechnologie.

1 Tentamen 21 januari 2008 uitleg Algemene kennisvragen a)“Wat verstaan we onder de complexiteit van een algoritme?” –Cruciaal: wat gebeurt er met.

1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen College 5.

Fibonacci & Friends Met dank aan Gerard Tel.

Datastructuren Zoekbomen

1 Datastructuren Heapsort College 4. 2 Vandaag  Kort: ADT vs Datastructuur  Heaps en Heapsort  Tijd over: ondergrenzen voor sorteren; nog sneller sorteren.

1 Datastructuren Zoekbomen II Invoegen en weglaten.

1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen (II) College 6.

Gebalanceerde bomen Zoekbomen: weglaten in rood-zwart-bomen.

Visibility-based Probabilistic Roadmaps for Motion Planning Tim Schlechter 13 februari 2003.

Dijkstra Kortste pad algoritme.

Assenstelsels en het plotten van Functies in LOGO

IJspakketten Annette Ficker Tim Oosterwijk

Inleidend probleem Data structuur (hiërarchie van classes)

1 Complexiteit Bij motion planning is er sprake van drie typen van complexiteit –Complexiteit van de obstakels (aantal, aantal hoekpunten, algebraische.

1 Datastructuren Quicksort en andere sorteermethoden College 3.

1 Datastructuren Skiplists. 2 Skiplists  Vrij eenvoudige datastructuur  “Makkelijker” dan gebalanceerde bomen  Kunnen hetzelfde als gebalanceerde bomen.

1 Optuigen van datastructuren 2 Dynamische order statistics (2)

Optuigen van datastructuren

Datastructuren Sorteren: bubble, merge, quick

1 Datastructuren Heapsort (2e deel) College 5. 2 Vandaag  Heaps en Heapsort  (eind)  Nog sneller sorteren:  Ondergrenzen  Linair sorteren.

H6: veeltermen. 1) Veelterm:.

Werken aan Intergenerationele Samenwerking en Expertise.

ribwis1 Toegepaste wiskunde Lesweek 3

Tweedegraadsfuncties

Optuigen van datastructuren Datastructuren Onderwerp 11.

Datastructuren Sorteren, zoeken en tijdsanalyse

1 Datastructuren Een informele inleiding tot Skiplists Onderwerp 13.

Sorteeralgoritmen. Sorteren: aanpak 1 Hoe ga je een rij getallen sorteren met PC? Sorteren door selectie (= selection sort): Zoek de kleinste waarde Sorteer.

A H M F K EB C x 91 Van hand veranderen voor de X splitsen en Rechangeren. Met de nieuwe partner op.

A H M F K EB C x 85 Korte zijde bij C 2 e secties volte 14 m en op afstand komen ( 0,5 rijbaan)

OO Analyse in de praktijk OO Analyse in de praktijk V Enkele Design Patterns.

ECHT ONGELOOFLIJK. Lees alle getallen. langzaam en rij voor rij

Shortest path with negative arc-costs allowed. Dijkstra?

GELIJKNAMIGE BREUKEN les 31.

Fractale en Wavelet Beeldcompressie

Algoritme Inhoud: Definitie algoritme Recursieve algoritmes Opgaven

De financiële functie: Integrale bedrijfsanalyse©

1 Zie ook identiteit.pdf willen denkenvoelen 5 Zie ook identiteit.pdf.

Hoofdstuk 6 Allerlei verbanden.

T U Delft Parallel and Distributed Systems group PGS Fundamentele Informatica in345 Deel 2 College 6 Cees Witteveen.

Vervolg C Hogeschool van Utrecht / Institute for Computer, Communication and Media Technology 1 Onderwerpen voor vandaag top-down decompositie Opdrachten:

Torens van Hanoi ● Uitgevonden door Franse Wiskundige Edouard Lucas in ● Beschreven in zijn wiskundig “spelletjesboek” Récréations Mathématiques.

1 PI1 week 9 Complexiteit Sorteren Zoeken. 2 Complexiteit van algoritmen Hoeveel werk kost het uitvoeren van een algoritme (efficiëntie)? –tel het aantal.

Minimum Opspannende Bomen Algoritmiek. 2 Inhoud Het minimum opspannende bomen probleem Een principe om een minimum opspannende boom te laten groeien Twee.

Doorzoeken van grafen Algoritmiek. Algoritmiek: Divide & Conquer2 Vandaag Methoden om door grafen te wandelen –Depth First Search –Breadth First Search.

Divide & Conquer: Verdeel en Heers vervolg Algoritmiek.

Berekening van de Orde Van een Algoritme

Minimum Opspannende Bomen

Modderdorp UNPLUGGED Bron: csunplugged.org.

Software Development fundamentals

Python – For loop + strings

Transcript van de presentatie:

Parallelle Algoritmen String matching

1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok) berekenen m.b.v. brute force algoritme –Kijkt voor elke k in 1..m-i+1 of dat een geldige WITNESS(j) kan zijn -> O(m) operaties Proberen werk te verminderen

2 Beter algoritme patroonanalyse (2) Input: een patroon P(1:m) met m = 2 s Output: de WITNESS(1:r) array met r = min(p,2 s-1 ) en p de periode van P

3 Beter algoritme patroonanalyse (3) 1.for 1 ≤ i ≤ m/2 pardo WITNESS(i) := 0 2.for i = 1 to s - 1 do 1.j := kandidaat in eerste i-blok, bereken WITNESS(j) via brute force met prefix P(1:2 i+1 ). Als WITNESS(j) != 0, ga verder zoals in vorig algoritme voor deze iteratie, anders is p := j-1 de periode van van P(1:2 i+1 ) 2.zoek grootste  ≥ i + 1 zodat p een periode is van P(1:2  ). Als  = log(m), p is de periode van het hele patroon -> klaar 3.gebruik lemma (zie verder) om alle WITNESS(l) met p ≤ l ≤ 2  -1 te bepalen en gebruik duels voor een aantal eliminaties bij de rest

4 Beter algoritme patroonanalyse (4) Lemma Als: –p periode van P(1:2  ) maar niet van P(1:2  +1 ) –waarden WITNESS(t) voor 2 ≤ t ≤ p beschikbaar en WITNESS(t) ≤ r < 2  Dan: Voor elke k met p < k ≤ 2  geldt: 1.als k ≠ 1 mod p en k ≤ 2  - r, dan geldt WITNESS(k) = WITNESS(k mod p) 2.als k = 1 mod p, stel dan w = kleinste index waarvoor P(w) ≠ P(p+w), dan geldt WITNESS(k) = p + w - k + 1

5 Beter algoritme patroonanalyse (5) Complexiteit: 1.WITNESS array initializeren: tijd: O(1) werk: O(m/2) = O(m) 2.WITNESS waarden berekenen: 1.WITNESS(kand. eerste i-blok) berekenen: tijd: O(1) werk: O(2 i )

6 Beter algoritme patroonanalyse (6) Complexiteit (vervolg) 2.WITNESS waarden berekenen: Als P(1:2 i+1 ) niet periodiek, duels uitvoeren: tijd: O(1) werk: O(m/2 i ) Als P(1:2 i+1 ) wel periodiek met periode p: 1.kijken tot waar periode zich uitstrekt (stel tot P(1:2  )): tijd: (  -i) * O(1) = O(  -i) werk: = O(2  )

7 Beter algoritme patroonanalyse (7) Complexiteit (vervolg) 2.WITNESS waarden berekenen: 2.WITNESS(j) met 2 ≤ j ≤ 2  -1 bepalen (lemma): tijd: O(1) werk: 2  -1 * O(1) = O(2  -1 ) 3.duels uitvoeren onder overige elementen: tijd: (  -i) * O(1) = O(  -i) werk: (2  -i ) * O(m/2  ) = O(m/2 i )

8 Beter algoritme patroonanalyse (8) Complexiteit (vervolg) Totaal om van iteratieTotaal: naar iteratie  te gaan: –tijd: O(  -i)O(log m) –werk: O(m/2 i + 2  )O(m) PRAM model: CRCW PRAM

9 Suffix bomen een digitale zoekboom T is een gewortelde boom met m bladen zodat 1.elke tak is gelabeld met een element van ∑ en is gericht weg van de wortel 2.geen twee takken hebben hetzelfde label 3.elk pad van de wortel naar een blad identificeert een Y i

10 Suffix bomen een suffix boom T X is een suffix boom geassocieerd met een string X: analoog als zoekboom, maar elke tak is gelabeld met een substring van X i.p.v. een enkel teken -> compacte versie van een zoekboom

11 Suffix bomen (2) Algoritme om suffix boom T X voor string X op te stellen (“vaag”): input: X# := string X met lengte 2 q = m en aangevuld met m-1 sentinels/terminators output: suffix boom T X 1.Maak boom T 0 = boom met wortel en m takken die de prefixen met lengte m beginnend op positie 1,.., m als label hebben

12 Suffix bomen (3) 2. for i = q-1 downto 1 do for alle toppen v van de boom T q-i pardo if (v heeft meerder takken met label met hetzelfde prefix van lengte 2 i ) then begin splits deze takken in prefix en rest merge prefixen tot 1 tak maak resten kinderen van nieuwe tak end verwijder toppen waaruit maar 1 boog vertrekt T q-i+1 := resultaat

13 Suffix bomen (4) hoe snel kijken of twee prefixen gelijk zijn? gelijke prefixen met lengte 2 i zelfde ID geven (een getal) def: Descriptor U (met U substring van X) = koppel (i,|U|), wil zeggen dat substring van X beginnend op positie i met lengte |U| gelijk is aan U alfabet ∑ hernummeren op basis van input string (via sortering en ranking)

14 Suffix bomen (5) def: Array ID[1..|X|,0..log(|X|)] –rijnummer: startpositie substring –kolomnummer: log(len(substring)) –waarde op ID[i,j] = unieke identifier (getal) voor substring U beginnend op positie i met lengte 2 j

15 Suffix bomen (6) Opstellen ID array: input: string X# met |X|= n = 2 k en laatste teken X = # (# komt nergens anders voor in X), elke X(i) is getal tussen 1 en n output: eerder beschreven ID array gebruikt hulp-array BB[1..n,1..n+1]

16 Suffix bomen (7) 1. for 1 ≤ i ≤ n pardo ID[i,0] := X(i) 2. for q = 1 to log(n) do for 1 ≤ i ≤ n pardo 1.k1 := ID[i,q-1], k2 := ID[i+2 q-1,q-1] 2.BB[k1,k2] := i 3.ID[i,q] := BB[k1,k2] Opmerking: wanneer in stap 2.1 de waarde i+2 q-1 > n, stel dan k := n+1 tijd: O(log(n))werk: O(n*log(n))

17 Suffix bomen (8) ID[i,j] = k wil zeggen dat substring met descriptor (i,2 j ) dezelfde is als die met descriptor (k,2 j ) (door constructie) structuur suffix boom: elke top v heeft 1.een array OUT v (1..n) met OUT v (j) = u voor elke top u die verbonden is met v en j het ID van het label (= een substring) horende bij de boog (v,u) 2.link naar ouder p(v) 3.descriptor van de substring horend bij link (p(v),v)

18 Suffix bomen (9) Implementatie algoritme: 1.kijken welke takken (v,u k ) van top v een label met hetzelfde prefix van lengte 2 i-1 hebben: input: OUT v (j) = u k, top u k bevat descriptor van label van boog (v,u k ) = (s k,l k ) output: j ID dat prefix van u k met lengte 2 i-1 uniek aanduidt 1.stel j ID = ID[s k,i-1] Dit moet gebeuren voor alle toppen v, dus: tijd: O(1) werk: O(n)

19 Suffix bomen (10) 2.maak nieuwe boog die ouder zal zijn van alle bogen met zelfde prefix met lengte 2 i-1 1.stel OUT v (j ID ) := u k 2.if meerdere u k ’s eenzelfde j ID hebben en elkaar dus zouden overschrijven then maak nieuwe top v’ met p(v’) = v, descriptor (j ID,2 i-1 ) stel OUT v’ (ID[s k +2 i-1,i-1]) = u k stel OUT v (j ID ) := v’ stel descriptor u k in op (s k +2 i-1,l k -2 i-1 ) Moet weer gebeuren voor alle kinderen -> tijd: O(1)werk: O(n)

20 Suffix bomen (11) 3.verwijderen toppen waaruit maar 1 boog vertrekt 1. if v na de vorige stap slechts 1 kind heeft then set w := p(v) maak nieuwe top v’ met p(v’) = w, descriptor (s v,l v +2 i-1 ) OUT w (ID[s v,i-1]) := v’ Moet gecontroleerd (en mogelijk uitgevoerd) worden voor alle v’s -> tijd: O(1)werk: O(n)

21 Suffix bomen (12) Oorspronkelijk algoritme voert vorige stappen uit in lus die log(n) maal wordt uitgevoerd. Dus : tijd: log(n) * O(1) = O(log(n)) werk: log(n) * O(n) = O(n*log(n))