Gegevensbanken 2012 Query-verwerking en optimalisatie Bettina Berendt

Slides:

Advertisements

Verwante presentaties

Downloaden: Ad-aware. Downloaden bestaat uit 3 delen: •1. Zoeken naar de plek waar je het bestand kan vinden op het internet •2. Het nemen van een kopie.

Advertisements

1 Resultaten marktonderzoek RPM Zeist, 16 januari 2002 Door: Olga van Veenendaal, medew. Rothkrans Projectmanagement.

Module 7 – Hoofdstuk 5 (1) SQL – een begin.

Programmeren met Alice

PHP & MYSQL LES 03 PHP & DATABASES. PHP & MYSQL 01 PHP BASICS 02 PHP & FORMULIEREN 03 PHP & DATABASES 04 CMS: BEST PRACTICE.

Hogeschool HZ Zeeland 19 augustus 2003augustus 2003 Data Structuren & Algoritmen Week 1.

Gegevensbanken 2012 Fundamenten van geheugen; Bestandsorganisatie; Hashing Bettina Berendt

Ronde (Sport & Spel) Quiz Night !

Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -

Leerlijn: Programmeertechnieken, Databanken, Algoritmen Gent, 7 januari 2013 met dank aan: Annemie Vorstermans, Joost Vennekens, Koen Pelsmaekers, Jeroen.

Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -

Base: bewerkingen 2 soorten - Oplopend- Aflopend.

Klassieke AO Leseenheid1

Datastructuren Analyse van Algoritmen en O

Leiden University. The university to discover. ICLON, Interfacultair Centrum voor Lerarenopleiding, Onderwijsontwikkeling en Nascholing Denkgereedschap.

Nooit meer onnodig groen? Luuk Misdom, IT&T

Hoofdstuk 6: Controle structuren

Elke 7 seconden een nieuw getal

1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen College 5.

1 Datastructuren Zoekbomen II Invoegen en weglaten.

1 Datastructuren Sorteren: alleen of niet alleen vergelijkingen (II) College 6.

Visibility-based Probabilistic Roadmaps for Motion Planning Tim Schlechter 13 februari 2003.

De grafiek van een lineair verband is ALTIJD een rechte lijn.

Parallelle Algoritmen String matching. 1 Beter algoritme patroonanalyse Bottleneck in eenvoudig algoritme: WITNESS(j) (j = kandidaat in eerste i-blok)

Assenstelsels en het plotten van Functies in LOGO

IJspakketten Annette Ficker Tim Oosterwijk

Download en installeer de gereedschappen

Hogeschool van Amsterdam - Interactieve Media – Internet Development – Jochem Meuwese - -

1Ben Bruidegom Hoe werkt een rekenmachine? Ben Bruidegom AMSTEL Instituut Universiteit van Amsterdam.

Divide and Conquer in Multi-agent Planning Multi-Agent Planning as the Process of Merging Distributed Sub-plans Eithan Ephrati and Jeffrey S. Rosenschein.

1 Voorwaarden hergebruik Modulair ontwerp Low coupling High cohesion.

In dit vakje zie je hoeveel je moet betalen. Uit de volgende drie vakjes kan je dan kiezen. Er is er telkens maar eentje juist. Ken je het juiste antwoord,

Optuigen van datastructuren

Spatial subgroup mining

Werken aan Intergenerationele Samenwerking en Expertise.

Ministerie van de Vlaamse Gemeenschap Afdeling HRM BUE Middenkader 2005 Een eerste verkenning van de resultaten.

Inkomen les t/m 75 plus Zelftest Kennisvragen.

Inkomen les 14 Begrippen & 65 t/m Begrippen Primaire sector Bedrijven die zaken aan de natuur onttrekken (landbouw, jacht, bosbouw, visserij)

ribwis1 Toegepaste wiskunde Lesweek 01 – Deel B

Statistische functies (aggregaatfuncties)

SAMENWERKING WO EN HBO BIJ AANSLUITINGSONDERZOEK V0-HO Rob Andeweg DAIR 7 en 8 november 2007.

Deel 2. Hoofdrekenend aftrekken

1 Datastructuren Een informele inleiding tot Skiplists Onderwerp 13.

Gegevensbanken 2010 Query-verwerking en optimalisatie Bettina Berendt

Gegevensbanken 2010 Indexstructuren Bettina Berendt

Hoofdstuk 5 Vijfkaart hoog, eerste verkenning 1e9 NdF-h1 NdF-h5 1 1.

Inhoud college Lijnbalancering Comsoal Random Sequence Generation

1 Jeroen de Vries Topologie. 2  Historische basis  Belangrijkste concepten  Topologie in de praktijk Inhoud:

Computervaardigheden Hoofdstuk 4 — Databank (Basis)

Join Indices … as a tool for Spatial Datamining. Inhoud Inleiding Spatial Relations (Spatial) Join Index Implementatie Conclusie.

Les 0 Structured Query Language SQL. Programma Les 0 – Introductieopdracht Les 1 Les 2 Les 3 Schriftelijke toets.

ANALYSE 3 INFANL01-3 WEEK CMI Informatica.

Minimum Opspannende Bomen Algoritmiek. 2 Inhoud Het minimum opspannende bomen probleem Een principe om een minimum opspannende boom te laten groeien Twee.

Doorzoeken van grafen Algoritmiek. Algoritmiek: Divide & Conquer2 Vandaag Methoden om door grafen te wandelen –Depth First Search –Breadth First Search.

Minimum Opspannende Bomen

Programmeren met Reeksen

Modderdorp UNPLUGGED Bron: csunplugged.org.

Modderdorp UNPLUGGED Bron: csunplugged.org.

SQL Les February 2019.

SQL Les 3 23 February 2019.

SQL Les 9 12 May 2019.

SQL Les 4 12 May 2019.

SQL Les May 2019.

Transcript van de presentatie:

Gegevensbanken 2012 Query-verwerking en optimalisatie Bettina Berendt

2 Query-verwerking en optimalisatie: Motivatie & Samenvatting

3 Waar zijn we? Les #wiewat 1EDintro, ER 2EDEER, (E)ER naar relationeel schema 2EDrelationeel model 3KVRelationele algebra & relationeel calculus 4,5KVSQL 6KVProgramma's verbinden met gegevensbanken 7KVFunctionele afhankelijkheden & normalisatie 8KVPHP 9BBBeveiliging van gegevensbanken 10BBGeheugen en bestandsorganisatie 11BBHashing 12BBIndexstructuren 13BBQueryverwerking 14-16BBTransactieverwerking en concurrentiecontrole 17BBData mining en data warehousing 18 EDXML, NoSQL Fysisch model / vragen

4 En waarom al dit? Les #wiewat 1EDintro, ER 2EDEER, (E)ER naar relationeel schema 2EDrelationeel model 3KVRelationele algebra & relationeel calculus 4,5KVSQL 6KVProgramma's verbinden met gegevensbanken 7KVFunctionele afhankelijkheden & normalisatie 8KVPHP 9BBBeveiliging van gegevensbanken 10BBGeheugen en bestandsorganisatie 11BBHashing 12BBIndexstructuren 13BBQueryverwerking 14-16BBTransactieverwerking en concurrentiecontrole 17BBData mining en data warehousing 18 EDXML, NoSQL

5 A. Wat is slimmer? SELECT empname, projectname FROM emp, project WHERE emp.SSN = project.leaderSSN AND emp.income > emp project X σ emp.SSN = project.leader.SSN π emp.empname, project.projectname σ emp.income > join emp.SSN = project.leaderSSN emp σ emp.income > project π emp.empname, project.projectname

6 B. Wat helpt daarbij? join emp.SSN = project.leaderSSN emp σ emp.income > project π emp.empname, project.projectname

7 C. Waar moeten we op letten? join emp.SSN = project.leaderSSN emp σ emp.income > project π emp.empname, project.projectname blokkentransport !

8 Agenda Overzicht Implementatie van operaties uit relationele algebra Heuristische optimalisatie Systematische optimalisatie d.m.v. kostenschattingen Semantische query-optimalisatie

9 Agenda Overzicht Implementatie van operaties uit relationele algebra Heuristische optimalisatie Systematische optimalisatie d.m.v. kostenschattingen Semantische query-optimalisatie

10 Overzicht van queryverwerking Stappen in verwerking v. query: lezen en ontleden van query scanner: zet string om in tokens parser: controleert syntactische correctheid en bouwt interne structuur op die query voorstelt query optimalisatie vaak meerdere uitvoerings- strategieën mogelijk meest efficiënte uitkiezen codegeneratie resultaat is uitvoerbare code uitvoeren van de query

11 Query-optimalisatie Beste strategie vinden is moeilijk en duur  in de praktijk: bepalen van een redelijk efficiënte strategie Netwerk model, hiërarchisch model, objectmodel: uitvoeringsstrategie grotendeels vastgelegd in het programma (navigatie )  weinig optimalisatiemogelijkheden Relationeel model, objectrelationeel model: hoog-niveau vraagtaal (SQL, OQL) uitvoeringsstrategie niet vastgelegd in de query nood aan optimalisatie door DBMS

12 optimalisatie = "kost" zo laag mogelijk houden belangrijkste kost is meestal uitvoeringstijd technieken voor optimalisatie: heuristische regels voor ordenen van de bewerkingen in een query uitvoeringsstrategie regels die in het algemeen goed werken systematische schatting van kosten van verschillende uitvoeringsstrategieën, en kiezen van strategie met laagste kost berekening van bv. tijd nodig voor join op basis van aantal tupels, indexen,...

13 Agenda Overzicht Implementatie van operaties uit relationele algebra Heuristische optimalisatie Systematische optimalisatie d.m.v. kostenschattingen Semantische query-optimalisatie

14 Omzetting SQL  relationele algebra SQL is gemakkelijk om te vormen naar relationele algebra verschil: in SQL ligt volgorde van bewerkingen minder vast relationele algebra uitdrukkingen zijn dus meer geschikt om uitvoeringsstrategie te bepalen

15 Voorbeeld van conversie SELECT Lname, Fname FROM EMPLOYEE WHERE Salary >(SELECT MAX(Salary) FROM EMPLOYEE WHERE Dno = 5 ); SELECT Lname, Fname FROM EMPLOYEE WHERE Salary >(SELECT MAX(Salary) FROM EMPLOYEE WHERE Dno = 5 ); c := F MAX Salary (  Dno = 5 (EMPLOYEE))  Lname, Fname (  Salary > c (EMPLOYEE)) c := F MAX Salary (  Dno = 5 (EMPLOYEE))  Lname, Fname (  Salary > c (EMPLOYEE))

16 Implementatie van operaties uit de relationele algebra Belangrijke hulp-procedure: sorteren veel gebruikt voor efficiënte implementaties van andere operaties Selectie Join Projectie...

17 Sorteren Belangrijke component bij query-optimalisatie is sorteren niet alleen om gesorteerd resultaat te bekomen (order by...) maar ook als hulpoperatie voor andere bewerkingen Sorteren van informatie in externe files: "merge-sort" strategie: korte gesorteerde lijsten samenvoegen tot een lange gesorteerde lijst "lijsten" zijn bestanden op schijf

18 Fase 1: lees een deel van het bestand in buffer sorteer records in buffer (m.b.v. intern sorteeralgoritme, bv. Quicksort) schrijf gesorteerde buffer naar schijf als tijdelijk bestand herhaal tot hele bestand overlopen is Fase 2: meng n tijdelijke bestanden tot een gesorteerd tijdelijk bestand herhaal tot er maar één gesorteerd bestand meer is

19 a e c i o x y u n p e h b q t z i d f n s k x i p w j q n e r h c p k r h c p kp w j q n ef n s k x ib q t z i dy u n p e ha e c i o x c h k p re j n p q wf i k n s xb d i q t ze h n p u ya c e i o x a b c d e e h i i n o p q t u x y zc e f h i j k k n n p p q r s w x a b c c d e e e f h i i i j... splits sorteer meng buffer(tijdelijk) bestand

20

21 Complexiteit - sorteerfase zoveel mogelijk blokken worden samen in het geheugen gelezen en gesorteerd, d.i. afhankelijk van de beschikbare buffer ruimte met: b blokken n B beschikbare buffers dan: n R =  b / n B  “runs” nodig elke “run” geeft een gesorteerd deelbestand elk blok wordt een keer ingelezen en een keer geschreven: voor b blokken:2 * b voorbeeld: n B = 5b = 1024 dan: n R =  1024 / 5  = 205  205 gesorteerde deelbestanden

22 Complexiteit: Mengfase, totaal mengfase: mengingsgraad d M : aantal deelbestanden die ineens gemengd kunnen worden = aantal beschikbare buffers – 1 = n B – 1 aantal doorgangen (“passes”):  log dM (n R )  voorbeeld: d M = 4 aantal gesorteerde deelbestanden: 205  52  13  4  1 complexiteit: 2 * b * ( log dM n R ) totale complexiteit 2 * b + 2 * b * ( log dM n R ) in1in4in3in2 buffer uit Gesorteerde deelbestanden

23 Selectie: operaties Verschillende strategieën mogelijk, naargelang van soort selectiecriterium bestaan van indexen Voorbeelden criteria: OP1:  Ssn = ‘ ’ (EMPLOYEE) OP2:  Dnumber > 5 (DEPARTMENT) OP3:  Dno = 5 (EMPLOYEE) OP4:  Dno = 5 AND Salary > 3000 AND Sex = ‘F’ (EMPLOYEE) OP5:  Essn = ‘ ’ AND Pno = 10 (WORKS_ON)

24 Strategieën: S1: lineair zoeken doorloop hele bestand, test voor elk record of het voldoet S2: binair zoeken mogelijk voor "="-conditie op sleutelattribuut dat ordening bepaalt vb: OP1:  Ssn = ‘ ’ (EMPLOYEE) als SSN een ordeningsattribuut is S3: gebruik van primaire index of hash functie om één record op te halen (goed voor point queries) mogelijk voor = op geïndexeerd / gehasht attribuut vb: OP1:  Ssn = ‘ ’ (EMPLOYEE) Selectie: Implementatiemethodes (1)

25 S4: gebruik van primaire index om meerdere records op te halen werkt ook voor ongelijkheden (<,...) (range queries) vb: OP2:  Dnumber > 5 (DEPARTMENT) S5: gebruik van een cluster-index om meerdere records op te halen =, <,... op niet-sleutel-attribuut dat ordening bepaalt vb: OP3:  Dno = 5 (EMPLOYEE) S6: gebruik van secundaire index (B+ boom) mogelijk voor zowel = als <,... resultaat: een (bij = zoeken op sleutel) of meerdere records Selectie: Implementatiemethodes (2)

26 S7: conjunctieve selectie (c 1 AND c 2 AND...) als voor een van de subcondities een van de methodes S2 - S6 bruikbaar is: selecteer eerst volgens die subconditie test voor elk gevonden record de andere subconditie(s) vb: OP4:  Dno = 5 AND Salary > 3000 AND Sex = ‘F’ (EMPLOYEE) S8: conjunctieve selectie met samengestelde index mogelijk indien "="-subcondities op meerdere attributen en er bestaat een samengestelde index op die attributen vb: OP5:  Essn = ‘ ’ AND Pno = 10 (WORKS_ON) als gecombineerde index (Essn, Pno) op WORKS_ON bestaat Selectie: Implementatiemethodes (3)

27 S9: conjunctieve selectie door intersectie van recordpointers mogelijk met secundaire indexen die recordwijzers (geen blokwijzers) bevatten voor elke "="-conditie op secundair geïndexeerd attribuut: haal verzameling recordpointers uit index op bereken doorsnede van al die verzamelingen haal uiteindelijk records op en filter volgens overblijvende condities voordeel: voor groot deel van selectiewerk moeten enkel indexen geraadpleegd worden Selectie: Implementatiemethodes (4)

28 Optimalisatie van selectie (1) selectie met enkelvoudige voorwaarde: indien index beschikbaar of bestand geordend: S2 – S6 anders lineair zoeken selectie met conjunctieve voorwaarde (eist S7 – S9): indien meerdere toegangspaden beschikbaar: meest selectieve selectie eerst uitvoeren r c = aantal records dat aan voorwaarde voldoet r = totaal aantal records selectiviteit = r c / r zo laag mogelijk schattingen van selectiviteit uit catalogus te halen

29 selectie met disjunctieve voorwaarde vb: OP4’:  Dno = 5 OR Salary > 3000 OR Sex = ‘F’ (EMPLOYEE) moeilijk te optimaliseren: elke deelvoorwaarde volledig te testen indien voor elke deelvoorwaarde efficiënte toegangspaden bestaan : gebruik die zodra voor een deelvoorwaarde geen toegangspad bestaat: lineair zoeken nodig gebruik van indexen voor andere criteria niet meer zinvol  in één pas doorheen gegevensbank gaan en alles testen Optimalisatie van selectie (2)

30 Extra: Disjuncties en De Morgan?! In OP4’: Dno = 5 OR Salary > 3000 OR Sex = ‘F’ hervormen naar Dno ≠ 5 AND Salary <= 3000 AND Sex = ‘M’ en dan conjunctie optimaliseren (bv: index op Salary en op Sex, dan doorlopen) ?  Kan zinvol zijn  Eist kennis, bv. “attribuut Sex heeft 2 waarden, en de andere waarde is ‘M’”  Wordt ingewikkelder als null waarden mogelijk  Meer bv. hier: Jens Claussen, Alfons Kemper, Guido Moerkotte, Klaus Peithner, and Michael Steinbrunn Optimization and Evaluation of Disjunctive Queries. IEEE Trans. on Knowl. and Data Eng. 12, 2 (March 2000), Kenneth A. Ross. Selection Conditions in Main Memory. ACM Transactions on Database Systems, Vol. 29, No. 1, March 2004, Pages 132–161.

31 Join Dure operatie: vraagt veel uitvoeringstijd ! Vaak equijoin / natuurlijke join wij bekijken hier enkel deze 2-weg-join (join van 2 bestanden) vs. multi-weg-join (meerdere bestanden) wij bekijken enkel 2-weg-join: R  A = B S Voorbeelden: OP6: EMPLOYEE  Dno = Dnumber DEPARTMENT OP7: DEPARTMENT  Mgr_ssn = Ssn EMPLOYEE

32 Implementatiemethodes voor Join (1) We beschouwen joins volgens R.A = S.B J1: geneste lussen voor elk record t uit R: haal elk record s uit S op en controleer of t [A] = s [B] J2: toegangsstructuur gebruiken om overeenkomstige records op te halen als S geïndexeerd of gehasht op B : records t van R één voor één ophalen gebruik t [A] als zoekwaarde overeenkomstige records s van S te vinden, met s [B] = t [A] (efficiënt)

33 J3: sort-merge join indien R-bestand geordend is volgens A, S volgens B join mogelijk door 1x lineair doorlopen van A en B zeer efficiënt ook mogelijk met secundaire indexen A en B kunnen in volgorde doorlopen worden dankzij index maar records zelf verspreid in bestand  om ze op te halen voortdurend andere blokken inlezen  kan inefficiënt worden Implementatiemethodes voor Join (2)

34 Sort-Merge Join (aandacht: fout in 5e editie: else conditie moet „=„ bevatten, zoals in 6e editie en hier!) =

35 J4: hash-join idee: R.A en S.B worden beide gehasht volgend zelfde hash-functie methode : maak nieuw hash bestand aan zet alle records van kleinste relatie (bv. R) in cellen volgens hashfunctie voor elk record s van S: kijk in welke cel s hoort (volgens hashing op s[B]) zoek in die cel overeenkomstige records in R lineaire complexiteit  efficiënt Implementatiemethodes voor Join (3)

36 Optimalisatie van joins – idee 1 en vragen J1: geneste lussen waartussen kunnen we kiezen? welk bestand wordt doorlopen in buitenste lus? grootste of kleinste? hoe verdelen we de invoerbuffers? een buffer voor elke bestand? meer buffers voor bestand in buitenste cyclus? meer buffers voor bestand in binnenste cyclus?

37 EMPLOYEE RESULTAAT DEPARTMENT EMPLOYEE in buitenste lus: Elk blok wordt 1 x gelezen: DEPARTMENT in binnenste lus: elk blok wordt telkens opnieuw gelezen bij volgende uitvoering van buitenste lus: 400 x 10 = Totaal gelezen blokken: b D = 10 b E = 2000

38 Taak: Hoevel blokken lezen als b) DEPARTEMENT in buitenste lus c) ~ a), maar 1 vs. 5 in-buffers d) ~ b), maar 1 vs. 5 in-buffers? a) *10 = 6000 b) *2000 = 4010 c) *10 = d) *2000 =20010

39 DEPARTMENT RESULTAAT EMPLOYEE DEPARTMENT in buitenste lus: elk blok wordt 1 x gelezen: 10 EMPLOYEE in binnenste lus: elk blok wordt telkens opnieuw gelezen bij volgende uitvoering van buitenste lus: 2 x = Totaal gelezen blokken: b D = 10b E = 2000

40 EMPLOYEE RESULTAAT DEPARTMENT EMPLOYEE in buitenste lus: elk blok wordt 1 x gelezen: DEPARTMENT in binnenste lus: elk blok wordt telkens opnieuw gelezen bij volgende uitvoering van buitenste lus: x 10 = Totaal gelezen blokken: b D = 10 b E = 2000 Ter vergelijking: slechts 1 buffer reserveren voor buitenste lus :

41 DEPARTMENT RESULTAAT EMPLOYEE DEPARTMENT in buitenste lus: elk blok wordt 1 x gelezen: 10 EMPLOYEE in binnenste lus: elk blok wordt telkens opnieuw gelezen bij volgende uitvoering van buitenste lus: 10 x = Totaal gelezen blokken: b D = 10b E = 2000

42 Optimalisatie van joins - resultaat J1: geneste lussen kies voor buitenste lus bestand met minst blokken (bv. R) reserveer 1 buffer voor bestand S in binnenste lus, 1 voor uitvoerbestand, zoveel mogelijk buffers voor bestand in buitenste lus indien plaats voor n B buffers: n B - 2 buffers voor R per record van S : vergelijk met alle R-records in buffers ("probing" van de buffers)  S moet in totaal even vaak overlopen worden als het aantal keren dat de buffers met nieuwe waarden voor R geladen worden

43 Voorbeeld (5): de diagrammen als formules vb. join op EMPLOYEE en DEPARTMENT: OP6: EMPLOYEE  Dno = Dnumber DEPARTMENT EMPLOYEE bevat b E blokken, DEPARTMENT b D kiezen we EMPLOYEE voor buitenste lus: aantal keren dat n B -2 blokken geladen worden van EMPLOYEE:  b E / (n B -2)  DEPARTMENT evenveel keren helemaal inlezen  in totaal b D *  b E /(n B -2)  blokken te lezen totaal aantal blokken te lezen (EMPLOYEE en DEPARTMENT samen): b E + b D *  b E /(n B -2)  bv. b E = 2 000, b D = 10, n B = 7 : blokken kiezen we DEPARTMENT in buitenste lus: b D + b E *  b D /(n B -2)  = blokken

44 J2: toegangsstructuur gebruiken om overeenkomstige records op te halen indien secundaire indexen bestaan op beide bestanden: OP7: DEPARTMENT  Mgr_ssn = Ssn EMPLOYEE join-selectiefactor van R m.b.t. R.A = S.B : hoeveel records van S gemiddeld overeenkomen met een record van R (bij join op R.A = S.B) vb: # ( EMPLOYEE ) = # ( DEPARTMENT ) = 50 join-selectiefactor van EMPLOYEE :1 / 100 join-selectiefacor van DEPARTMENT : 1 bestand met hoge join-selectiefactor in buitenste lus vermijdt dat veel "onnodige" records opgezocht worden Optimalisatie van joins (2)

45 vb.: voor 50 departementen, werknemers, b D =10, b E = elk departement heeft een manager  JSF D =1 maar 50 van de werknemers managen een departement  JSF E = 0.01 zij aantal niveaus in indexen: x Ssn = 4, x Mgr_ssn = 2 met EMPLOYEE in buitenste lus: b E + (r E * (x Mgr_ssn + 1) ) = blokken met DEPARTMENT in buitenste lus: b D + (r D * (x Ssn + 1) ) = 260 blokken Optimalisatie van joins (3)

46 J3: sort-merge join is efficiënt vb: zowel OP6 als OP7 OP6: EMPLOYEE  Dno = Dnumber DEPARTMENT OP7: DEPARTMENT  Mgr_ssn = Ssn EMPLOYEE vereisen b E + b D bloktoegangen maar bestanden moeten geordend zijn indien niet: eventueel eerst sorteren externe sorteermethode toepassen kan efficiënter zijn dan vorige methodes Optimalisatie van joins (4)

47 J4: hash-join eenvoudigst indien volledige hashtabel van een van de twee bestanden in intern geheugen past stap 1: eerste bestand in geheugen brengen  tabel stap 2: voor elk record van 2-de bestand nagaan met welke plaats in die tabel het overeenstemt Indien niet: meer gesofisticeerde implementaties partition hash join: eerst bestanden partitioneren met hash-functie h  kleinere bestanden die volledig in intern geheugen passen dan die bestanden 2 aan 2 joinen (met eender welke join- methode, evt. J4 met andere hashfunctie) tenslotte alle gejoinde bestanden aan elkaar hangen Optimalisatie van joins (5)

48 R S alle records r van R met h(r.A)=4 alle records s van S met h(s.B)=4 hash

49 hybrid hash join: variant van partition hash join idee: deel van join-fase tijdens partitie-fase al uitvoeren één van de tijdelijke hash-bestanden blijft permanent in geheugen spaart 2 tijdelijke bestanden uit Optimalisatie van joins (6)

50 Projectie  attribuutlijst (R) Als attribuutlijst een sleutel van R bevat: resultaat bevat evenveel tupels als R geen sleutel van R bevat: resultaat kan dubbels bevatten verwijderen : door sorteren of door hashing na sorteren: dubbels komen na elkaar  gewoon niet kopiëren naar resultaat hashing: tijdens projectie kijken of tupel al voorkomt in resultaat (via hashtabel); indien ja, niet toevoegen

51

52 Verzameling-operaties Carthesisch product R x S: zeer duur, resulteert in zeer grote relatie zoveel mogelijk vermijden of vervangen door equivalente operaties tijdens optimalisatie Unie, doorsnede, verschil: alleen voor unie-compatibele relaties (zelfde attributen) implementeren met sorteren of hashing sorteren: sorteer beide bestanden volgens zelfde attributen daarna 1x lineair beide bestanden doorlopen hashing: records in beide bestanden naar zelfde hash-cellen hashen

53 T  R  S T  R  S T  R \ S

54 Aggregatie-operaties (1) Indien dichte index op attribuut bestaat: resultaat kan zuiver uit index berekend worden vb: SELECT MAX ( Salary ) FROM EMPLOYEE ; min: volg steeds meest linkse wijzer in B+ - boom max: steeds meest rechtse avg, count, sum: doorloop bladeren van boom

55 Aggregatie-operaties (2) Group by: vb: SELECTDNO, AVG ( Salary ) FROMEMPLOYEE GROUP BYDNO ; bestand eerst partitioneren in juiste groepen d.m.v. sorteren of hashen aggregaatfunctie voor elke groep apart uitrekenen opmerking: bij cluster-index: bestand is reeds gepartitioneerd volgens cluster- attribuut

56 Outer join bv. left outer join Wijziging aan standaard join implementatie: (bv. J1) elk tupel van linker-relatie komt in resultaat voor dus deze relatie gebruiken voor buitenste lus Alternatief: eerst inner join berekenen resultaat aanvullen met tupels die niet in inner join voorkomen (elk tupel aangevuld met nulls) bv. EMPLOYEE Ssn = Mgr_ssn DEPARTMENT

57 Operaties combineren met pijplijnen probleem: 1 query  meerdere operaties voor elke opeenvolgende operatie apart tijdelijke bestanden aanmaken: duur! oplossing:  meerdere operaties in één algoritme combineren bv. selectie, dan join, tenslotte projectie resultaat van selectie niet naar tijdelijk bestand schrijven maar direct als invoer aan join geven pijplijn: gegevens stromen van een algoritme naar een ander

58 Agenda Overzicht Implementatie van operaties uit relationele algebra Heuristische optimalisatie Systematische optimalisatie d.m.v. kostenschattingen Semantische query-optimalisatie

59 Herhaling: A. Wat is slimmer? SELECT empname, projectname FROM emp, project WHERE emp.SSN = project.leaderSSN AND emp.income > emp project X σ emp.SSN = project.leader.SSN π emp.empname, project.projectname σ emp.income > join emp.SSN = project.leaderSSN emp σ emp.income > project π emp.empname, project.projectname

60 Heuristische optimalisatie Gebaseerd op "query trees" een query-boom = een uitdrukking in relationele algebra blad ↔ relatie interne knoop ↔ operatie bevat informatie over volgorde verschillende querybomen kunnen equivalent zijn m.b.t. resultaat (commutativiteit van operaties,...) vb: Q_2: for every project located at ‘Stafford’, list the project number, the controlling department number, and the department manager’s last name, address, and birthdate  Pnumber, Dnum, Lname, Address, Bdate ( ( (  Plocation = ‘Stafford’ ( PROJECT ) )  Dnum = Dnumber ( DEPARTMENT ) )  Mgr_ssn = Ssn ( EMPLOYEE ) ) SELECT P.Pnumber, P.Dnum, E.Lname, E.Address, E.Bdate FROM PROJECT AS P, DEPARTMENT AS D, EMPLOYEE AS E WHERE P.Dnum = D.Dnumber AND D.Mgrssn = E.Ssn AND P.Location = ‘Stafford’ ;

61 canonieke vorm: - geen joins, wel carth. prod - bovenaan: -  - 

62 canonieke vorm: - geen joins, wel carth. prod - bovenaan: -  - 

63 Query-grafen andere grafische voorstelling van query geven geen volgorde aan daardoor minder geschikt voor optimalisatie

64 optimalisatie van queries op basis van bomen: bouw een eerste boom in canonieke vorm: , ,  (geen joins) herstructureer boom zonder equivalentie te verliezen bv. twee opeenvolgende selecties omwisselen op basis van heuristieken, zo dat query efficiënt uitgevoerd zal worden Taak: Find the last names of employees born after 1957 who work on a project named ‘Aquarius’ SELECTLname FROMEMPLOYEE, WORKS_ON, PROJECT WHEREPName = ‘Aquarius’ AND PNumber = Pno AND Essn = Ssn AND Bdate > ‘ ’ ;

65 Initiële boom

66 Verplaats selectie operaties naar beneden

67 Plaats meest restrictieve selectie operaties eerst Vervang carth. product door selectie en join operaties

68 Verplaats projecties naar beneden

69 Algemene transformatieregels  -cascade selectie op conjunctie van condities omzetten in opeenvolgende eenvoudige selecties  c1 AND c2 AND … AND cn ( R )   c1 (  c2 ( … (  cn ( R ) ) … ) ) commutativiteit van   c1 (  c2 ( R ) )   c2 (  c1 ( R ) )  -cascade enkel laatste projectie overhouden  list1 (  list2 ( … (  listn ( R ) ) … ) )   list1 ( R ) commutativiteit (onder voorwaarden) van  met  indien het selectiecriterium c enkel slaat op attributen A1, …, An uit de projectielijst  A1, A2, …, An (  c ( R ) )   c (  A1, A2, …, An ( R ) )

70 commutativiteit van  (of  ) R  c S  S  c R commutativiteit van  met  (of  )  c (R  S) =  c (R)  S indien enkel c enkel slaat op attributen van R  c (R  S) =  c1 (R)   c2 (S) indien c = c1 AND c2, en c1 en c2 condities zijn die enkel slaan op attributen van R resp. S) commutativiteit van  met  ( of  ) indien alle join-attributen in projectielijst voorkomen: projectie kan naar binnen geschoven worden anders: R en S projecteren op join-attributen + attributen in projectielijst op het einde nogmaals projecteren op gevraagde attributen bv.  A (R  B=C S) =  A (  A,B (R)  B = C  A,C (S))

71 commutativiteit van verzameling-operaties   commuteren, \ niet associativiteit van , ,  en  commutativiteit van  met verzameling-operaties commutativiteit van  met verzameling-operaties diverse andere transformaties bv. logische wetten van De Morgan

72 Heuristieken: algemeen methode van optimalisatie: bladeren en knopen van boom herschikken zodat query efficiënter wordt naar beneden schuiven van operaties die best eerst uitgevoerd worden algemene regel: voer eerst die bewerkingen uit die de grootte van tijdelijke relaties verminderen: selectie zo snel mogelijk (  minder tupels) projectie zo snel mogelijk (  minder attributen)  deze naar beneden schuiven in boom

73 Heuristiken Splits complexe selectie in meerdere eenvoudige selecties geeft meer flexibiliteit bij herschikken Schuif selecties zo ver mogelijk naar beneden Schuif bladeren waarop strenge selectie gebeurt zoveel mogelijk naar links die geven kleinere relaties Vermijd zoveel mogelijk carthesische producten Combineer carthesische producten met selectie tot een join Schuif projecties zoveel mogelijk naar beneden gooi onnodige attributen direct weg Identificeer deelbomen die door één algoritme kunnen uitgevoerd worden (zonder creatie van tijdelijke bestanden)

74 Uitvoeringsplan Eens query-boom geoptimaliseerd: uitvoeringsplan bouwen welke implementaties van joins etc. gebruiken? welke indexen gebruiken?... "pipelined" vs. "materialised" evaluatie materialised: tussenresultaat wordt gematerialiseerd in tijdelijk bestand pipelined: vermijdt die tijdelijke bestanden

75 SELECT Fname, Lname, Address FROM EMPLOYEE, DEPARTMENT WHEREDname = ‘Research’ AND Dnumber = DNO ; Voorbeeld van uitvoeringsplan voor query Q1: Doorloop resultaat van join voor projectie Gebruik geneste lussen voor join, (maar buitenste lus slechts 1-maal!) doorloop daarbij volledig EMPLOYEE bestand [of, als index op DNO: single-loop join] Gebruik index voor selectie op DEPARTMENT (als die bestaat)

76 Agenda Overzicht Implementatie van operaties uit relationele algebra Heuristische optimalisatie Systematische optimalisatie d.m.v. kostenschattingen Semantische query-optimalisatie

77 Systematische optimalisatie met kostenschattingen Kosten om query uit te voeren: toegang tot hulpgeheugen (#blokken te lezen / schrijven) opslag van tijdelijke bestanden berekeningen gebruik van intern geheugen communicatiekost (query en resultaten oversturen van client naar server) Toegang tot hulpgeheugen weegt meestal door Voorbeelden van kostenschattingen voor selectie en join: zie eerder

78 Agenda Overzicht Implementatie van operaties uit relationele algebra Heuristische optimalisatie Systematische optimalisatie d.m.v. kostenschattingen Semantische query-optimalisatie

79 Gebruik van extra kennis (in de vorm van restricties) om queries te transformeren bv. : stel dat een restrictie aangeeft dat geen werknemer meer verdient dan zijn overste; dan hoeft volgende query niet eens uitgevoerd te worden: SELECT E.Lname, M.Lname FROM EMPLOYEE AS E, EMPLOYEE AS M WHERE E.Super_ssn=M.Ssn AND E.Salery>M.Salary; SELECT E.Lname, M.Lname FROM EMPLOYEE AS E, EMPLOYEE AS M WHERE E.Super_ssn=M.Ssn AND E.Salery>M.Salary; Semantische query-optimalisatie

80 Vooruitblik: Moderne methodes voor optimalisatie (vb.) Bv. genetische algoritmen of ant colony algoritmen Basisidee: Evolutie of „mierencolonien“ proberen verschillende oplossingen, door competie kunnen de „meest succesvolle“ winnen en dus gevonden worden. Worden toegepast op vele optimalisatieproblemen, o.a. ook query- optimalisatie

81 Vooruitblik Overzicht Implementatie van operaties uit relationele algebra Heuristische optimalisatie Systematische optimalisatie d.m.v. kostenschattingen Semantische query-optimalisatie Transactieverwerking

82 Bronnen Deze slides zijn gebaseerd op Henk Olivié‘s slides voor Gegevensbanken 2009 en op Elmasri & Navathe, Fundamentals of Database Systems, Addison Wesley / Pearson, 5e editie Alle kopieën zonder bronspecificatie: Elmasri & Navathe, Fundamentals of Database Systems, Addison Wesley / Pearson, 5e editie Verdere figuren: bronnen zie “Powerpoint comments field” Bedankt iedereen!