Datawarehousing in het groot

Slides:



Advertisements
Verwante presentaties
SharePoint denk in blokken Ton Stegeman.
Advertisements

Informatieanalyse en databaseontwerp Practicum 2 Welkom bij het practicum IID: Query’s, Orde in de Chaos.
Tips & Tricks Mark Dahmen Roel Mommers Bobby NG 01 van 08.
PSO for Microsoft Dynamics 2013
9 BOUW STENEN Alex Osterwalder heeft negen bouwstenen ontwikkeld waar dit proces mee is te beschrijven. Deze bouwstenen worden samen het ‘Business model.
Blok 7: netwerken Les 7 Christian Bokhove.
Bepalen van een productstrategie ten aanzien van 64-bits computing ISV Community Day Schiphol-Rijk, Andreas de Ruiter Developer & Platform Group.
Module 7 – Hoofdstuk 5 (1) SQL – een begin.
Installatie & beheer Jonathan Mohnen Martijn Wolfs.
Samenwerking met MOSS 2007! Chris Hoppenbrouwers.
Workshop Nieuwe begroting
PHP & MYSQL LES 03 PHP & DATABASES. PHP & MYSQL 01 PHP BASICS 02 PHP & FORMULIEREN 03 PHP & DATABASES 04 CMS: BEST PRACTICE.
Server Management Framework
Perception 4 HG Frank Lorijn Josef Sennekool.
01 van 06 Portal4U Loe Hameleers Twan Saleming Klanten: Wat kost dat artikel? Wanneer wordt geleverd? Die werkt hier niet meer.. Die factuur ken ik niet.
ICT Infrastructuren 26 november 2007 David N. Jansen.
Windows Server 2012 Optimaliseer uw IT. Ready for the Future.
Kennis Sessie PSO 2013.
Business Modeling Koppeling - SharePoint & CRM. Value Proposition Breed inzetbare koppeling met veel mogelijkheden, hierdoor is geen maatwerk nodig. Deze.
Databank van een restaurant Download op Twee tabellen: Klanten: Alle klanten die minstens.
Dé complete online werkplek met de kracht van Office 365
You, Jet and Excel. Smart reporting.
Biml en Data Vault.
Het Management Informatie Portaal
11 Infrastructuur Optimalisatie: Waarom een op voorzieningen gebaseerd platform de betere keuze is.
Computervaardigheden en Programmatie Universiteit AntwerpenDatabank - Basis 4.1 Computervaardigheden en Programmatie 1rste BAC Toegepaste Biologische Wetenschappen.
 Ongeveer auto’s in Nederland  Query: zoek op kenteken  Aannames ◦ Een tuple (record) kost ongeveer 400 bytes ◦ Een disk block bevat 8.
SQL & datamodelleren.
Infodagen: Toekomst AgendaWeb Kristof Brams 20-29/10/2010 VERA Autonoom Provinciebedrijf.
1 GfK Retail and TechnologyBelgië6 August 2014 GfK Marktonderzoek Vlaanderen Cindy Van Mulders Business Consultant 10 december 2010 Stand van zaken.
Workshop PHP Een productencatalogus Met database.
Introductie/Agenda 1 Cor Verbaas 1.Business Analist. 2.Werkzaam bij AEP sinds juni Verantwoordelijk voor de business applicaties binnen AEP. 4.MFGPro.
CLOUD COMPUTING Wat is het? Wie zijn de aanbieders? Is het veilig? Wat kun je er mee? Robert K Bol PVGE Best.
Technische Architectuur
Exposantentool Handleiding. Stap 1: Start ! Ga naar de link die u via ontving van Sylvie Buydaert. Login met uw: Gebruikersnaam Wachtwoord.
Business Source Premier (BSP) Bewaren van resultaten: mailen, printen, opslaan Universiteitsbibliotheek verder = klikken.
Data Maarten Terpstra en Peter le Clerq. 1.Wij denken dat bedrijven in toenemende mate data gebruiken voor toepassingen in marketing, sales, service,
Laat software voor je werken
De Do’s en Dont’s van testdata Testnet, 10 September Bart Knaack.
Back-up.
How Architecture helps to reduce costs November 2011.
Win XP alternatieven Nieuwe Laptop of PC Win 8 installeren op oude computer Tablet of i-pad Apple Macintosh Blijven werken met Win XP Linux.
Computervaardigheden Hoofdstuk 4 — Databank (Basis)
Business Intelligence
© imec 2000 © imec 2001 MAX+PLUS II Installatieprocedure.
Join Indices … as a tool for Spatial Datamining. Inhoud Inleiding Spatial Relations (Spatial) Join Index Implementatie Conclusie.
2 August SQL Les August Agenda Herhaling Herhaling Cursors Cursors MS SQL Server and MS Excel MS SQL Server and MS Excel Oefeningen.
IHW-netwerkdag 2015 Hartelijk welkom!. Opening Voorstellen dagvoorzitter: Diederik van der Molen, ministerie van Infrastructuur en Milieu Programma IHW-netwerkdag.
1 KPN Mobiel – Introductie Repository Object Browser & Designer 10 Designer 10g & Repository Object Browser Maandag 28 februari 2005 Lucas Jellema (AMIS)
Elektronisch factureren: de volgende stap in online zaken doen Datum 14 september 2006.
EMSE 20 oktober 2015 Verlichting, het Internet of Things en ARM mbed 3.0 Klaas de Waal.
Wat is SQL (1)? SQL (Structured Query Language):  is een zeer krachtige taal met een beperkt vocabulaire (aantal ‘woorden’)  is declaratief (‘WAT’ niet.
SQL Performance Analyzer Inschatten performance impact van wijzigingen Bram van der Vos
Adrem Software.  Key Features  Monitoring  Visualisatie  Alerting  Reporting  Console  Praktisch  Server requirements  Databases  Licensing.
Evert Sanders radioloog Amphia ziekenhuis Breda
‘Business at the speed of change’
Performance Tuning SSIS packages
Grip & Controle op digitalisering
Webinar SharePoint Standaard Werkstromen
Leden NOA Diana van Oudenaaren & Danny Jansen
Case: Nieuwe website Anne Heining (M&C
Procesmigratie van ITIL naar ISM
SQL Les February 2019.
DataMapper Making it easy.
SQL Les 7 24 February 2019.
SQL Les 1 5 April 2019.
Microsoft Operations Management Suite (MOMS)
SQL Les 9 12 May 2019.
SQL Les May 2019.
Transcript van de presentatie:

Datawarehousing in het groot Sander van der Hoeff

Even voorstellen Sander van der Hoeff Sinds 1990 in de IT Met microsoft datawarehouses gedaan bij diverse klanten sinds 2001 Bij Kadenza sinds 2007 Hardloper

Opgericht in 2004 en met bijna 100 senior consultants is Kadenza de grootste onafhankelijke specialist op het gebied van Enterprise Intelligence Passie voor het vak Kadenza werkt uitsluitend met ervaren mensen aan projecten en detacheringsopdrachten op het gebied van Business Intelligence, Data Warehousing, Planning,Control en Consolidatie

Beschrijving Sandd Sandd is het op één na grootste postbedrijf van Nederland en richt zich op de bezorging van geadresseerde partijenpost, zoals direct mail en abonneebladen. Sinds de liberalisering van de Nederlandse postmarkt richt Sandd zich ook op transactiepost, zoals facturen en polissen. Sandd streeft een marktaandeel na van 20-25%.

Ontwikkeling Sandd

© 2011 – Norbert de Vries – Sandd B.V. Huidige situatie Op dit moment hebben 5 rapportage omgevingen met meer dan 200 gebruikers op HQ en in het netwerk: Sales Netwerk (nieuw) BBSC Human Resources Netwerk (SMIP2) => wordt langzaam uitgefaseerd Situatie vanaf 2011 © 2011 – Norbert de Vries – Sandd B.V.

Datawarehousing in het groot Tot 1 mln rijtjes geen probleem Maar daarna als het echt groot wordt Tips en tricks

Lagen architectuur (definities) Kadenza Referentie Methodiek Source Overhalen van data Stage Verschil vergelijking en foreward key generation DWH Historisch correct opslaan Datamart Aggregeren en beschikbaar maken

Wat is groot ? Table Size Veel characters fields Aantal rijen Monsterdimensies Aantal refenties naar Dimensies

Hardware 12 GB RAM 400 GB disks DB 80 GB Grootste Tabel 30 GB 360 mln rijen Standard edition

Zoek de verschillen (Stage)

Zoek de verschillen (Hoe) Change Data Capture (denk aan deletes) Mutatie markeringen in bronnen SCD component Merge join en Veld bij Veld vergelijking (sorteren) Lookup transformatie (twee keer) Merge join en Checksum transformatie Table Diff of andere extrene componenten Merge join en HashByte berekening (SQL of SSIS) Merge statement TSQL statement(s)

Blocking components zoals Sort in ssis Lookups Memory problemen 32 vs 64 bits (4gb max) Blocking components zoals Sort in ssis Lookups SSIS Memory (OS) vs SQL Memory SQL meer memory verergert het probleem Perfmon counter “Buffers spooled”

Synchronisatie van stromen

Schijfruimte problemen Tempdb Commit Size Sort operations Profiel van SSIS user

Temp bestanden realloceren TempDB http://bradmcgehee.com/wp-content/uploads/presentations User Profiel

Partitioning indien mogelijk Kan geen parameters aan in lookup Lookups Zo Klein mogelijk Partitioning indien mogelijk Kan geen parameters aan in lookup In Memory Als het niet past dramatische performance decrease Extreem groot user profiel

Meten is weten

Cascading Updates Iedere update van een parent levert ook een nieuwe child record op in het Datawarhouse Telefoonnummerwijziging van klant levert > 1 mln updates Cascading updates anders oplossen

Fragmenteren Tabellen (partitioning) Lookups Dataflows ??

Indexeren Kosten en baten Drie kwartier tijdwinst door drop index (en hem in stage parallel weer op te bouwen. Schijfruimte Tempdb vs Disk

Profiler Live Show All Events , Show All Colums (bijvoorbeeld DB naam) Saven als script en trace starten vanuit SSMS Trace file opslaan en voor later gebruik inlezen in Profiler Zoeken naar een speld in een hooiberg

RML Utilities Importeer Trace File Click en Zoek

Beheer Record counts Duration Counts Run reports

Weg is weg (archiveren) Het verschil tussen deletes en archives Erg vervelend als je hier achteraf mee wordt geconfronteerd Aparte procedure of gewoon in de bestaande flows

Vragen