Post on 10-Sep-2019
transcript
Data-Warehouse-Technologien
Prof. Dr.-Ing. Kai-Uwe Sattler1 Prof. Dr. Gunter Saake2
Dr. Veit Köppen2
1TU IlmenauFG Datenbanken & Informationssysteme
2Universität MagdeburgInstitut für Technische und Betriebliche Informationssysteme
Letzte Änderung: 18.10.2019
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 0–1
Organisatorisches
Überblick
1 Einführung & Grundbegriffe2 Data-Warehouse-Architektur3 Multidimensionales Datenmodell4 Extraktion, Transformation und Laden5 Anfragen an Data Warehouses6 Speicherstrukturen7 Indexstrukturen8 Anfrageverarbeitung und -optimierung9 Materialisierte Sichten
10 Business Intelligence Anwendungen
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 0–2
Organisatorisches
Magdeburg: Zeiten, Ablauf, etc.
Dozent: Veit KöppenInfos (Zeiten, Räume) & Folienkopien unterhttp://www.dbse.ovgu.de/Lehre/Lehrveranstaltungen/Data_Warehouse_Technologien-p-
580.html
Vorlesung: mittwochs, 09–11 Uhr Raum: G22A - 122Übungen
I Übungsleiter: Sabine Wehnert (G29-105)I Termin:
F G05-118 oder G29-144, mittwochs 13:15-14:45I Prüfungsvoraussetzung: Anmeldung für Übung via LSF
PrüfungI mündliche Prüfung (wenn unter 30 Prüfungen)I sonst Klausur (120 min)
Feedback, Fragen, . . .I Sprechzeiten: nach Vereinbarung
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 0–3
Organisatorisches
Lehrbuch zur Veranstaltung
Köppen, V.; Saake, G.; Sattler, K.-U.:Data Warehouse Technologien
2. Auflage, mitp-Verlag, 2014351 Seiten, 29,99 e
Veit Köppen
Gunter Saake
Kai-Uwe Sattler
2. Auflage
Data WarehouseTechnologien
Köpp
enSa
ake
Satt
ler
Dat
a W
areh
ouse
Tec
hnol
ogie
n
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 0–4
Organisatorisches
Weitere LiteraturW. Lehner.Datenbanktechnologie für Data-Warehouse-Systeme.dpunkt.verlag, Heidelberg, 2003
W.H. Inmon.Building the Data Warehouse.4th Edition, Wiley & Sons, New York, 2005
A. Bauer, H. Günzel.Data Warehouse Systeme – Architektur, Entwicklung, Anwendung.3. Auflage, dpunkt.verlag, Heidelberg, 2008
G. Saake, K. Sattler, A. Heuer.Datenbanken: Implementierungstechniken.3. Auflage, mitp-Verlag, Bonn, 2009
R. Kimball, L. Reeves, M. Ross, W. Thornthwaite.The Data Warehouse Lifecycle ToolkitWiley & Sons, New York, 1998
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 0–5
Teil I
Einführung
Einführung
Einführung & Grundbegriffe
1 Motivation
2 Anwendungen
3 Abgrenzung
4 Begriff Data Warehouse
5 Themen
6 Benchmarks
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–1
Einführung Motivation
Szenario: Getränkemarkt
Umsatz,Portfolio Werbung
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–2
Einführung Motivation
DB-Schema
Produkt Lieferant
Kunde
geliefert von
kauftMenge
(0,*)
(0,*)
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–3
Einführung Motivation
DB-Nutzung
Anfragen:I Wie viele Flaschen Cola wurden letzten Monat verkauft?I Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt?I Wer sind unsere Top-Kunden?I Von welchem Lieferanten beziehen wir die meisten Kisten?
ProblemeI Nutzung externer Quellen (Kundendatenbank,
Lieferantendatenbank, . . . )I Daten mit zeitlichem Bezug
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–4
Einführung Motivation
Erweitertes Szenario
AltmarkkreisSalzwedel Stendal
Börde
MD
JerichowerLand
Harz Salzland-kreis
Anhalt- Bitterfeld
DEWittenberg
HAL
Saalekreis
Burgenland- kreis
Mansfeld-Südharz
Sachsen-Anhalt Thüringen
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–5
Einführung Motivation
DB-Nutzung (2)
AnfragenI Verkaufen wir in Ilmenau mehr Bier als in Erfurt?I Wie viel Cola wurde im Sommer in ganz Thüringen verkauft?I Mehr als Wasser?
ProblemI Anfragen über mehrere Datenbanken
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–6
Einführung Motivation
Lösungen
Variante 1: „Verteilte DB“I Globale Anfrage über mehrere DBs→ Sicht mit UnionI Nachteil: aufwendige verteilte Anfrageausführung
Variante 2: „Zentrale DB“I Änderungen über einer zentralen DBI Nachteil: lange Antwortzeiten im operativen Betrieb
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–7
Einführung Motivation
Data Warehouse-Lösung
Werbung
Umsatz,Portfolio
DB Magdeburg DB Ilmenau DB Erfurt
Data Warehouse
Werbung
Umsatz,Portfolio
DB Ilmenau DB Erfurt
Data Warehouse
Asynchrone Aktualisierung
Redundante Datenhaltung
Transformierte, vorberechnete
Daten
DB Magdeburg
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–8
Einführung Motivation
Gegenstand der Vorlesung
Data Warehouse: Sammlung von Daten und Technologien zurUnterstützung von EntscheidungsprozessenHerausforderung an Datenbanktechnologien
I Datenvolumen (effiziente Speicherung und Verwaltung,Anfragebearbeitung)
I Datenmodellierung (Zeitbezug, mehrere Dimensionen)I Integration heterogener Datenbestände
SchwerpunktI Datenbanktechniken von Data Warehouses
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–9
Einführung Motivation
Überblick
EntityBereinigen
OperativeDatenbanken
Externe Quellen
Monitoring & Administration
Metadaten-Repository
Data Marts
Data Warehouse
OLAP-Server
Analyse
Query/Reporting
DataMining
OLAP-Server
Data-Warehouse-System
[nach Chaudhuri&Dayal 1997]
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–10
Einführung Anwendungen
Betriebswirtschaftliche Anwendungen
InformationsbereitstellungI Daten und Informationen als Grundlage von Entscheidungen
(z.B. Kennzahlen)I Einfluss auf zukünftiges Betriebsergebnis und auf Abwicklung von
GeschäftsprozessenI Anwender: Manager, Abteilungsleiter, FachkräfteI Formen der Bereitstellung:
F Query-Ansätze: frei definierbare Anfragen und Berichte (individuelleLösungsstrategie)
F Reporting: Zugriff auf vordefinierte Berichte (fixes Lösungsangebot)F Redaktionell aufbereitete, personalisierte InformationenF Domänenspezifische DatensichtenF Vorberechnete Kenngrößen (z.B. durch Data Mining Algorithmen)
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–11
Einführung Anwendungen
Betriebswirtschaftliche Anwendungen (2)
AnalyseI Detaillierte Analyse der Daten zur Untersuchung von
Abweichungen oder AuffälligkeitenI Szenariotechniken (What-If-Analysen)I Anwender: Spezialisten (z.B. Controlling, Marketing)
PlanungI Unterstützung durch explorative DatenanalyseI Aggregierung von EinzelplänenI Prognoseverfahren (z.B. statistische saisonale Modelle)
KampagnenmanagementI Unterstützung strategischer KampagnenI Kundenanalyse, Portfolio- und Risikoanalyse
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–12
Einführung Anwendungen
Wissenschaftliche und Technische Anwendungen
Wissenschaftliche AnwendungenI Statistical und Scientific Databases→ technische Wurzeln des DWI Beispiel: Projekt Earth Observing System (Klima- und
Umweltforschung)F Täglich ca. 1,9 TB meteorologischer DatenF Aufbereitung und Analyse (statistisch, Data Mining)
Technische AnwendungenI Öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten
(z.B. Wasseranalysen)
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–13
Einführung Anwendungen
Einsatzbeispiel
Wal-Mart (www.wal-mart.com)Marktführer im amerikanischen EinzelhandelUnternehmensweites Data Warehouse
I Größe: ca. 300 TB (2003), 480 TB (2004), heute: geschätzt 12 PBI Täglich etwa 25.000 DW-AnfragenI Hoher Detaillierungsgrad (tägliche Auswertung von
Artikelumsätzen, Lagerbestand, Kundenverhalten)I Basis für Warenkorbanalyse, Kundenklassifizierung, . . .
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–14
Einführung Anwendungen
Fragestellungen und Aufgaben (Bsp.)
Überprüfung des Warensortiments zur Erkennung vonLadenhütern oder VerkaufsschlagernStandortanalyse zur Einschätzung der Rentabilität vonNiederlassungenUntersuchung und Prognose von Marketing-AktionenAuswertung von Kundenbefragungen, Reklamationen bzgl.bestimmter Produkte etc.Analyse des LagerbestandesWarenkorbanalyse mit Hilfe der Kassendaten (wirt. Transaktionen)
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–15
Einführung Anwendungen
Beispiel einer Anfrage
Welche Umsätze sind in den Jahren 2009 und 2010 in denWarensegmenten Bier und Rotwein in den BundesländernSachsen-Anhalt und Thüringen angefallen?
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–16
Einführung Anwendungen
Ergebnis (Würfel)
Produkt
Region
Zeit-raum
Kennzahl
BierRotwein
Summe
Thürin
gen
Sachsen-
Anhalt Sum
me
2009
2010
Summe
Umsatz (Wert = 52)
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–17
Einführung Anwendungen
Ergebnis (2-dim. Würfeldarstellung)
Umsatz Bier Rotwein Summe2009 Sachsen-Anhalt 45 32 77
Thüringen 52 21 73Summe 97 53 150
2010 Sachsen-Anhalt 60 37 97Thüringen 58 20 78Summe 118 57 175
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–18
Einführung Abgrenzung
Aspekte von Data Warehouses
IntegrationI Vereinigung von Daten aus verschiedenen, meist heterogenen
QuellenI Überwindung der Heterogenität auf verschiedenen Ebenen
(System, Schema, Daten)Analyse
I Bereitstellung der Daten in einer vom Anwender gewünschten Form(bezogen auf Entscheidungsgebiet)
I erfordert Vorauswahl, Zeitbezug, Aggregation
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–19
Einführung Abgrenzung
Kurze Transaktion (OLTP)
KundeID Name Vorname PLZ Ort Straße4711 Saake Gunter 01234 Irgendwo Am Berg 342 Sattler K. 12345 Hier Zufahrt 180800 Köppen Veit 60701 Dort Weg 9A
SELECT vorname, nameFROM KundeWHERE id = 0800
ErgebnisVorname Name
Veit Köppen
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–20
Einführung Abgrenzung
Langandauernde Transaktion (OLAP)SELECT DISTINCT ROW Zeit.Dimension AS Jahr,
Produkt.Dimension AS Artikel,AVG(Fact.Umsatz) AS Umsatzdurchschnitt,Ort.Dimension AS Verkaufsgebiet
FROM (Produktgruppe INNER JOIN Produkt ON Produktgruppe.[Gruppen-Nr] = Produkt.[Gruppen-ID]) INNER JOIN((((Produkt INNER JOIN [Fact.Umsatz] ON Produkt.[Artikel-Nr]= [Fact.Umsatz].[Artikel-Nr]) INNER JOIN Order ON[Fact.Umsatz].[Bestell-Nr]= Order.[Order-ID]) INNER JOINZeit.Dimension ON Orders.[Order-ID] =Zeit.Dimension.[Order-ID]) INNER JOIN Ort.Dimension ONOrder.[Order-ID] = Ort.Dimension.[Order-ID]) ONProduktgruppe.[Gruppen-Nr] = Produkt.[Gruppen-ID]
GROUP BY Produkt.Dimension.Gruppenname, Ort.Dimension.Bundesland,Zeit.Dimension.Jahr;
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–21
Einführung Abgrenzung
Abgrenzung zu OLTP
Klassische operative Informationssysteme→ Online Transactional Processing (OLTP)
I Erfassung und Verwaltung von DatenI Verarbeitung unter Verantwortung der jeweiligen AbteilungI Transaktionale Verarbeitung: kurze Lese-/ Schreibzugriffe auf
wenigen Datensätzen
Data Warehouse→ Online Analytical Processing (OLAP)
I Analyse im MittelpunktI Langandauernde Lesetransaktionen auf vielen DatensätzenI Integration, Konsolidierung und Aggregation der Daten
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–22
Einführung Abgrenzung
Abgrenzung zu OLTP: Anfragen
OLTP OLAPFokus Lesen, Schreiben, Mo-
difizieren, LöschenLesen, periodischesHinzufügen
Transaktionsdauerund -typ
kurze Lese- / Schreib-transaktionen
langandauerndeLesetransaktionen
Anfragestruktur einfach strukturiert komplexDatenvolumen einerAnfrage
wenige Datensätze viele Datensätze
Datenmodell anfrageflexibel analysebezogen
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–23
Einführung Abgrenzung
Abgrenzung zu OLTP: Daten
OLTP OLAPDatenquellen meist eine mehrereEigenschaften nicht abgeleitet,
zeitaktuell, autonom,dynamisch
abgeleitet / konsolidiert,historisiert, integriert, sta-bil
Datenvolumen MByte . . . GByte GByte . . . TByte . . . PByteZugriffe Einzeltupelzugriff Tabellenzugriff (spalten-
weise)
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–24
Einführung Abgrenzung
Abgrenzung zu OLTP: Anwender
OLTP OLAPAnwendertyp Ein-/Ausgabe durch
Angestellte oderApplikationssoftware
Manager, Controller,Analyst
Anwenderzahl sehr viele wenige (bis einigehundert)
Antwortzeit msecs . . . secs secs . . . min
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–25
Einführung Abgrenzung
Abgrenzung: DBMS-Techniken
Parallele DatenbankenI Technik zur Realisierung eines DWH
Verteilte DatenbankenI I.d.R. keine redundante DatenhaltungI Verteilung als Mittel zur LastverteilungI Keine inhaltliche Integration/Verdichtung der Daten
Föderierte DatenbankenI Höhere Autonomie und HeterogenitätI Kein spezifischer AnalysezweckI Keine Lesezugriffoptimierung
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–26
Einführung Begriff Data Warehouse
Data Warehouse: Begriff
A Data Warehouse is a subject-oriented, integrated, non-volatile,and time variant collection of data in support of managementsdecisions.
(W.H. Inmon 1996)
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–27
Einführung Begriff Data Warehouse
Data Warehouse: Charakteristika
Fachorientierung (subject-oriented):I Zweck ist Unterstützung bereichsübergreifender
Auswertungsmöglichkeiten für unterschiedliche DomänenI Zentralisierte Bereitstellung der Daten über Geschäftsobjekte
(Themen)Integrierte Datenbasis (integrated):
I Verarbeitung von Daten aus mehreren verschiedenen (internen undexternen) Datenquellen (z.B. operationalen DB oder Web)
Nicht-flüchtige Datenbasis (non-volatile):I stabile, persistente DatenbasisI Daten im DW werden i. A. nicht mehr entfernt oder geändert
Zeitbezogene Daten (time-variant):I Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)I Speicherung über längeren Zeitraum
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–28
Einführung Begriff Data Warehouse
Weitere Begriffe
Data WarehousingI Data-Warehouse-Prozess, d.h. alle Schritte der Datenbeschaffung
(Extraktion, Transformation, Laden), des Speicherns und derAnalyse
Data MartI externe (Teil-)Sicht auf das Data WarehouseI durch KopierenI anwendungsbereichsspezifisch
OLAP (Online Analytical Processing)I explorative, interaktive Analyse auf Basis des konzeptuellen
DatenmodellsBusiness Intelligence
I Data Warehousing + Reporting + Analyse (OLAP, Data Mining);auch automatisch erzeugte Reports in Unternehmen
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–29
Einführung Begriff Data Warehouse
Trennung operativer und analytischer Systeme:Gründe
Antwortzeitverhalten: Analyse auf operativen Quelldatensystemen→ schlechte PerformanceHistorisierung der UnternehmensdatenLangfristige Speicherung der Daten→ ZeitreihenanalyseZugriff auf Daten unabhängig von operativen Datenquellen(Verfügbarkeit, Integrationsproblematik)Vereinheitlichung des Datenformats im DWGewährleistung der Datenqualität im DW
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–30
Einführung Begriff Data Warehouse
Historie: Wurzeln
60er Jahre: Executive Information Systems (EIS)I qualitative Informationsversorgung von EntscheidernI kleine, verdichtete Extrakte der operativen DatenbeständeI Aufbereitung in Form statischer BerichteI Mainframe
80er Jahre: Management Information Systems (MIS)I meist statische BerichtsgeneratorenI Einführung von Hierarchieebenen für Auswertung von Kennzahlen
(Roll-Up, Drill-Down)I Client-Server-Architekturen, GUI (Windows, Apple)
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–31
Einführung Begriff Data Warehouse
Historie
1992: Einführung des Data-Warehouse-Konzeptes durch W.H.Inmon
I Redundante Haltung von Daten, losgelöst von QuellsystemenI Beschränkung der Daten auf Analysezweck
1993: Definition des Begriffs OLAP durch E.F. CoddI Dynamische, multidimensionale Analyse
Weitere EinflussgebieteI Verbreitung geschäftsprozessorientierter Transaktionssysteme
(SAP R/3)→ Bereitstellung von entscheidungsrelevantenInformationen
I Data MiningI WWW (Web-enabled Data Warehouse etc.)
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–32
Einführung Themen
Vorlesung: Zielstellungen
Vermittlung von Kenntnissen zu Datenbanktechniken für Aufbauund Implementierung von Data WarehousesAnwendung bekannter DB-Techniken (siehe Vorlesung„Datenbanksysteme“)
I DatenmodellierungI Anfragesprachen und -verarbeitung
DW-spezifische TechnikenI multidimensionale DatenmodellierungI spezielle AnfragetechnikenI IndexstrukturenI materialisierte SichtenI Einsatzgebiete: Business Intelligence
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–33
Einführung Themen
DW-Architektur
Komponenten von DW und deren AufgabenDatenbanken
I Datenquellen: Herkunftsort der DatenI Datenbereinigungsbereich: temporäre Datenbank für
TransformationI Data Warehouse: physische Datenbank für AnalyseI Repository: Datenbank mit Metadaten
Extraktion LadenBasis-daten-bank
Befüllen AnalyseDaten-quellen
Daten-bereinigungs-
bereich
Datenwürfel
Trans-formation
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–34
Einführung Themen
DW-Architektur: Komponenten
Data-Warehouse-Manager: zentrale Kontrolle und SteuerungMonitore: Überwachung der Quellen auf VeränderungenExtraktoren: Selektion und Transport der Daten aus Quellen inDatenbereinigungsbereichTransformatoren: Vereinheitlichung und Bereinigung der DatenLadekomponenten: Laden der transformierten Daten in das DWAnalysekomponenten: Analyse und Präsentation der Daten
Trans-formation
Data-Warehouse-Manager
Metadaten-ManagerMonitor Repo-
sitory
DatenflussKontrollflussEreignisse
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–35
Einführung Themen
Multidimensionales Datenmodell
Datenmodell zur Unterstützung der AnalyseI Fakten und DimensionenI KlassifikationsschemaI Würfel
Operationen: Pivotierung, Roll-Up, Drill-Down, Drill-Across, Sliceund DiceNotationen zur konzeptuellen ModellierungRelationale Umsetzung
I Star-Schema, Snowflake-Schema
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–36
Einführung Themen
ETL-Prozess
Prozess von Extraktion, Transformation und LadenExtraktion von Daten aus Quellen:
I Operative Datenbanken,I Web,I Dateien, etc.
Laden von Daten in das DWHAspekte der Datenqualität
I BegriffI ProblemeI Data Cleaning
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–37
Einführung Themen
Index- und Speicherstrukturen
KlassifikationWiederholung
I B-Baum und B+-BaumMehrdimensionale Indexstrukturen
I R-BaumI UB-BaumI Bitmap-IndexI Vergleich
Weitere FormenMultidimensionale Speicherung
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–38
Einführung Themen
Anfragen an Data Warehouses
Gruppierung und AggregationSupergroups, CUBEOLAP-Funktionen aus SQL:2003Mehrdimensionale Erweiterungen von Anfragesprachen: MDX
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–39
Einführung Themen
Anfrageverarbeitung und -optimierung
Berechnung von Gruppierung und CubesStar-JoinsWeitere Optimierungsaspekte
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–40
Einführung Themen
Materialisierte Sichten
Materialisierte Sicht (engl. materialized view): vorab berechneterAusschnitt aus einer FaktentabelleVerwendung: AnfrageersetzungAuswahl: Bestimmung der redundant gehaltenen Daten
I statische vs. dynamische AuswahlverfahrenI semantisches Caching
Wartung und Aktualisierung
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–41
Einführung Themen
Anwendungen für Data Warehouses
ReportingDatenexploration
I KlassifikationI WarenkorbanalyseI Prognose
Anwendungsszenarien
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–42
Einführung Themen
Big Data: 5 V’s
Volume - sehr hohe Datenmenge (Verdoppelung alle 2 Jahre)Variety - strukturierte sowie unstrukturierte DatenVelocity - vom Batch zur EchtzeitVeracity - Vertrauen in die DatenValue - Wert der (Geschäfts-)Daten
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–43
Einführung Themen
Big Data und Data Warehouse
Entwicklungsumgebung Business Intelligence
Extract - Transform - LoadFile Copy
CRM SCM ERP 3rd Party
LegacyeMail DocSensor Multimedia
Integrierte Datenbasis
Integrierte Datenbasis
Blog
MapMap Map Map
Reduce Reduce Reduce
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–44
Einführung Benchmarks
TPC-Benchmarks
Vergleich der Leistungsfähigkeit von Datenbanken (www.tpc.org)I TPC-C: OLTP BenchmarkI TPC-H: Ad-hoc Decision Support (variable Anteile)I TPC-R: Reporting Decision Support (feste Anfragen)I TPC-W: eCommerce Transaktionsprocessing
Vorgegebene Schemata (Lieferwesen)Schema-, Query- und DatengeneratorenUnterschiedliche DB-Größen
I TPC-H: 100 GB - 300 GB - 1 TB - 3 TB -10 TB
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–45
Einführung Benchmarks
TPC-H: Schema
REGION
NATION
SUPPLIER
PARTSUPP LINEITEM
ORDERS
CUSTOMER
PART
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–46
Einführung Benchmarks
TPC-H: AnfragenSELECT c_name, c_custkey,
o_orderkey, o_orderdate,o_totalprice, SUM (l_quantity)
FROM customer, orders, lineitemWHERE o_orderkey IN (SELECT l_orderkey
FROM lineitemGROUP BY l_orderkeyHAVING SUM (l_quantity) > :1)
AND c_custkey = o_custkeyAND o_orderkey = l_orderkey
GROUP BY c_name, c_custkey, o_orderkey,o_orderdate, o_totalprice
ORDER BY o_totalprice desc, o_orderdate
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–47
Einführung Benchmarks
TPC-H: Zahlen (10.000 GB) - 2011
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–48
Einführung Benchmarks
Produkte
OLAP-Tools/ServerI MS Analysis Services, Hyperion, Cognos
DW-Erweiterungen für RDBMSI Oracle11g, IBM DB2, MS SQL Server: SQL-Erweiterungen,
Indexstrukturen, mat. Sichten, Bulk-Load/Insert, . . .BI Accelerator
I lese-optimierte DBS-Lösungen: Hauptspeicher-Verarbeitung,spaltenorientierte Datenorganisation, MapReduce-Techniken,Cluster-Architekturen
I z.B. SAP TREX, Greenplum, Vertica, EXASOL, . . .ETL-Tools
I MS Integration Services, Oracle Warehouse Builder, . . .
c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–49