Inkrementelles Laden – Vanilla Style

Nachdem bereits ein Non-Vanilla-Weg zum inkrementellen Laden von Daten aufgezeigt wurde (Blogbeitrag „Inkrementelles Laden mit relationaler Partitionierung“), treten wir heute nochmal einen Schritt zurück und zeigen die Grundzüge eines einfachen inkrementellen Szenarios und erläutern dabei ausführlich die notwendigen Kniffe im Modeler. Aufgrund der zahlreichen Fragen in jüngster Vergangenheit, scheint hier noch etwas Grundlagenarbeit nötig zu sein – also ab in die Vanilla-Welt!

Unter der Haube

Treten wir zunächst einmal einen Schritt zurück und stellen ein paar grundsätzliche Überlegungen zum inkrementellen Laden und der zugehörigen Partitionierung an. Ein inkrementelles Ladeszenario wird man in der Regel nur dann wählen, wenn die Ladeperformance eines BI-Systems zu schlecht ist oder wenn man selbiges erwartet. Die optimale Performance wird man bei gleichzeitiger Partitionierung auf relationaler Ebene erreichen. Eine Partitionierung ist aber nicht nur auf der relationalen Ebene von Relevanz. Auch in der OLAP-Datenbank kann eine Partitionierung Performancevorteile bringen. Dort sogar an zwei Stellen: beim Aktualisieren der Daten und beim Abfragen der Daten. Von daher gibt es verschiedene Partitionierungsszenarien in einer BI-Architektur, die verschiedene Vor- und Nachteile haben:

Abbildung 1: Übersicht Partitionierungsszenarien

Bei Szenario A werden unterschiedliche „Quelldatenhäppchen“ in eine große Tabelle geladen und von dort in eine Würfelpartition weiterverarbeitet. Die Häppchen können hier zwar einzeln geladen werden, da aber immer in die „große“ Tabelle importiert wird, muss man Abstriche bei Ladezeit und Speicherbedarf (insbesondere in dem Transaction Log) in Kauf nehmen. Dafür ist der Aufbau des Szenarios denkbar einfach und mit wenig Pflegeaufwand verbunden.

Szenario B nutzt auch die vollen relationalen Partitionierungsmöglichkeiten. Im Prinzip könnte man hier noch zwei Varianten unterscheiden: Eine, in der echte Tabellen existieren (wie es der Modeler bei eingeschalteter Partitionierung macht) und eine, in der lediglich eine Tabelle über eine relationale Partitionierung aufgeteilt wird. In beiden Fällen münden die relationalen Partitionen in einem unpartitionierten Würfel. Hier wird die Ladeperformance noch einmal verbessert, da (insbesondere bei der im genannten Beitrag beschriebenen SWITCH-Technik) das Transaction Log komplett umgangen wird. Die Aufbereitung des Würfels und die Abfragen würden allerdings immer noch stets den kompletten Datenbestand umfassen. Da hier recht wenig Implementierungsaufwand enthalten ist, sollte der fehlende Schritt hin zu Szenario D grundsätzlich empfohlen werden.

Szenario C wird insbesondere für die Optimierung von MDX-Abfragen herangezogen und kann über dynamische Partitionen direkt im BIDS konfiguriert werden. Die relationale Grundlage ist wie bei Szenario A eine große Tabelle. Durch die Partitionierung des Würfels kann lediglich die Analysis Services Engine die Abfragen besser optimieren. Ganz einfach gesprochen, kann hier bei einer Abfrage entschieden werden, in welcher Partition die notwendigen Daten zu finden sind, so dass bei der Interpretation nicht alle Daten sondern nur die benötigten herangezogen werden müssen. Also wenn z. B. nur Daten vom aktuellen Jahr abgefragt werden, kann AS genau in den richtigen Datentopf greifen. Allerdings halten wir auch hier den weiteren Schritt hin zu Szenario D für sinnvoll, da in dem oben genannten Fall auch wirklich nur ein kleiner relationaler Datentopf abgefragt wird.

Szenario D ist die volle Ausbaustufe mit relationaler und multidimensionaler Partitionierung. Hier ist die maximale Performance auf Lade- und Abfrageseite zu erwarten, allerdings auch der größte Implementierungsaufwand. Insbesondere wenn man mit der „echten“ SWITCH-Logik arbeitet. Eine einfache Variante der Partitionierung wird auch vom Modeler unterstützt. Hier müssen die Partitionen allerdings in regelmäßigen Abständen wieder angepasst werden (z. B. bei Jahreswechseln). Aber was nicht ist, kann ja noch werden!

Für den folgenden Beitrag konzentrieren wir uns auf die vom Modeler unterstützte einfache Variante von Szenario D, bei der pro Jahr eine relationale wie multidimensionale Partitionierung vorgenommen wird. Die Zuordnung der Quelldaten zu den relationalen Tabellen ist dabei statisch und wird nicht „geswitcht“. Um die Problematik der regelmäßigen Anpassung etwas zu mildern, legen wir in der Praxis meist viele Partitionen für die Zukunft „auf Halde“ an, so dass erst in einigen Jahren wieder angepasst werden muss. So sehen wir beispielsweise Partitionen von 2010 bis 2025 vor, bei denen jeweils eine Quelltabelle dahinter liegt. Die Zukunftspartitionen laufen dann einfach so lange leer mit, bis das Jahr erreicht ist. Wenn wir dann ohnehin mal wieder am System arbeiten, können neue Partitionen ergänzt werden.

Modeler explained

Wie bereits oben erwähnt, unterstützt der Modeler eine einfache Variante von Szenario D. Hier werden einfach getrennte Quelltabellen für die MeasureGroups konfiguriert und anschließend definiert welche dieser Quelltabellen tatsächlich gelöscht und/oder geladen werden sollen. Hierbei sind verschiedene Flags relevant, die von der Modeler-Ladelogik interpretiert werden. Schauen wir uns die Konfiguration im Detail an.

Konfiguration der Quelltabellen

Zunächst brauchen wir für unsere MeasureGroup pro zu landendem Jahr eine Quelltabelle. Da wir in der Regel mit Views arbeiten, empfiehlt es sich auch hier pro Jahr eine View anzulegen. Damit einen die lästige Fleißarbeit nicht in den Wahnsinn treibt und weil der Modeler, wie bereits ein-, zweimal erwähnt, ein „echter Kumpel“ ist, gibt es dafür eine Metaprozedur, die uns die Views pro Jahr anlegt. Man gibt lediglich Name der Quelltabelle (oder –view) an, die Spalte, in der die Jahres-zahl zu finden ist, sowie das gewünschte Start- und Endjahr – fertig. Der Aufruf sieht folgendermaßen aus:

Anschließend müssen die Quelltabellen nur noch im Modeler als Quelle konfiguriert werden, wobei ein weiterer Kniff im Modeler hier hilft Konfigurationsarbeit zu sparen:

Abbildung 2: Konfiguration “Def. source table ID” in Bericht „Measure group source table”

Über den Parameter „Def. source table ID“ kann sich der Modeler einfach bei einer anderen Quelltabelle die Spaltenkonfiguration abschauen. Sprich, wir müssen nicht für alle 10 Quelltabellen die Spaltennamen der Dimensionen und Kennzahlen zuordnen, sondern lediglich einmal. Bei allen anderen Quelltabellen verweisen wir einfach auf die erste Quelltabelle. Fertig!

Aktivierung der Partitionierung

Der entscheidende Schalter, um die Partitionierung zu aktivieren, versteckt sich im „normalen“ MeasureGroups-Bericht:

Abbildung 3: Konfiguration „Partition per src.tab.“ in Bericht „Measure groups“

Mit „Partition per src.tab.“ kann man den Modeler dazu bewegen pro Quelltabelle eine Partition zu erzeugen. Das macht er dann grob nach Szenario D, wobei er relational mit „echten“ Tabellen arbeitet und nicht mit dem Partition-Switching. Ist der Schalter aktiviert, wird pro Quelltabelle eine P_FACT-Routine erstellt (was sich nicht zum Standardverhalten unterscheidet) plus eine T_FACT-Tabelle pro Quelltabelle sowie eine MeasureGroup-Partition pro Quelltabelle. Die Objekte erhalten als Suffix dann einfach einen fortlaufenden Index.

Abbildung 4: Ergebnis der Modeler-Partitionierung in RDB und OLAP-DB

Übrigens hilft einem der Modeler auch beim späteren Umgang mit den aufgeteilten Fakten. Will man relational auf alle Vertriebsdaten zugreifen, müsste man je nach Jahr jetzt auf andere Objekte zugreifen. Um dies zu vereinfachen, legt der der Modeler extra einen UNION-View an, in der alle Partitionen wieder summiert dargestellt werden. Ihr Name in unserem Beispiel: V_FACT_UNION_01_Vertrieb.

Clap-on Clap-off

Jetzt ist es ja schon einmal gut, dass wir die Daten in unterschiedliche Partitionen aufgeteilt haben. Inkrementell ist das Ganze allerdings noch mitnichten. Dafür fehlen uns zwei weitere Parameter: „Del. table“ und „Fill table“. Diese steuern, ob die Partitionen beim Ausführen der Transform-All-Routine gelöscht und/oder gefüllt werden. Beides ist getrennt steuerbar, zum Beispiel für den Fall, dass jeden Tag neue Daten in eine Partition hinzukommen („Fill table“ = Yes), die bereits an den Vortagen importierten Daten aber nicht neu geladen werden sollen („Del. table“ = -).

Das Tolle an den beiden Parametern ist, dass diese ohne die Ausführung des Create-Snowflake-Prozesses greifen. Sprich, direkt nachdem sie in der Modeler.das umgestellt wurden, sind sie beim nächsten Transform-All wirksam. Wie das geht? Ganz einfach mal einen Blick in die P_FACT-Routinen werfen, dort wird das Geheimnis gelüftet:

Abbildung 5: Kopfbereich einer P_FACT-Prozedur

Seit der Modeler-Version 212 wird die Befüllung der Fakten nur unter gewissen Bedingungen ausgeführt. Die entsprechend gesetzten Parameter sind eine davon.

Mit diesem Wissen ist es nun auch möglich ein dynamisches Szenario der Befüllung zu implementieren. Abhängig von dem aktuellen Jahr könnte man nun einfach die beiden Parameter per Update anpassen und im nächsten Ladelauf würden nur noch die aktuellen Partitionen neu befüllt werden. Das Update muss dabei einfach auf der Tabelle T_Model_…. Moment, wo eigentlich ausgeführt werden?

Genau hier liegt ein häufiger Grund für Verwirrung bei der Konfiguration des Modelers. Die Parameter „Del. table“ und „Fill table“ existieren nämlich zweimal in den Berichten der DAS-Datei. Zum einen im Bericht „Measure groups“:

Abbildung 6: Konfiguration „Del. table“ und „Fill table“ in Bericht „Measure groups“

Zum anderen im Bericht „Measure group source table“:

Abbildung 7: Konfiguration „Del. table“ und „Fill table“ in Bericht „Measure group source table“

Und welcher Parameter wird nun verwendet? Ganz einfach – wenn „Partition per src.tab.“ auf YES steht, werden die Parameter des Berichts „Measure group source table“ verwendet. Ansonsten die Parameter des Berichts „Measure groups“. Der Grund liegt auf der Hand – wenn pro Quelltabelle partitioniert werden soll, muss es auch möglich sein für jeden Partition getrennt zu entscheiden, ob diese gelöscht und/oder gefüllt werden soll oder nicht. Andernfalls hätte die Partitionierung keinen Sinn. Soll nicht partitioniert werden, genügt eine globale Einstellung für die ganze MeasureGroup.

Blick in die Sterne

Das ist schon der ganze Zauber der einfachen Partitionierung und inkrementellen Befüllung im Modeler 212. Diese hat natürlich auch ein paar Nachteile, die im früheren Beitrag bereits beschrieben und mit seinem Verfahren umgangen hat.

Sicher ist jetzt schon, dass in der Version 213 noch eine weitere Unterstützung für inkrementelle Szenarien ausgeliefert wird. Dann nämlich, wenn im Modell etwas grundsätzlich umgebaut oder erweitert wird. Der notwendige Create-Snowflake-Prozess löscht heute die kompletten Tabelleninhalte wenn man sich nicht zuvor darum per Backup und Restore kümmert. Im Modeler 213 wird es ein inkrementelles Snowflake geben, welches nur die geänderten und die davon abhängigen Objekte ändert. Wird also beispielsweise eine neue Measure in einer Faktentabelle ergänzt, werden alle anderen Faktentabellen nicht neu erstellt. Damit entfallen viele Wartezeiten bei der Projektentwicklung. Das geht sogar so weit, dass es ein Non-Vanilla-Pro-Feature geben wird, nennen wir es mal Hot-Chili-Feature. In der 213 wird man ein Create-Snowflake komplett simulieren können, ohne dass SQL-Objekte verändert werden. Es wird lediglich der neue Quellcode der Objekte erzeugt und der kundige BI-Berater kann den Code anschließend nach Belieben verwenden und per chirurgischem Kleineingriff in sein System einbauen.

Freitag, 20. Februar 2015

DeltaMaster ETL ETL OLAP SQL Modeler

Veranstaltungs-Tipp

On-Demand-Webinar 22. April 2024 Webinar: Selfservice mit DeltaMaster und Microsoft Excel

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar [...]

Anmeldung

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar.

On-Demand-Webinar 2. Mai 2024 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

On-Demand-Webinar 7. Mai 2024 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Über den Autor

Consulting

Die Bissantz-Consultants teilen ihr Wissen rund um Data-Warehouse-Projekte und Business-Intelligence-Lösungen – jede Woche ein neuer Beitrag. Auf die Würfel, fertig, los!

Letzte Blogartikel

Forschung Benutzerdefinierte Filter für Zielbericht zuweisen

Benutzerdefinierte Filter helfen im neuen Release von DeltaMaster, Verknüpfungen von Grafischen Tabellen zu Zielberichten flexibler anzulegen [...]

mehr erfahren

Bissantz News Wissen auf Abruf: das Bissantz Help Center

Viele Nutzer legen direkt in DeltaMaster und DeltaApp los und verstehen intuitiv, wie Berichte genutzt werden können. Wer lieber mit einer [...]

mehr erfahren

Forschung Steuereinnahmen der Länder

Steuereinnahmen der Länder - es war schon immer viel Fantasie im Spiel, wenn es um das Erfinden und Eintreiben von Steuern ging. Wie haben [...]

mehr erfahren

Forschung Studienanfänger und Studierende in Deutschland

Studienanfänger stehen jedes Jahr vor einer wichtigen Entscheidung: Welches der fast 300 Studienfächer entspricht den eigenen Neigungen und [...]

mehr erfahren

Data Warehousing Float – ein problematischer Datentyp

Dieser Beitrag zeigt, wie es bei relationalen Eingabeanwendungen zu Rundungsfehlern im Zusammenhang mit float kommen kann und wie man dies vermeidet [...]

mehr erfahren

Data Warehousing Reverse Engineering im Bissantz Application Designer

Dieser Beitrag stellt die neue Funktion des „Reverse Engineering“ im Bissantz Application Designer vor. Damit lassen sich bestehende relationale [...]

mehr erfahren

Forschung Neue Aggregationstypen in der DeltaApp

Der Aggregationstyp Summation ist bei hierarchischen Modellen im Bereich Business Intelligence vorherrschend: Der Gesamtumsatz ergibt sich beispielsweise [...]

mehr erfahren

Forschung Aufstiegs-BAföG in der DeltaApp

In einer sich schnell verändernden Welt ist lebenslanges Lernen unerlässlich. Mit dem Aufstiegs-BAfög werden bestimmte Fortbildungen unterstützt [...]

mehr erfahren

Bissantz News Daten- und Softwaresicherheit bei Bissantz

TISAX-Verlängerung und Penetrationstest-Zertifizierung Informationssicherheit hat bei Bissantz & Company höchste Priorität – deshalb werden [...]

mehr erfahren

Forschung Flächennutzung in Deutschland

Veränderungen verstehen: Wer Abweichungen und Verschiebungen seiner Kennzahlen auf den Grund gehen will, kann in DeltaMaster eine Vielzahl [...]

mehr erfahren

Vorheriger Artikel

SQL-Server Evaluation Edition Expired - Nichts ist beständiger als das Provisorium

Nächster Artikel

T-SQL Schlüsseldienst

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

Inkrementelles Laden – Vanilla Style

Unter der Haube

Modeler explained

Konfiguration der Quelltabellen

Aktivierung der Partitionierung

Clap-on Clap-off

Blick in die Sterne

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Data Warehousing.