Dimension

In der klassischen BI ist eine Dimension eine Struktur, die Daten und Kennzahlen nach bestimmten Kriterien kategorisiert, um den Nutzern die Beantwortung von Geschäftsfragen zu ermöglichen.

Häufig verwendete Dimensionen sind Personen, Produkte, Regionen, Vertriebskanäle, Organisationseinheiten, Ort und Zeit.

In einem Data Warehouse stellen Dimensionen strukturierte Kennzeichnungsinformationen zu ansonsten ungeordneten numerischen Kennzahlen (Measures) zur Verfügung. Die Dimension ist ein Ausschnitt, der Daten aus einzelnen, sich nicht überlappenden Elementen bildet. Beispiel Gesamtumsatz = Summe aus Umsatz für Produkt A, Produkt B und Produkt C. Diese Daten werden typischerweise in der sogenannten „Faktentabelle“ abgelegt:

Produkt Monat/Jahr Umsatz
A 01.2020 1234
B 01.2020 2345
C 01.2020 3456

 

In einem typischen Datenmodell werden jeder Dimension ein Datenbankfeld zugewiesen. Oft werden die spezifischen Eigenschaften in eine zweite Tabelle ausgegliedert, der Dimensionstabelle. Diese enthält keine Kennzahlen, sondern ergänzende Attribute zu den Ausprägungen in der Faktentabelle. In unserem Beispiel könnten darin die Produkte A und B der Produktgruppe „001“ zugeordnet werden, das Produkt C der Produktgruppe „002“.

Zudem sind typischerweise die Dimensionen in einem Data Warehouse intern in einer oder mehreren Hierarchien organisiert. Anknüpfend an unser Beispiel könnten die Produktgruppen „001“ und „002“ dem Ort „München“ zugewiesen werden. 

Die Dimensionen haben drei Hauptfunktionen: Filtern, Gruppieren und Kennzeichnen.

Diese Funktionen werden oft als "Slice and Dice" bezeichnet. Ein gängiges Data-Warehouse-Beispiel ist der Umsatz als Kennzahl, mit Kunde und Produkt, Gruppe oder Ort als Dimensionen. Bei jedem Verkauf kauft ein Kunde ein Produkt. Die Daten können in Scheiben geschnitten werden, indem alle Kunden bis auf eine zu untersuchende Gruppe entfernt werden, und dann durch Gruppierung nach Produkt in gewünschte Würfel geschnitten werden.

Zudem werden in der BI Terminologie unterschiedliche Dimensionstypen verwendet:

Version Dimension

Die Dimension „Version“ unterscheidet verschiedene Szenarien und Datentypen, beispielsweise „IST“, „PLAN“, „FORECAST“.

Junk-Dimensionen

Eine Junk-Dimension ist eine zweckmäßige Gruppierung von Flags und Indikatoren mit typischerweise niedriger Kardinalität. Eine Junk-Dimension ist eine Dimensionstabelle, die aus Attributen besteht, die weder in die Faktentabelle noch in eine der vorhandenen Dimensionstabellen gehören. Die Natur dieser Attribute ist normalerweise Text oder verschiedene Flags, z.B. nicht generische Kommentare oder einfach nur einfache Ja/Nein- oder Wahr/Falsch-Indikatoren. Diese Art von Attributen bleiben normalerweise übrig, wenn alle offensichtlichen Dimensionen im Geschäftsprozess identifiziert wurden und der Datenbankdesigner daher vor der Herausforderung steht, wo er diese Attribute, die nicht in die anderen Dimensionen gehören, einordnen soll.

Degenerierte Dimension

Eine degenerierte Dimension ist ein Schlüssel, wie z.B. eine Vorgangsnummer, Rechnungsnummer, Ticketnummer oder Stücklistennummer, der keine Attribute hat und daher nicht mit einer tatsächlichen Dimensionstabelle verknüpft ist. Degenerierte Dimensionen kommen sehr häufig vor, wenn die Körnung einer Faktentabelle eine einzelne Transaktions- oder Positionsposition darstellt, da die degenerierte Dimension die eindeutige Kennung der übergeordneten Dimension darstellt. Degenerierte Dimensionen spielen oft eine integrale Rolle im Primärschlüssel der Faktentabelle.

Property Dimension

Dimensionen werden ggf. für mehrere Zwecke innerhalb derselben Datenbank wiederverwendet. Beispielsweise kann die Dimension "Datum" sowohl für "Verkaufsdatum", als auch für "Lieferdatum" oder "Mietdatum" oder „Herstelldatum“ verwendet werden. Dies wird oft als "Property Dimension" bezeichnet und beschreibt, welche Eigenschaft das Datumsfeld in einem Datensatz hat.

Weitere Informationen

  • Kategorie: Glossar
  • Thema: Business Intelligence & Analytics
  • Titel: Dimension