Data Lake

Ein Data Lake ("Datensee") ist ein vergleichsweise sehr großer Datenspeicher, der unterschiedlichste Daten und Informationen aus verschiedensten Quellen in unterschiedlichsten Formaten beinhaltet und sammelt.

Bildlich lässt sich ein Data Lake wie eine riesige Festplatte vorstellen, auf der regelmäßig Daten aus kaufmännischen Systemen, E-Commerce Shops und CRM-Systemen, Lagerdatenbanken, Webserver Logs, Produktions- und Verwaltungssystemen abgelegt werden. Data Lakes können sowohl strukturierte Tabellen, als auch unstrukturierte Textdateien, Dokumente, Bilder, Audio- und Videodateien etc. enthalten.

Naturgemäß sind die im Data Lake enthaltenen Daten nicht vorgefiltert, harmonisiert oder validiert. Dadurch können Informationen zwar schnell erfasst und abgelegt werden, jedoch lassen sich die Daten zunächst nicht ohne weiteres miteinander verknüpfen und übergreifend auswerten.

Ein Data Lake erfüllt aber dennoch sein wesentliches Ziel: Informationen werden in einem einheitlichen System gesammelt und stehen zur anschließenden Weiterverarbeitung an einem zentralen Ort zur Verfügung. Data Lakes sind daher oft auch die Basis für Analysen aus den unterschiedlichsten Anwendungsbereichen und vermeiden, dass gemeinsam nutzbare Daten in unterschiedlichen Datensilos liegen und ggf. mehrfach für Analysezwecke vorgehalten werden.

Professionelle Data-Lake-Anwendungen sind zudem in der Lage, durch ein strukturiertes Datenkonzept die Anforderungen an Datenschutz und Zugriffskontrolle sicherzustellen, ggf. vertrauliche Daten zu verschlüsseln, sowie eine Vielzahl von gängigen Datenbankformaten und -protokollen zu erkennen.

Data Lakes eignen sich insbesondere für Unternehmen und Organisationen, die regelmäßig eine sehr große Menge von Daten hoher Heterogenität und Komplexität für die unterschiedlichsten Zwecke zusammenführen und analysieren müssen.

Weitere Informationen

  • Kategorie: Glossar
  • Thema: Business Intelligence & Analytics