Microsoft beschreibt OneLake als “einziger, einheitlicher, logischer Data Lake für Ihre gesamte Organisation. Wie OneDrive wird OneLake automatisch mit jedem Microsoft Fabric-Mandanten bereitgestellt und ist als zentraler Ort für alle Ihre Analysedaten konzipiert.” (Quelle)
Der Name ist dabei Programm. Jeder Tenant mit Microsoft Fabric hat genau einen OneLake, niemals mehrere oder gar keinen. Jeder Fabric-Mandant stellt automatisch einen OneLake bereit, ohne dass zusätzliche Ressourcen eingerichtet oder verwaltet werden müssen.
Das Konzept eines einzigen OneLake pro Tenant ist ein einzigartiger Vorteil des SaaS-Dienstes. Zu wissen, wo die Organisation eines Kunden beginnt und endet, bietet eine natürliche Grenze für Governance und Compliance, die unter der Kontrolle eines Tenant-Administrators steht. Alle Daten, die in OneLake landen, werden standardmäßig verwaltet. Während alle Daten innerhalb der vom Tenant-Administrator gesetzten Grenzen liegen, ist es wichtig, dass dieser Administrator nicht zu einem zentralen Gatekeeper wird, der andere Teile der Organisation daran hindert, zu OneLake beizutragen.
Innerhalb eines Tenants können deshalb eine beliebige Anzahl von Arbeitsbereichen (Workspaces) angelegt werden. Workspaces ermöglichen es verschiedenen Teilen der Organisation, die Eigentums- und Zugriffsrechte zu verteilen. Jeder Arbeitsbereich ist Teil einer Kapazität, die an eine bestimmte Region gebunden ist und separat abgerechnet wird.
Das Konzept hinter OneLake ist ähnlich wie in OneDrive. In dem alle möglichen Dateitypen, strukturierte und unstrukturierte Daten gespeichert werden können, dient OneLake als zentraler Speicherort für Lakehouses, Warehouses und andere Datenobjekte und -typen.
Technisch basiert OneLake auf Azure Data Lake Storage (ADLS) Gen2, wobei als Speicherformat das offene Delta Parquet Format zum Einsatz kommt. Das hat den Vorteil, dass auch andere auf ADLS basierende Anwendungen wie Azure Databricks nahtlos mit OneLake arbeiten können.
OneCopy: Shortcut statt Daten kopieren
OneLake zielt darauf ab, den größtmöglichen Mehrwert aus einer einzigen Datenkopie zu gewinnen, ohne dass Daten verschoben oder dupliziert werden. Damit soll die Datenverwaltung vereinfacht und redundante Datenspeicherung vermieden werden.
Um dieses Konzept umzusetzen, kommen sogenannte Shortcuts zum Einsatz. Shortcuts verbinden Daten über Domänen hinweg ohne eine zusätzliche Kopien zu erzeugen oder Daten zu verschieben. Shortcuts sind Verweise auf Daten, die in anderen Dateisystemen gespeichert sind. Diese Dateispeicherorte können sich innerhalb desselben Arbeitsbereichs oder in verschiedenen Arbeitsbereichen befinden, innerhalb von OneLake oder außerhalb von OneLake in ADLS, Amazon S3 oder Dataverse. Durch die Nutzung von Shortcuts wird somit eine effiziente Verwaltung von Daten ermöglicht, ohne dabei unnötigen Speicherplatz zu beanspruchen. Die Verlinkung zu externen Datenquellen trägt dazu bei, die Integrität der Daten beizubehalten, während gleichzeitig Flexibilität in der Datenspeicherung gewährleistet wird.
Eine Kopie - mehrere Engines
Mit OneLake ist es nicht mehr erforderlich, Daten für den Einsatz von verschiedenen Engines zu kopieren. Je nach Anforderungen oder vorhandenem Skillset der Data Engineers, kann die jeweils beste Analyse-Engine (T-SQL, Spark, Analysis Services usw.) für den eigenen Anwendungsfall ausgewählt werden.
Ein Team von SQL Server Experten kann also beispielweise die T-SQL Engine nutze um Tabellen zu erstellen und die Daten zu transformieren. Darauf aufbauen kann ein Data Scientist nahtlos die volle Leistung der Spark-Engine nutzen um tiefgehende Analyse auf den Daten durchzuführen.
Berichtersteller können Power BI-Berichte direkt in OneLake erstellen, indem sie den neuen Direct Lake-Modus in der Analysis Services-Engine verwenden. Die Analysis Services-Engine unterstützt semantische Power BI-Modelle und bietet seit jeher zwei Modi für den Zugriff auf Daten: Importieren und die direkte Abfrage. Der Direct Lake-Modus bietet Benutzer*innen die gesamte Importgeschwindigkeit, ohne dass die Daten kopiert werden müssen.
Weitere Details zum OneLake und Microsoft Fabric erhalten Sie in unseren kommenden Blog-Beiträgen, seien Sie also gespannt! Falls Sie mehr erfahren möchten oder Potenzial für Ihre Anforderungen sehen, stehen wir Ihnen gerne zur Verfügung.
Kontaktieren Sie uns gerne über unser Kontaktformular oder rufen Sie uns an!