Enterprise Data Cloud

Die Grundlage für Big Data schaffen

von Daniel Metzger

Wer Digitalisierung sagt, muss auch Daten sagen – und zwar Big Data. Während sich die meisten Unternehmen über die Business-Vorteile von Big-Data-Analysen freuen, stellen die Technologie und die Infrastruktur dahinter oftmals eine Herausforderung dar. Denn Daten sind nicht gleich Daten, sie können strukturiert oder unstrukturiert sein und entweder von Menschen oder von Maschinen sowie Sensoren generiert werden. Um aus diesen Daten Informationen als Basis qualifizierter Entscheidungen zu gewinnen, benötigen Unternehmen Big-Data-Architekturen, die ihnen zuverlässige und vertrauenswürdige Einblicke in diese Daten ermöglichen.

Die Bedeutung von Daten ist in den letzten 20 Jahren enorm gestiegen. Die Vernetzung der Unternehmen, intern wie extern, das Entstehen und das Wachsen sozialer Netzwerke sowie der Beginn der Digitalisierung waren die ersten Treiber dieser Entwicklung. Entsprechend rückte das Speichern, Verwalten, Auswerten und Nutzbarmachen von Daten auf der Agenda immer weiter nach oben – nicht nur in den IT-Abteilungen, sondern auch im höheren Management, das die Bedeutung von Daten für ihren Geschäftserfolg erkannt hat. Diese Notwendigkeit zum Datensammeln hat zu einem explosionsartigen, exponentiellen Anstieg der Datenmengen geführt, wodurch sogenannte Data Lakes als primärer Bestandteil von Datenarchitekturen entstanden sind.

Die vorherrschende Meinung war, dass Unternehmen große Data Lakes entwickeln müssten, in denen sich praktisch alle Daten befinden würden. Doch mit dem Aufkommen der Cloud und immer besserer und leistungsfähigerer Cloud-Dienste begann eine neue Zeitrechnung. Statt alle Daten zentral zu sammeln, wurden diese mehr und mehr verteilt. Hinzu kommt, dass durch die Datenverteilung über mehrere Standorte und teilweise Unternehmen hinweg diese ständig in Bewegung sind – inner- und außerhalb von Rechenzentren sowie der Cloud.

Daten – Strukturiert, unstrukturiert und verteilt

Eine weitere Herausforderung ist, dass unterschiedliche Arten von Daten – wie strukturierte und unstrukturierte, Sensordaten, Lieferanten-, Kunden- und Mitarbeiter-Daten – in jedem der Daten-Cluster liegen können. Gleichzeitig werden aber miteinander verwandte Daten möglicherweise verteilt in unterschiedlichen Orten gespeichert. Beispielsweise kann ein Einzelhandelsunternehmen Preisinformationen zu seinen Waren in einem Rechenzentrum in Bangkok und gleichzeitig Kundeninforma­tionen in einem Rechenzentrum in Dublin speichern. Es gibt aber auch neuartige Daten von Sensoren im Internet of Things (IoT), die in einem Cloud-Service wie Amazon Web Services (AWS) oder Microsoft Azure einfacher zu speichern sind. Diese Art von Daten könnte auch „on premises“, also lokal, auf eigenen, unternehmensinternen Speicherlösungen abgelegt sein. Für zeitnahe und Echtzeitanalysen ist es mittlerweile deutlich einfacher, diese Informationen in der Cloud zu erfassen und zu analysieren, als zu versuchen, dies komplett im eigenen Rechenzentrum abzuarbeiten.

Letztendlich benötigen Unternehmen jedoch eine übergreifende Datenplattform, die alle Daten aus Rechenzentren und Cloud-Infrastrukturen integriert. Diese Plattform ist ständig über den Standort, den Zustand und die Art der Daten informiert und kann auch weitere Services, beispielsweise in Bezug auf Datenschutz und Compliance-Richtlinien, an verschiedenen Standorten bieten.

Die Essenz in den Daten

Mit der Entscheidung für eine passende Datenplattform haben die Unternehmen zwar einen wichtigen Schritt getan, um die erfassten Daten aus technischer Sicht zu analysieren, doch damit allein ist es bei weitem noch nicht getan

Letztendlich benötigen Unternehmen jedoch eine übergreifende Datenplattform, die alle Daten aus Rechenzentren und Cloud-Infrastrukturen integriert.

Daniel Metzger

Wichtig ist ebenfalls, dass das Unternehmen die richtigen Experten auswählt, die zu unterschiedlichen Zeiten der Datenverarbeitung einen qualifizierten Blick auf die Daten werfen. Dazu gehören unter anderem Data Stewards, die in der Lage sein müssen, festzustellen, welchen Datenquellen vertraut wird, sowie wichtige Informationen über jede Quelle bereitzuhalten – zum Beispiel: Wer hat sie erstellt?, wer hat sie geändert und vieles mehr. Diese Datenverwalter sollten in der Lage sein, die Bestimmungen über alle Data Depositories hinweg durchzuführen. Denn nur, wenn die Qualität der eingehenden, gesammelten Daten wirklich hoch ist, sind auch die darauf basierenden Analysen sinnvoll.

Daniel Metzger: „Mit der Entscheidung für eine passende Datenplattform haben die Unternehmen zwar einen wichtigen Schritt getan, um die erfassten Daten aus technischer Sicht zu analysieren, doch damit allein ist es bei weitem noch nicht getan.“

Das Gleiche gilt selbstverständlich auch für alle späteren Schritte, in denen Analysten und Datenwissenschaftler die Daten, die daraus gewonnenen Informationen und schließlich die abgeleiteten Erkenntnisse bewerten, in den richtigen Kontext stellen und in Entscheidungsgrundlagen für die Geschäftsführung einarbeiten. Nur wenn wirklich alle Schritte entsprechend qualifiziert ihren Beitrag zur Analyse leisten, werden aus Massendaten wertvolle Informationen.

Enterprise Data Cloud

All diese Anforderungen müssen bereits bei der Konzeption einer Big-Data-Plattform – oder, wie Cloudera es nennt, einer „Enterprise Data Cloud“ – berücksichtigt werden. Unternehmen, die einen digitalen Wandel durchlaufen, benötigen umfassende Analysemöglichkeiten in Public-, Private-, Hybrid- und Multi-Cloud-Umgebungen. Unternehmen brauchen die Agilität, Elastizität und Benutzerfreundlichkeit von Cloud-Infrastrukturen, aber auch die Möglichkeit, Analyse-Work­loads standortunabhängig laufen zu lassen – egal, wo sich die Daten befinden.
Auch offene Architekturen und die Flexibilität, Workloads in verschiedene Cloud-Umgebungen (Public oder Private) zu verschieben, spielen eine wichtige Rolle. Nicht zuletzt ist es wichtig, mehrere Analysefunktionen auf demselben Datensatz mit einem gemeinsamen Sicherheits- und Governance-Framework ausführen zu können, um den Datenschutz und die Einhaltung gesetzlicher Vorschriften hochzuhalten. All das sind keine „Nice to have“-Features, sondern grundlegende Anforderungen für Unternehmen, die Daten erfolgreich nutzen wollen.


Ein Beispiel aus der Praxis

Thomson Reuters ist eine weltweite Quelle für Nachrichten und Informationen für die Finanz-, Rechts-, Steuer- und Medienbranche. Mit dem Service „Reuters Tracer“ hilft das Unternehmen Journalisten dabei, echte von gefälschten Nachrichten auf Twitter zu unterscheiden. Dafür nutzt Reuters eine umfangreiche Datenanalyse mit maschinellem Lernen. So verarbeitet Reuters Tracer täglich rund 13 Millionen Tweets und bestimmt deren Wahrheitsgehalt und Relevanz mit einem „Newsworthiness Score“. Diese Lösung basiert auf der Datenplattform von Cloudera für maschinelles Lernen, um die Geschwindigkeit und Genauigkeit zu erreichen, die es für die Analyse von Tweets benötigt. Die Plattform ist darauf optimiert, den Inhalt der Tweets, die verwendete Sprache, das Verbreitungsmuster und vieles mehr zu betrachten, genau wie es ein Journalist tun würde. Aufgrund des integrierten maschinellen Lernens unterscheidet der Tracer im Laufe der Zeit immer genauer relevante und wahre von unwichtigen Tweets und solchen, die Lügen verbreiten. Mit Reuters Tracer hilft Thomson Reuters somit einerseits Journalisten und Unternehmen, mit einer sich schnell verändernden Nachrichtenlandschaft Schritt zu halten, und verbessert andererseits seine eigene Wettbewerbsfähigkeit. //


Mehr als 87 Prozent der Unternehmen haben eine geringe Data und Analytics Maturity.

Quelle: Gartner „Take Your Analytics Maturity to the Next Level“

Die vier wichtigsten Merkmale einer Enterprise Data Cloud

Hybrid und Multi-Cloud:
Um Unternehmen Flexibilität zu verleihen, muss eine Enterprise Data Cloud mit gleichwertiger Funktionalität innerhalb und außerhalb des Unternehmens betrieben werden können, wobei alle wichtigen Public Clouds sowie die Private Cloud unterstützt werden sollen.

Multifunktional:
Eine Enterprise Data Cloud muss die dringendsten Anforde­rungen an Daten und Analysen im Un­ter­nehmen effizient lösen. Das Bewerk­stel­ligen realer Geschäftsprobleme erfor­dert in der Regel die Anwendung mehrerer verschiedener Analysefunktionen, denen dieselben Daten zugrunde liegen. So basieren beispielsweise autonome Fahrzeuge auf Echtzeit-Datastreaming und maschinellen Lernalgorithmen.

Sicher und geregelt:
Eine Enterprise Data Cloud muss sicher und regelkonform sein und die strengen Anforderungen an Datenschutz, Governance, Datenmigration und Metadatenmanagement großer Unternehmen in allen ihren Umgebungen erfüllen.

„Open“:
Schließlich muss eine Enterprise Data Cloud auch offen sein. Das bedeutet nicht nur den Einsatz von Open-Source-Software, sondern auch offene Rechenarchitekturen und offene Datenspeicher wie Amazon S3 und Azure Data Lake Storage. Letztendlich wollen Unternehmen die Bindung an den Anbieter (Stichwort: „Vendor Lock-in“) vermeiden, um nicht von einem einzigen Anbieter abhängig zu werden. Offene Plattformen, offene Integrationen und offene Partner-Ökosysteme werden daher bevorzugt. Bei technischen Herausforderungen kann/muss das Unternehmen somit nicht nur vom Hersteller Support beziehen, sondern die gesamte Open-Source-Community kann zur Unterstützung beigezogen werden. Dies sichert nicht nur schnelle Innovationszyklen, sondern auch den eigenen Wettbewerbsvorteil.

Kontakt zum Autor


Namensnennung – Weitergabe unter gleichen Bedingungen 3.0 Deutschland (CC BY-SA 3.0 DE)

Dies ist eine allgemeinverständliche Zusammenfassung der Lizenz (die diese nicht ersetzt).

Sie dürfen:

Teilen — das Material in jedwedem Format oder Medium vervielfältigen und weiterverbreiten

Bearbeiten — das Material remixen, verändern und darauf aufbauen
und zwar für beliebige Zwecke, sogar kommerziell.

Der Lizenzgeber kann diese Freiheiten nicht widerrufen solange Sie sich an die Lizenzbedingungen halten.

Unter folgenden Bedingungen:

Namensnennung — Sie müssen angemessene Urheber- und Rechteangaben machen, einen Link zur Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden. Diese Angaben dürfen in jeder angemessenen Art und Weise gemacht werden, allerdings nicht so, dass der Eindruck entsteht, der Lizenzgeber unterstütze gerade Sie oder Ihre Nutzung besonders.

Weitergabe unter gleichen Bedingungen — Wenn Sie das Material remixen, verändern oder anderweitig direkt darauf aufbauen, dürfen Sie Ihre Beiträge nur unter derselben Lizenz wie das Original verbreiten.

Keine weiteren Einschränkungen — Sie dürfen keine zusätzlichen Klauseln oder technische Verfahren einsetzen, die anderen rechtlich irgendetwas untersagen, was die Lizenz erlaubt.

Helfen Sie uns, verbessern Sie diesen Beitrag

 

[contact-form-7 id="2464" title="An Beiträgen mitarbeiten"]