Data-Warehousing
Was ist ein Data Warehouse? Definition und Verwendung im Data Mining
Wichtige Erkenntnisse
- Ein Data Warehouse speichert historische Geschäftsdaten für Analyse und Entscheidungsfindung.
- Es ist essenziell für Data Mining und liefert Einblicke in Geschäftstrends.
- Data Warehouses werden erstellt, indem kritische Informationen definiert und Datenquellen identifiziert werden.
- Im Gegensatz zu Datenbanken archivieren Data Warehouses Informationen über einen Zeitraum hinweg, anstatt Echtzeitdaten bereitzustellen.
Was ist ein Data Warehouse?
Ein Data Warehouse ist ein zentrales Repository, das historische Daten aus verschiedenen Abteilungen wie Marketing und Vertrieb speichert. Das Ziel ist die langfristige Speicherung. Es hilft Unternehmen, die vergangene Leistung zu analysieren und fundierte Entscheidungen zur Verbesserung der Abläufe zu treffen. Ein Data Warehouse ist ein wichtiger Bestandteil von Business Intelligence.
Wir erklären, wie Data Warehouses Informationen konsolidieren und warum sie für datengesteuerte Geschäftsstrategien entscheidend sind.
Wie ein Data Warehouse funktioniert
Die Notwendigkeit, Daten zu speichern, entstand, als Unternehmen begannen, sich auf Computersysteme zu verlassen, um wichtige Geschäftsdokumente zu erstellen, abzulegen und abzurufen. Das Konzept des Data Warehousing wurde 1988 von den IBM-Forschern Barry Devlin und Paul Murphy eingeführt.1
Data Warehousing ist darauf ausgelegt, die Analyse historischer Daten zu ermöglichen. Der Vergleich von Daten, die aus mehreren heterogenen Quellen konsolidiert wurden, kann Einblicke in die Leistung eines Unternehmens geben. Ein Data Warehouse ist so konzipiert, dass seine Benutzer Abfragen und Analysen zu historischen Daten aus Transaktionsquellen durchführen können.
Daten, die zum Warehouse hinzugefügt werden, ändern sich nicht und können nicht verändert werden. Das Warehouse ist die Quelle, die für die Analyse vergangener Ereignisse verwendet wird, mit Fokus auf Veränderungen im Laufe der Zeit. Gelagerte Daten müssen sicher, zuverlässig, leicht abrufbar und einfach zu verwalten sein.
Strategien zur Wartung eines Data Warehouse
Es gibt bestimmte Schritte, die zur Wartung eines Data Warehouse unternommen werden. Ein Schritt ist die Datenextraktion, bei der große Datenmengen aus mehreren Quellen gesammelt werden. Nachdem ein Datensatz zusammengestellt wurde, durchläuft er die Datenbereinigung, den Prozess des Durchsuchens nach Fehlern und deren Korrektur oder Ausschluss.
Die bereinigten Daten werden dann von einem Datenbankformat in ein Warehouse-Format konvertiert. Sobald sie im Warehouse gespeichert sind, werden die Daten sortiert, konsolidiert und zusammengefasst, um die Nutzung zu erleichtern. Im Laufe der Zeit werden dem Warehouse weitere Daten hinzugefügt, wenn die verschiedenen Datenquellen aktualisiert werden.
Ein wichtiges Buch zum Thema Data Warehousing ist W. H. Inmons "Building the Data Warehouse", ein praktischer Leitfaden, der erstmals 1990 veröffentlicht und mehrfach neu aufgelegt wurde.2
Heute können Unternehmen cloudbasierte Data-Warehouse-Softwaredienste von Unternehmen wie Microsoft, Google, Amazon und Oracle erwerben.3
Einführung in Data Mining
Unternehmen speichern Daten hauptsächlich für Data Mining in Warehouses. Dabei geht es darum, nach Informationsmustern zu suchen, die ihnen helfen, ihre Geschäftsprozesse zu verbessern.
Ein gutes Data-Warehousing-System erleichtert verschiedenen Abteilungen innerhalb eines Unternehmens den Zugriff auf die Daten der jeweils anderen. Beispielsweise kann ein Marketingteam die Daten des Vertriebsteams auswerten, um Entscheidungen zur Anpassung seiner Verkaufskampagnen zu treffen.
Fünf wesentliche Schritte im Data Mining
Der Data-Mining-Prozess gliedert sich in fünf Schritte:
Eine Organisation sammelt Daten und lädt sie in ein Data Warehouse.
Die Daten werden dann gespeichert und verwaltet, entweder auf unternehmenseigenen Servern oder in einem Cloud-Dienst.
Business-Analysten, Managementteams und IT-Experten greifen auf die Daten zu und organisieren sie.
Anwendungssoftware sortiert die Daten.
Der Endbenutzer präsentiert die Daten in einem leicht teilbaren Format, z. B. als Grafik oder Tabelle.
Investopedia / Theresa Chiechi
Kurzer Fakt
Das Konzept des Data Warehouse wurde 1988 von zwei IBM-Forschern eingeführt.4
Erkundung der Data-Warehouse-Architektur
Das Entwerfen eines Data Warehouse wird als Data-Warehouse-Architektur bezeichnet und kann je nach den Anforderungen des Data Warehouse in verschiedenen Ausbaustufen erfolgen. Typischerweise gibt es Ein-, Zwei- und Dreischichten-Architekturen.
Einschichtige Architektur: Die einschichtige Architektur wird bei der Erstellung von Data Warehouses für Echtzeitsysteme kaum verwendet. Sie werden oft für die Stapel- und Echtzeitverarbeitung von Betriebsdaten eingesetzt. Ein einschichtiges Design besteht aus einer einzigen Hardware-Ebene mit dem Ziel, den Datenplatz so gering wie möglich zu halten.
Zweischichtige Architektur: Bei einem zweischichtigen Architekturdesign wird der Analyseprozess vom Geschäftsprozess getrennt. Ziel ist es, die Kontrolle und Effizienz zu erhöhen.
Dreischichtige Architektur: Ein dreischichtiges Architekturdesign hat eine obere, mittlere und untere Ebene; diese werden als Quellschicht, bereinigte Schicht und Data-Warehouse-Schicht bezeichnet. Dieses Design eignet sich für Systeme mit langen Lebenszyklen. Wenn Änderungen an den Daten vorgenommen werden, wird eine zusätzliche Überprüfungs- und Analyseverarbeitung der Daten durchgeführt, um sicherzustellen, dass keine Fehler aufgetreten sind.
Unabhängig von der Schicht müssen alle Data-Warehouse-Architekturen die gleichen fünf Eigenschaften erfüllen: Trennung, Skalierbarkeit, Erweiterbarkeit, Sicherheit und Verwaltbarkeit.
Vergleich von Data Warehouses und Datenbanken
Ein Data Warehouse ist nicht dasselbe wie eine Datenbank:
Eine Datenbank ist ein Transaktionssystem, das Echtzeitdaten überwacht und aktualisiert, um nur die aktuellsten Daten verfügbar zu haben.
Ein Data Warehouse ist darauf programmiert, strukturierte Daten im Laufe der Zeit zu aggregieren.
Beispielsweise könnte eine Datenbank nur die aktuellste Adresse eines Kunden haben, während ein Data Warehouse alle Adressen des Kunden aus den letzten 10 Jahren enthalten könnte.
Wichtig
Data Mining ist auf das Data Warehouse angewiesen. Die Daten im Warehouse werden nach Erkenntnissen über das Unternehmen im Laufe der Zeit durchsucht.
Data Warehouses vs. Data Lakes
Sowohl Data Warehouses als auch Data Lakes speichern Daten für verschiedene Zwecke. Der Hauptunterschied besteht darin, dass ein Data Lake Rohdaten enthält, deren Ziel noch nicht festgelegt wurde. Ein Data Warehouse hingegen enthält aufbereitete Daten, die für einen bestimmten Zweck gefiltert wurden.
Data Lakes werden hauptsächlich von Datenwissenschaftlern genutzt, während Data Warehouses am häufigsten von Geschäftsanwendern verwendet werden. Data Lakes sind zudem einfacher zugänglich und leichter zu aktualisieren, während Data Warehouses strukturierter sind und Änderungen kostspieliger sind.
Hauptunterschiede zwischen Data Warehouses und Data Marts
Ein Data Mart ist lediglich eine kleinere Version eines Data Warehouse. Ein Data Mart sammelt Daten aus einer geringen Anzahl von Quellen und konzentriert sich auf einen Themenbereich. Data Marts sind schneller und einfacher zu bedienen als Data Warehouses.
Data Marts fungieren in der Regel als Teilmenge eines Data Warehouse, um sich für Analysezwecke auf einen Bereich zu konzentrieren, z. B. auf eine bestimmte Abteilung innerhalb einer Organisation. Data Marts werden verwendet, um Geschäftsentscheidungen durch Analyse und Berichterstattung zu unterstützen.
Vor- und Nachteile von Data Warehouses
Ein Data Warehouse soll einem Unternehmen einen Wettbewerbsvorteil verschaffen. Es schafft eine Ressource mit relevanten Informationen, die im Laufe der Zeit verfolgt und analysiert werden können, um einem Unternehmen zu helfen, fundiertere Entscheidungen zu treffen.
Es kann jedoch auch Unternehmensressourcen beanspruchen und die vorhandenen Mitarbeiter mit Routineaufgaben belasten, die darauf abzielen, die Warehouse-Maschine zu füttern. Weitere Nachteile sind unter anderem:
Die Erstellung und Wartung des Warehouses erfordert viel Zeit und Mühe.
Informationslücken, die durch menschliches Versagen entstehen, können Jahre brauchen, um sichtbar zu werden, und die Integrität und Nützlichkeit der Informationen beeinträchtigen.
Bei Verwendung mehrerer Quellen können Inkonsistenzen zwischen ihnen zu Informationsverlusten führen.
Bietet faktenbasierte Analysen der vergangenen Unternehmensleistung, um die Entscheidungsfindung zu unterstützen.
Bietet faktenbasierte Analysen der vergangenen Unternehmensleistung, um die Entscheidungsfindung zu unterstützen.
Dient als historisches Archiv relevanter Daten.
Dient als historisches Archiv relevanter Daten.
Kann zur maximalen Nutzbarkeit in wichtigen Abteilungen geteilt werden.
Kann zur maximalen Nutzbarkeit in wichtigen Abteilungen geteilt werden.
Die Erstellung und Wartung des Warehouses ist ressourcenintensiv.
Die Erstellung und Wartung des Warehouses ist ressourcenintensiv.
Eingabefehler können die Integrität der archivierten Informationen beeinträchtigen.
Eingabefehler können die Integrität der archivierten Informationen beeinträchtigen.
Die Verwendung mehrerer Quellen kann zu Inkonsistenzen in den Daten führen.
Die Verwendung mehrerer Quellen kann zu Inkonsistenzen in den Daten führen.
Was ist ein Data Warehouse und wofür wird es verwendet?
Ein Data Warehouse ist ein Informationsspeichersystem für historische Daten, das auf vielfältige Weise analysiert werden kann. Unternehmen und andere Organisationen greifen auf das Data Warehouse zurück, um Einblicke in die vergangene Leistung zu gewinnen und Verbesserungen ihrer Abläufe zu planen.
Was ist ein Beispiel für ein Data Warehouse?
Stellen Sie sich ein Unternehmen vor, das Trainingsgeräte herstellt. Sein Bestseller ist ein Heimtrainer, und es erwägt, seine Produktlinie zu erweitern und eine neue Marketingkampagne zu starten.
Es greift auf sein Data Warehouse zu, um seine derzeitigen Kunden besser zu verstehen. Es kann herausfinden, ob seine Kunden überwiegend Frauen über 50 oder Männer unter 35 sind. Es kann mehr über die Einzelhändler erfahren, die am erfolgreichsten beim Verkauf ihrer Fahrräder waren, und wo sie sich befinden. Es könnte auf unternehmenseigene Umfrageergebnisse zugreifen und herausfinden, was frühere Kunden an ihren Produkten gemocht und nicht gemocht haben.
All diese Informationen helfen dem Unternehmen zu entscheiden, welche Art von neuen Fahrradmodellen es bauen und wie es diese vermarkten und bewerben will. Es handelt sich um harte Informationen und nicht um Entscheidungen aus dem Bauch heraus.
Was sind die Phasen der Erstellung eines Data Warehouse?
Laut ITPro Today, einer Branchenpublikation, gibt es mindestens sieben Phasen bei der Erstellung eines Data Warehouse. Dazu gehören:
Bestimmung der Geschäftsziele und der wichtigsten Leistungsindikatoren.
Sammeln und Analysieren der entsprechenden Informationen.
Identifizierung der Kernprozesse, die die Schlüsseldaten liefern.
Erstellung eines konzeptionellen Datenmodells, das zeigt, wie die Daten dem Endbenutzer angezeigt werden.
Lokalisierung der Datenquellen und Einrichtung eines Prozesses zum Einspeisen der Daten in das Warehouse.
Festlegung einer Nachverfolgungsdauer. Data Warehouses können unhandlich werden. Viele werden mit Archivierungsebenen aufgebaut, sodass ältere Informationen in weniger detaillierter Form aufbewahrt werden.
Umsetzung des Plans.5
Ist SQL ein Data Warehouse?
SQL (Structured Query Language) ist eine Computersprache, die verwendet wird, um mit einer Datenbank in einer für sie verständlichen und beantwortbaren Form zu interagieren. Sie enthält eine Reihe von Befehlen wie "select", "insert" und "update". Es ist die Standardsprache für relationale Datenbankverwaltungssysteme.6
Eine Datenbank ist nicht dasselbe wie ein Data Warehouse, auch wenn beide Informationsspeicher sind. Eine Datenbank ist eine organisierte Sammlung von Informationen. Ein Data Warehouse ist ein Informationsarchiv, das kontinuierlich aus mehreren Quellen aufgebaut wird.7
Was ist ETL in einem Data Warehouse?
"ETL" steht für "Extract, Transform, Load" (Extrahieren, Transformieren, Laden). ETL ist ein Datenprozess, der Daten aus mehreren Quellen in eine einzige Datenspeichereinheit kombiniert, die dann in ein Data Warehouse oder ein ähnliches Datensystem geladen wird. Es wird in der Datenanalyse und im maschinellen Lernen eingesetzt.