Was ist Data Warehousing?
Data Warehousing ist die elektronische Speicherung einer großen Menge von Informationen durch ein Unternehmen oder eine Organisation. Data Warehousing ist eine wichtige Komponente von Business Intelligence, die Analysetechniken für Geschäftsdaten einsetzt.
Das Konzept des Data Warehousing wurde 1988 von den IBM-Forschern Barry Devlin und Paul Murphy eingeführt. Die Notwendigkeit, Daten zu lagern, entwickelte sich, als Computersysteme immer komplexer wurden und immer mehr Daten handhabten. Ein wichtiges Buch zum Thema Data Warehousing ist WH Inmons "Building the Data Warehouse", das erstmals 1990 veröffentlicht und seitdem mehrmals nachgedruckt wurde.
So funktioniert Data Warehousing
Mithilfe von Data Warehousing erhalten Sie einen besseren Einblick in die Leistung eines Unternehmens, indem Sie Daten vergleichen, die aus mehreren heterogenen Quellen konsolidiert wurden. Ein Data Warehouse dient zur Abfrage und Analyse von Verlaufsdaten, die aus Transaktionsquellen stammen.
Sobald die Daten in das Warehouse aufgenommen wurden, werden sie nicht mehr geändert und können nicht mehr geändert werden, da in einem Data Warehouse Analysen zu Ereignissen ausgeführt werden, die bereits aufgetreten sind, indem die Änderungen der Daten im Zeitverlauf berücksichtigt werden. Die gespeicherten Daten müssen sicher, zuverlässig, leicht abzurufen und leicht zu verwalten sein.
Es sind bestimmte Schritte erforderlich, um ein Data Warehouse zu erstellen. Der erste Schritt ist die Datenextraktion, bei der große Datenmengen von mehreren Quellenpunkten gesammelt werden. Nachdem die Daten kompiliert wurden, werden die Daten bereinigt, die Daten auf Fehler untersucht und die gefundenen Fehler korrigiert oder ausgeschlossen.
Die bereinigten Daten werden dann von einem Datenbankformat in ein Warehouse-Format konvertiert. Sobald die Daten im Lager gespeichert sind, werden sie sortiert, konsolidiert, zusammengefasst usw., sodass sie besser koordiniert und einfacher zu verwenden sind. Mit der Zeit werden dem Warehouse mehr Daten hinzugefügt, da die mehreren Datenquellen aktualisiert werden.
Die zentralen Thesen
- Data Warehousing ist die elektronische Speicherung einer großen Menge von Informationen durch ein Unternehmen oder eine Organisation. Ein Data Warehouse dient zum Ausführen von Abfragen und Analysen historischer Daten aus Transaktionsquellen für Business Intelligence- und Data Mining-Zwecke Einblick in die Leistung eines Unternehmens durch Vergleich von Daten aus mehreren heterogenen Quellen.
Besondere Überlegungen: Data Mining
Unternehmen können Daten für Exploration und Data Mining lagern und nach Informationsmustern suchen, mit denen sie ihre Geschäftsprozesse verbessern können. Ein gutes Data-Warehousing-System kann es auch verschiedenen Abteilungen eines Unternehmens erleichtern, auf die Daten des anderen zuzugreifen.
Ein Data Warehouse kann beispielsweise einem Unternehmen ermöglichen, die Daten des Verkaufsteams auf einfache Weise zu bewerten und Entscheidungen darüber zu treffen, wie der Verkauf verbessert oder die Abteilung rationalisiert werden kann. Das Unternehmen konzentriert sich möglicherweise auf die Kaufgewohnheiten seiner Kunden, um seine Produkte besser zu positionieren und den Umsatz zu steigern.
Mit Data Warehousing kann das Unternehmen historische Daten über die Ausgaben seiner Kunden in der Vergangenheit (z. B. 20 Jahre) erfassen und diese Daten analysieren. Die daraus resultierenden Informationen könnten einen Einblick in die Vorlieben der Verbraucher geben. die Tageszeit, den Monat oder das Jahr mit höheren Umsätzen; oder Kunden mit den höchsten Ausgaben für das Jahr.
Effektive Datenspeicherung und -verwaltung ermöglichen auch Prozesse wie das Einleiten von Reisereservierungen und die Verwendung von Geldautomaten.
Der Data Mining-Prozess gliedert sich in fünf Schritte:
- Unternehmen sammeln Daten und laden sie in ihre Data Warehouses. Anschließend speichern und verwalten sie die Daten entweder auf internen Servern oder in der Cloud. Geschäftsanalysten, Managementteams und IT-Experten greifen auf die Daten zu und legen fest, wie sie sie organisieren möchten. Die Anwendungssoftware sortiert die Daten dann basierend auf den Ergebnissen des Benutzers. Der Endbenutzer präsentiert die Daten schließlich in einem einfach freizugebenden Format, wie einer Grafik oder einer Tabelle.
Data Warehousing vs. Datenbanken
Ein Data Warehouse ist nicht unbedingt dasselbe Konzept wie eine Standarddatenbank. Eine Datenbank ist ein Transaktionssystem, das Echtzeitdaten überwacht und aktualisiert, um nur die neuesten Daten verfügbar zu haben. Ein Data Warehouse ist so programmiert, dass strukturierte Daten über einen bestimmten Zeitraum hinweg aggregiert werden. Beispielsweise enthält eine Datenbank möglicherweise nur die neueste Adresse eines Kunden, während ein Data Warehouse möglicherweise alle Adressen enthält, in denen der Kunde in den letzten 10 Jahren gelebt hat.