Was ist ETL?

Extract, Transform, Load (ETL) ist ein Prozess, um Daten aus verschiedenen Quellen in eine großes, zentrales Repository zusammenzufügen, das man Data Warehouse nennt. ETL verwendet eine Reihe von Betriebsregeln, um Rohdaten zu bereinigen und zu organisieren und sie für die Speicherung, Datenanalytik und Machine Learning (ML) vorzubereiten. Sie können Bedürfnisse im Bereich Business Intelligence durch Datenanalyse (wie das Vorhersagen eines Ergebnisses bei einer Geschäftsentscheidung, Berichterstellung und Erzeugung von Dashboards, Reduzierung von unwirtschaftlichen Betriebsvorgängen und mehr) angehen.

Warum ist ETL wichtig?

Organisationen verfügen heute sowohl über strukturierte als auch unstrukturierte Daten aus verschiedenen Quellen, darunter:

  • Kundendaten aus Online-Zahlungs- und Customer Relationship Management (CRM)-Systemen
  • Bestands- und Betriebsdaten aus Lieferantensystemen
  • Sensordaten von Internet der Dinge (IoT)-Geräten
  • Marketingdaten aus den sozialen Medien und Kundenfeedback
  • Mitarbeiterdaten aus internen Personalsystemen

Durch die Anwendung des Prozesses des Extract, Transform, Load (ETL) können einzelne Rohdatensätze in einem Format und einer Struktur aufbereitet werden, die für Analytikzwecke besser nutzbar sind, was zu aussagekräftigeren Erkenntnissen führt. So können Online-Händler beispielsweise Daten von Verkaufsstellen analysieren, um die Nachfrage zu prognostizieren und den Bestand zu verwalten. Marketingteams können CRM-Daten mit Kundenfeedback in sozialen Medien integrieren, um das Konsumentenverhalten zu untersuchen.

Wie profitiert Business Intelligence von ETL?

Extract, Transform, Load (ETL) verbessert Business Intelligence und Analytik, indem es den Prozess zuverlässiger, genauer, detaillierter und effizienter macht.

Historischer Kontext

ETL gibt den Daten der Organisation einen detaillierten historischen Kontext. Ein Unternehmen kann veraltete Daten mit Daten aus neuen Plattformen und Anwendungen kombinieren. Sie können ältere Datensätze neben neueren Informationen anzeigen, was Ihnen einen langfristigen Einblick in die Daten ermöglicht.

Konsolidierte Datenansicht

ETL bietet eine konsolidierte Ansicht der Daten für eingehende Analysen und Berichte. Die Verwaltung mehrerer Datensätze erfordert Zeit und Koordination und kann zu Ineffizienzen und Verzögerungen führen. ETL kombiniert Datenbanken und verschiedene Datenformen in einer einzigen, einheitlichen Ansicht. Der Datenintegrations-Prozess verbessert die Datenqualität und spart die Zeit, die für das Verschieben, Kategorisieren oder Standardisieren von Daten erforderlich ist. Dies erleichtert das Analysieren, Visualisieren und Verstehen großer Datensätze.

Präzise Datenanalyse

ETL bietet eine genauere Datenanalyse, um die Einhaltung von Vorschriften und gesetzlichen Standards zu gewährleisten. Sie können ETL-Tools mit Datenqualitätstools integrieren, um Daten zu strukturieren, zu prüfen, zu bereinigen und so sicherzustellen, dass die Daten vertrauenswürdig sind.

Aufgabenautomatisierung

ETL automatisiert wiederholbare Aufgaben der Datenverarbeitung für eine effiziente Analyse. ETL-Tools automatisieren den Datenmigrations-Prozess, und Sie können sie so einrichten, dass sie Datenänderungen in regelmäßigen Abständen oder sogar während der Ausführungszeit integrieren. Dadurch können Datentechniker mehr Zeit für Innovationen und weniger Zeit für die Verwaltung mühsamer Aufgaben wie das Verschieben und Formatieren von Daten aufwenden.

Wie hat sich ETL weiterentwickelt?

Extract, Transform, Load (ETL) entstand mit dem Aufkommen relationaler Datenbanken, in denen Daten in Form von Tabellen zur Analyse gespeichert wurden. Frühe ETL-Tools versuchten, Daten aus Transaktions-Datenformaten in relationale Datenformate für die Analyse umzuwandeln.

Herkömmliche ETL

Die Rohdaten wurden in der Regel in Transaktions-Datenbanken gespeichert, die viele Lese- und Schreibanforderungen unterstützten, sich jedoch nicht gut für Analytik eigneten. Sie können es sich wie eine Zeile in einer Tabelle vorstellen. In einem E-Commerce-System speichert die Transaktionsdatenbank beispielsweise den gekauften Artikel, die Kundendaten und die Bestelldaten in einer Transaktion. Im Verlauf des Jahres umfasste es eine lange Liste von Transaktionen mit wiederholten Einträgen für denselben Kunden, der im Laufe des Jahres mehrere Artikel gekauft hatte. Aufgrund der Datenüberschneidung wurde es umständlich, die beliebtesten Artikel oder Kauftrends des jeweiligen Jahres zu analysieren.

Um dieses Problem zu lösen, konvertierten ETL-Tools diese Transaktionsdaten automatisch in relationale Daten mit miteinander verbundenen Tabellen. Analytiker können Abfragen verwenden, um neben Mustern und Trends auch Beziehungen zwischen den Tabellen zu erkennen.

Moderne ETL

Mit der Weiterentwicklung der ETL-Technologie haben sowohl die Datentypen als auch die Datenquellen exponentiell zugenommen. Die Cloud-Technologie wurde entwickelt, um riesige Datenbanken (auch Datensenken genannt) zu erstellen. Solche Datensenken können Daten aus mehreren Quellen empfangen und verfügen über zugrunde liegende Hardware-Ressourcen, die im Laufe der Zeit skaliert werden können. Auch die ETL-Tools sind anspruchsvoller geworden und können mit modernen Datensenken arbeiten. Sie sind in der Lage, Daten aus alten Datenformaten in moderne Datenformate umzuwandeln. Nachfolgend finden Sie Beispiele für moderne Datenbanken.

Data Warehouses

Ein Data Warehouse ist ein zentrales Repository, das mehrere Datenbanken speichern kann. Innerhalb jeder Datenbank können Sie Daten in Tabellen und Spalten organisieren, die die Datentypen in der Tabelle beschreiben. Die Data-Warehouse-Software arbeitet mit mehreren Arten von Speicherhardware – wie Solid-State-Laufwerken (SSDs), Festplatten und anderen Cloud-Speichern – um Ihre Datenverarbeitung zu optimieren.

Data Lakes

Mit einem Data Lake können Sie Ihre strukturierten und unstrukturierten Daten in einem zentralen Repository und in beliebigem Umfang speichern. Sie können die Daten so speichern, wie sie sind, ohne sie zuerst anhand von Fragen, die Sie in der Zukunft haben könnten, strukturieren zu müssen. Mit Data Lakes können Sie auch verschiedene Arten von Analysen auf Ihre Daten anwenden, wie SQL-Abfragen, Big-Data-Analytik, Volltextsuche, Echtzeitanalysen und Machine Learning (ML), um bessere Entscheidungen zu treffen.

Wie funktioniert ETL?

Extrahieren, transformieren und laden (ETL) funktioniert, indem Daten in regelmäßigen Abständen vom Quellsystem zum Zielsystem verschoben werden. Der ETL-Prozess läuft in drei Schritten ab:

  1. Extrahieren der relevanten Daten aus der Quelldatenbank
  2. Umwandeln der Daten, so dass sie besser für Analytik geeignet sind
  3. Laden der Daten in die Zieldatenbank

Was ist Datenextraktion?

Bei der Datenextraktion extrahieren Extract, Transform, Load (ETL)-Tools Rohdaten aus verschiedenen Quellen und speichern diese in einem Bereitstellungsbereich. Ein Bereitstellungsbereich (oder Landing Zone) ist ein Zwischenspeicherbereich für die vorübergehende Speicherung extrahierter Daten. Daten-Bereitstellungsbereiche sind oft vorübergehend, d. h. ihr Inhalt wird gelöscht, nachdem die Datenextraktion abgeschlossen ist. Der Bereitstellungsbereich kann jedoch auch ein Datenarchiv zu Fehlerbehebungszwecken aufbewahren.

Wie häufig das System Daten von der Datenquelle an den Zieldatenspeicher sendet, hängt von dem zugrunde liegenden Mechanismus zur Erfassung von Änderungsdaten ab. Die Datenextraktion erfolgt in der Regel auf eine der drei folgenden Arten.

Aktualisierungs-Benachrichtigung

Bei der Aktualisierungs-Benachrichtigung werden Sie vom Quellsystem benachrichtigt, wenn sich ein Datensatz ändert. Anschließend können Sie den Extraktionsprozess für diese Änderung ausführen. Die meisten Datenbanken und Webanwendungen bieten Aktualisierungsmechanismen zur Unterstützung dieser Datenintegrations-Methode.

Inkrementelle Extraktion

Einige Datenquellen können keine Aktualisierungs-Benachrichtigungen ausgeben, können jedoch Daten identifizieren und extrahieren, die innerhalb eines bestimmten Zeitraums geändert wurden. In diesem Fall prüft das System in periodischen Abständen, z. B. einmal pro Woche, einmal im Monat oder am Ende einer Kampagne, ob Änderungen vorgenommen wurden. Sie müssen nur die Daten extrahieren, die sich geändert haben.

Vollständige Extraktion

Einige Systeme können keine Datenänderungen erkennen oder Benachrichtigungen ausgeben, daher ist das Neuladen aller Daten die einzige Option. Bei dieser Extraktionsmethode müssen Sie eine Kopie der letzten Extraktion aufbewahren, um zu überprüfen, welche Datensätze neu sind. Da dieser Ansatz ein hohes Datenübertragungs-Volumen erfordert, empfehlen wir, ihn nur für kleine Tabellen zu verwenden.

Was ist Datentransformation?

Bei der Datentransformation transformieren und konsolidieren Extract, Transform, Load (ETL)-Tools die Rohdaten im Bereitstellungsbereich, um sie für das Ziel-Data-Warehouse vorzubereiten. Die Datentransformations-Phase kann die folgenden Arten von Datenänderungen umfassen.

Grundlegende Datentransformation

Grundlegende Transformationen verbessern die Datenqualität, indem sie Fehler entfernen, Datenfelder leeren oder Daten vereinfachen. Nachfolgend finden Sie Beispiele für diese Transformationen.

Datenbereinigung

Bei der Datenbereinigung werden Fehler entfernt und Quelldaten dem Zieldatenformat zugeordnet. Beispielsweise können Sie leere Datenfelder der Zahl 0 zuordnen, den Datenwert „Parent“ „P“ zuordnen oder „Child“ „C“ zuordnen.

Daten-Deduplizierung

Die Deduplizierung bei der Datenbereinigung identifiziert und entfernt doppelte Datensätze.

Überarbeitung des Datenformats

Die Formatrevision konvertiert Daten wie Zeichensätze, Maßeinheiten und Datums-/Zeitwerte in ein einheitliches Format. Beispielsweise kann ein Lebensmittelunternehmen unterschiedliche Rezeptdatenbanken mit Zutaten haben, die in Kilogramm und Pfund gemessen werden. ETL konvertiert alles in Pfund.

Erweiterte Datentransformation

Erweiterte Transformationen verwenden Betriebsregeln, um die Daten für eine einfachere Analyse zu optimieren. Nachfolgend finden Sie Beispiele für diese Transformationen.

Ableitung

Die Ableitung wendet Betriebsregeln auf Ihre Daten an, um neue Werte aus vorhandenen Werten zu berechnen. Beispielsweise können Sie Einnahmen in Gewinn umwandeln, indem Sie Ausgaben abziehen oder die Gesamtkosten eines Einkaufs berechnen, indem Sie den Preis jedes Artikels mit der Anzahl der bestellten Artikel multiplizieren.

Joining

In der Datenaufbereitung verknüpft das Joining dieselben Daten aus unterschiedlichen Datenquellen. Beispielsweise können Sie die Gesamteinkaufskosten eines Artikels ermitteln, indem Sie den Einkaufswert verschiedener Anbieter addieren und nur die Endsumme im Zielsystem speichern.

Splitting

Sie können eine Spalte oder ein Datenattribut im Zielsystem in mehrere Spalten aufteilen. Wenn die Datenquelle beispielsweise den Kundennamen als „Jane John Doe“ speichert, können Sie ihn in einen Vor-, Mittel- und Nachnamen aufteilen.

Summarization

Die Summarization verbessert die Datenqualität, indem sie eine große Anzahl von Datenwerten auf einen kleineren Datensatz reduziert. Beispielsweise können Rechnungswerte für Kundenaufträge viele verschiedene kleine Beträge haben. Sie können die Daten zusammenfassen, indem Sie diese über einen bestimmten Zeitraum addieren, um eine Kennzahl für den Kundenlebenszeitwert (CLV) zu erstellen.

Verschlüsselung

Sie können vertrauliche Daten schützen, um Datengesetze oder den Datenschutz einzuhalten, indem Sie eine Verschlüsselung hinzufügen, bevor die Datenströme in die Zieldatenbank übertragen werden.

Was ist das Laden von Daten?

Beim Laden von Daten verschieben Extract, Transform, Load (ETL)-Tools die transformierten Daten aus dem Bereitstellungsbereich in das Ziel-Data-Warehouse. Für die meisten Organisationen, die ETL verwenden, ist der Prozess automatisiert, genau definiert, fortlaufend und stapelorientiert. Nachfolgend finden Sie zwei Methoden zum Laden von Daten.

Vollständiges Laden

Beim vollständigen Laden werden die gesamten Daten aus der Quelle transformiert und in das Data Warehouse verschoben. Das vollständige Laden findet normalerweise statt, wenn Sie zum ersten Mal Daten aus einem Quellsystem in das Data Warehouse laden.

Inkrementelles Laden 

Beim inkrementellen Laden lädt das ETL-Tool das Delta (oder die Differenz) zwischen Ziel- und Quellsystem in regelmäßigen Abständen. Es speichert das Datum der letzten Abfrage, so dass nur Datensätze, die nach diesem Datum hinzugefügt wurden, geladen werden. Es gibt zwei Möglichkeiten, das inkrementelle Laden zu implementieren.

Inkrementelles Laden per Streaming

Wenn Sie über kleine Datenmengen verfügen, können Sie kontinuierliche Änderungen über Daten-Pipelines an das Ziel-Data-Warehouse streamen. Wenn die Geschwindigkeit der Daten auf Millionen von Ereignissen pro Sekunde ansteigt, können Sie die Verarbeitung von Ereignisströmen verwenden, um die Datenströme zu überwachen und zu verarbeiten und so zeitnahere Entscheidungen zu treffen.

Inkrementelles Laden im Batch

Wenn Sie über große Datenmengen verfügen, können Sie Änderungen beim Laden von Daten in regelmäßigen Abständen in Batches erfassen. Während dieses Zeitraums können weder auf dem Quell- noch auf dem Zielsystem Aktionen durchgeführt werden, da die Daten synchronisiert werden.

Was ist ELT?

Extract, Load, Transform (ELT) ist eine Erweiterung von Extract, Transform, Load (ETL), die die Reihenfolge der Vorgänge umkehrt. Sie können Daten direkt in das Zielsystem laden, bevor Sie diese verarbeiten. Der Zwischenbereitstellungs-Bereich ist nicht erforderlich, da das Ziel-Data-Warehouse über Datenzuordnungs-Funktionen verfügt. ELT ist mit der Einführung von Cloud-Infrastrukturen immer beliebter geworden. Diese geben Zieldatenbanken die nötige Rechenleistung die sie für Transformationen benötigen.

ETL im Vergleich zu ELT

ELT eignet sich gut für unstrukturierte Datensätze mit hohem Volumen, die häufig geladen werden müssen. Es eignet sich auch gut für Big Data, da die Planung für die Analytik nach der Datenextraktion und -speicherung erfolgen kann. Es überlässt den Großteil der Transformationen der Analysephase und konzentriert sich darauf, minimal verarbeitete Rohdaten in das Data Warehouse zu laden.

Der ETL-Prozess erfordert am Anfang eine genauere Definition. Die Analytik muss von Anfang an einbezogen werden, um Zieldatentypen, Strukturen und Beziehungen zu definieren. Datenwissenschaftler verwenden ETL hauptsächlich, um veraltete Datenbanken in das Warehouse zu laden, und ELT ist heute zur Norm geworden.

Was ist Datenvirtualisierung?

Die Datenvirtualisierung verwendet eine Software-Abstraktionsebene, um eine integrierte Datenansicht zu erstellen, ohne die Daten physisch zu extrahieren, umzuwandeln oder zu laden. Organisationen verwenden diese Funktionalität als virtuelles, einheitliches Daten-Repository, ohne den Aufwand und die Komplexität beim Entwickeln und Verwalten separater Plattformen für Quelle und Ziel. Sie können die Datenvirtualisierung neben dem Extract, Transform, Load (ETL) verwenden, sie wird jedoch zunehmend als Alternative zu ETL und anderen physischen Datenintegrations-Methoden angesehen. Beispielsweise können Sie AWS Glue Elastic Views verwenden, um schnell eine virtuelle Tabelle – eine materialisierte Ansicht – aus mehreren verschiedenen Quell-Datenspeichern zu erstellen.

Was ist AWS Glue?

AWS Glue ist ein Serverless-Datenintegrationsservice, der es Analytik-Benutzern erleichtert, Daten aus mehreren Quellen für Analytik, Machine Learning und Anwendungsentwicklung zu entdecken, aufzubereiten, zu verschieben und zu integrieren.

  • Sie können mehr als 80 verschiedene Datenspeicher entdecken und sich mit ihnen verbinden.
  • Sie können Ihre Daten in einem zentralen Datenkatalog verwalten.
  • Dateningenieure, ETL-Entwickler, Datenanalysten und Geschäftsanwender können AWS Glue Studio verwenden, um ETL-Pipelines zu erstellen, auszuführen und zu überwachen, um Daten in Data Lakes zu laden.
  • AWS Glue Studio bietet Benutzeroberflächen für Visual ETL, Notebook und Code-Editor, damit Benutzer über Tools verfügen, die ihren Fähigkeiten entsprechen.
  • Mit Interactive Sessions können Dateningenieure Daten erkunden sowie Aufträge mithilfe ihrer bevorzugten IDE oder ihres bevorzugten Notebooks erstellen und testen.
  • AWS Glue ist Serverless und skaliert automatisch nach Bedarf. So können Sie sich darauf konzentrieren, Einblicke aus Daten im Petabyte-Bereich zu gewinnen, ohne Infrastruktur verwalten zu müssen.

Beginnen Sie mit AWS Glue, indem Sie ein AWS-Konto erstellen.

AWS ETL – nächste Schritte

Zusätzliche produktbezogene Ressourcen ansehen
Weitere Informationen zu AWS Glue 
Registrieren Sie sich für ein kostenloses Konto

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS. 

Registrieren 
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie mit der Entwicklung mit AWS in der AWS-Managementkonsole.

Anmeldung