Kursinhalt
Einführung in die Datenverarbeitung mit Azure
Einführung in die Datenverarbeitung mit Azure
Verstehen von Datenflüssen in Azure Data Factory
Stellen Sie sich zum Beispiel ein Szenario vor, in dem Sie Verkaufsdaten aus mehreren Regionen bereinigen, anreichern und aggregieren müssen. Anstatt umfangreiche SQL- oder Python-Skripte zu schreiben, können Sie einen Data Flow verwenden, um diese Transformationen visuell zuzuordnen und nahtlos innerhalb von ADF auszuführen.
Wichtige Komponenten von Data Flows
- Source Transformation: definiert, woher die Daten stammen, wie z.B. Blob Storage oder eine SQL-Datenbank;
- Transformations: beinhalten Werkzeuge wie Filtern, Verbinden, Aggregieren oder Ableiten neuer Spalten, um die Daten zu manipulieren;
- Sink Transformation: gibt das Ziel für die verarbeiteten Daten an, wie z.B. eine andere SQL-Datenbank, einen Data Lake oder einen Dateispeicher.
Wir beginnen unsere Arbeit mit der Erstellung eines einfachen Datenflusses mit Source- und Sink-Transformationen.
So richten Sie eine Quelltransformation ein
- Fügen Sie einen neuen Datenfluss im Autorbereich von Azure Data Factory Studio hinzu;
- Ziehen Sie eine Quelltransformation aus der Toolbox auf die Datenfluss-Leinwand;
- Wählen Sie in den Einstellungen der Quelltransformation einen verknüpften Dienst aus, wie z.B. Azure SQL-Datenbank oder Azure Blob Storage, um eine Verbindung zu Ihrer Datenquelle herzustellen;
- Wählen Sie ein bestehendes Dataset oder erstellen Sie ein neues Dataset, das die zu erfassenden Daten darstellt;
- Konfigurieren Sie Dateiformatoptionen, wenn Sie eine Verbindung zu Blob Storage herstellen, oder geben Sie eine SQL-Abfrage an, um die eingehenden Daten für Datenbanken zu filtern oder zu strukturieren;
- Validieren Sie die Konfiguration und überprüfen Sie die Daten, um sicherzustellen, dass die Quelle korrekt eingerichtet ist.
Senktransformation für verarbeitete Daten
Nach der Definition von Transformationen verwenden Sie eine Senktransformation, um anzugeben, wo die transformierten Daten gespeichert werden sollen. Beispielsweise können Sie aggregierte Daten zurück in die SQL-Datenbank speichern oder als CSV-Datei in Blob Storage exportieren.
Danke für Ihr Feedback!