Webinar - Haufe Akademie GmbH & Co. KG
Termin | Ort | Preis* |
---|---|---|
26.11.2024- 28.11.2024 | online | 2.213,40 € |
03.02.2025- 05.02.2025 | online | 2.213,40 € |
Der Inhalt dieses intensiven Trainings leitet sich aus der Prüfung «DP-203: Data Engineering on Microsoft Azure» ab.
Modul 1: Erkunden von Compute- und Speicheroptionen für Datentechnikworkloads
Dieses Modul bietet eine Übersicht über die Optionen für Compute- und Speichertechnologien von Azure, die Datentechniker:innen zur Verfügung stehen, die analytische Workloads erstellen. In diesem Modul werden Methoden zum Strukturieren des Data Lake und zum Optimieren der Dateien für die Untersuchung, das Streaming und die Batchverarbeitung von Workloads vermittelt. Die Kursteilnehmer:innen erfahren, wie sie den Data Lake in Datenoptimierungsebenen organisieren, wenn sie Dateien durch Batch- und Streamverarbeitung transformieren. Anschließend lernen sie, wie sie Indizes für ihre Datasets erstellen (etwa CSV-, JSON- und Parquet-Dateien) und sie für potenzielle Abfrage- und Workloadbeschleunigung verwenden.
Lektionen
Lab: Erkunden von Compute- und Speicheroptionen für Datentechnikworkloads
Modul 2: Ausführen interaktiver Abfragen mithilfe von serverlosen SQL-Pools von Azure Synapse Analytics
In diesem Modul erfahren die Kursteilnehmer:innen, wie sie mit in Data Lake und externen Dateiquellen gespeicherten Dateien arbeiten, indem sie T-SQL-Anweisungen verwenden, die von einem serverlosen SQL-Pool in Azure Synapse Analytics ausgeführt werden. Die Kursteilnehmer:innen fragen Parquet-Dateien ab, die in einem Data Lake gespeichert sind sowie CSV-Dateien, die in einem externen Datenspeicher gespeichert sind. Als Nächstes erstellen sie Azure Active Directory-Sicherheitsgruppen und erzwingen den Zugriff auf Dateien im Data Lake über rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC) und Zugriffssteuerungslisten (Access Control Lists, ACLs).
Lektionen
Lab: Ausführen interaktiver Abfragen mithilfe serverloser SQL-Pools
Modul 3: Datenuntersuchung und -transformation in Azure Databricks
In diesem Modul erfahren die Teilnehmenden, wie sie verschiedene Methoden für Apache Spark-Datenrahmen zum Untersuchen und Transformieren von Daten in Azure Databricks verwenden. Die Kursteilnehmer:innen lernen, wie sie Standardmethoden für Datenrahmen zur Untersuchung und Transformation von Daten ausführen können. Sie lernen auch, wie man erweiterte Aufgaben ausführen, z. B. doppelte Daten entfernen, Datums- – Zeitwerte bearbeiten, Spalten umbenennen und Daten aggregieren kann.
Lektionen
Lab: Datenuntersuchung und -transformation in Azure Databricks
Modul 4: Untersuchen, Transformieren und Laden von Daten im Data Warehouse mithilfe von Apache Spark
In diesem Modul erfahren die Teilnehmer:innen, wie sie in einem Data Lake gespeicherte Daten untersuchen, transformieren und in einen relationalen Datenspeicher laden. Die Kursteilnehmer:innen werden Parkett- und JSON-Dateien untersuchen und Techniken verwenden, um JSON-Dateien mit hierarchischen Strukturen abzufragen und zu transformieren. Anschließend werden die Kursteilnehmer:innen Apache Spark verwenden, um Daten in das Data Warehouse zu laden und Parquet-Daten im Data Lake mit Daten im dedizierten SQL-Pool zu verbinden.
Lektionen
Lab: Untersuchen, Transformieren und Laden von Daten im Data Warehouse mithilfe von Apache Spark
Modul 5: Erfassen und Laden von Daten im Data Warehouse
In diesem Modul lernen die Kursteilnehmer:innen, wie sie Daten mithilfe von T-SQL-Skripts und Synapse Analytics-Integrationspipelines im Data Warehouse erfassen. Die Kursteilnehmer:innen lernen, wie sie Daten mit PolyBase und COPY unter Verwendung von T-SQL in dedizierte Synapse-SQL-Pools laden. Darüber hinaus erfahren die Kursteilnehmer:innen, wie sie die Workloadverwaltung zusammen mit einer Copy-Aktivität in einer Azure Synapse-Pipeline für die Datenerfassung im Petabytebereich verwenden.
Lektionen
Modul 6: Transformieren von Daten mit Azure Data Factory oder Azure Synapse-Pipelines
In diesem Modul lernen die Kursteilnehmer:innen, wie sie Datenintegrationspipelines erstellen, um Daten aus mehreren Datenquellen zu erfassen, Daten mithilfe von Zuordnungsdatenflüssen zu transformieren und Daten in eine oder mehrere Datensenken zu verschieben.
Lektionen
Modul 7: Orchestrieren der Datenverschiebung und -transformation in Azure Synapse-Pipelines
In diesem Modul erfahren die Teilnehmenden, wie sie verknüpfte Dienste erstellen und die Datenverschiebung und -transformation mithilfe von Notebooks in Azure Synapse-Pipelines orchestrieren.
Lektionen
Lab: Orchestrieren der Datenverschiebung und -transformation in Azure Synapse-Pipelines
Modul 8: End-to-End-Sicherheit mit Azure Synapse Analytics
In diesem Modul erfahren die Kursteilnehmer:innen, wie sie einen Synapse Analytics-Arbeitsbereich und die zugehörige unterstützende Infrastruktur schützen. Die Kursteilnehmer:innen werden den SQL Active Directory-Administrator beobachten, IP-Firewall-Regeln verwalten, Geheimnisse mit Azure Key Vault verwalten und über einen mit Key Vault verknüpften Dienst und Pipelineaktivitäten auf diese Geheimnisse zugreifen. Die Kursteilnehmer:innen lernen, wie sie Sicherheit auf Spaltenebene, Sicherheit auf Zeilenebene und dynamische Datenmaskierung bei Verwendung von dedizierten SQL-Pools implementieren.
Lektionen
Lab: End-to-End-Sicherheit mit Azure Synapse Analytics
Modul 9: Unterstützen von Hybrid Transactional Analytical Processing (HTAP) mit Azure Synapse Link
In diesem Modul erfahren die Kursteilnehmer:innen, wie Azure Synapse Link die nahtlose Konnektivität eines Azure Cosmos DB-Kontos mit einem Synapse-Arbeitsbereich ermöglicht. Die Teilnehmer:innen lernen, wie sie Synapse Link aktivieren und konfigurieren und wie sie anschließend den Azure-Cosmos-DB-Analysespeicher mithilfe von Apache Spark und serverlosen SQL-Pools abfragen.
Lektionen
Lab: Unterstützen von Hybrid Transactional Analytical Processing (HTAP) mit Azure Synapse Link
Modul 10: Streamverarbeitung in Echtzeit mit Stream Analytics
In diesem Modul erfahren die Kursteilnehmer:innen, wie Streamingdaten mit Azure Stream Analytics verarbeitet werden. Die Kursteilnehmer:innen erfassen Fahrzeugtelemetriedaten in Event Hubs und verarbeiten diese Daten dann in Echtzeit mithilfe verschiedener Fensterfunktionen in Azure Stream Analytics. Die Daten werden in Azure Synapse Analytics ausgegeben. Schließlich lernen die Kursteilnehmer:innen, wie sie den Stream Analytics-Auftrag skalieren, um den Durchsatz zu erhöhen.
Lektionen
Lab: Streamverarbeitung in Echtzeit mit Stream Analytics
Modul 11: Erstellen einer Streamverarbeitungslösung mit Event Hubs und Azure Databricks
In diesem Modul erfahren die Kursteilnehmer:innen, wie Streamingdaten im großen Stil mit Event Hubs und Spark Structured Streaming in Azure Databricks erfasst und verarbeitet werden. Die Kursteilnehmer:innen lernen die wichtigsten Funktionen und Einsatzmöglichkeiten von Structured Streaming kennen. Die Teilnehmer:innen implementieren Schiebefenster, um Datenblöcke zu aggregieren und wenden Wasserzeichen an, um veraltete Daten zu entfernen. Schließlich stellen die Kursteilnehmer:innen eine Verbindung mit Event Hubs her, um Streams zu lesen und zu schreiben.
Lektionen
Lab: Erstellen einer Streamverarbeitungslösung mit Event Hubs und Azure Databricks
Dieses intensive Training bereitet dich vor auf:
Prüfung: «D P-203: Data Engineering on Microsoft Azure» für die
Zertifizierung: «Microsoft Certified: Azure Data Engineer Associate»
Die primäre Zielgruppe für diesen Kurs sind Datenexpert:innen, Datenarchitekt:innen und Business-Intelligence-Expert:innen, die etwas über Data Engineering und den Aufbau analytischer Lösungen mit Datenplattform-Technologien auf Microsoft Azure lernen möchten. Die sekundäre Zielgruppe für diesen Kurs sind Datenanalyst:innen und Datenwissenschaftler:innen, die mit analytischen Lösungen arbeiten, die auf Microsoft Azure aufgebaut sind.
Anforderungen
Erfolgreiche Teilnehmer:innen beginnen diesen Kurs mit Kenntnissen über Cloud Computing und Kerndatenkonzepte sowie Berufserfahrung mit Datenlösungen.
Empfohlen wird das im folgenden Kurs erlangte Grundwissen: