Erfahre, wie Amazon EMR mit Open-Source-Projekten wie Apache Hive, Hue und HBase und mit AWS-Services wie AWS Glue und AWS Lake Formation integriert wird. Der Kurs behandelt die Komponenten Datenerfassung, -aufnahme, -katalogisierung, -speicherung und -verarbeitung im Kontext von Spark und Hadoop. Du lernst die Verwendung von EMR Notebooks zur Unterstützung von Analyse- und Machine-Learning-Arbeitslasten. Du lernst auch, die besten Praktiken für Sicherheit, Leistung und Kostenmanagement auf den Betrieb von Amazon EMR anzuwenden.
Modul A: Überblick über Datenanalyse und die Datenpipeline
- Anwendungsfälle der Datenanalyse
- Verwendung der Datenpipeline für die Datenanalyse
Modul 1: Einführung in Amazon EMR
- Verwendung von Amazon EMR in Analyselösungen
- Architektur von Amazon-EMR-Clustern
- Interaktive Demo 1: Starten eines Amazon-EMR-Clusters
- Strategien zur Kostenverwaltung
Modul 2: Datenanalyse-Pipeline mit Amazon EMR: Ingestion und Speicherung
- Speicheroptimierung mit Amazon EMR
- Techniken zur Datenübernahme
Modul 3: Leistungsstarke Batch-Datenanalyse mit Apache Spark auf Amazon EMR
- Anwendungsfälle für Apache Spark auf Amazon EMR
- Warum Apache Spark auf Amazon EMR?
- Spark-Konzepte
- Interaktive Demo 2: Verbinde dich mit einem EMR-Cluster und führe Scala-Befehle mit der Spark-Shell
- Transformation, Verarbeitung und Analyse
- Verwendung von Notebooks mit Amazon EMR
- Practice Lab 1: Datenanalyse mit niedriger Latenz mit Apache Spark auf Amazon EMR
Modul 4: Verarbeiten und Analysieren von Batch-Daten mit Amazon EMR und Apache Hive
- Verwendung von Amazon EMR mit Hive zur Verarbeitung von Stapeldaten
- Transformation, Verarbeitung und Analyse
- Practice Lab 2: Batch-Datenverarbeitung mit Amazon EMR und Hive
- Einführung in Apache HBase auf Amazon EMR
Modul 5: Serverlose Datenverarbeitung
- Serverlose Datenverarbeitung, -transformation und -analytik
- Verwendung von AWS Glue mit Amazon-EMR-Arbeitslasten
- Practice Lab 3: Orchestrierung der Datenverarbeitung in Spark mit AWS Step Functions
Modul 6: Sicherheit und Überwachung von Amazon EMR-Clustern
- Sichern von EMR-Clustern
- Interaktive Demo 3: Client-seitige Verschlüsselung mit EMRFS
- Überwachung und Fehlersuche bei Amazon-EMR-Clustern
- Demo: Überprüfung des Verlaufs von Apache-Spark-Clustern
Modul 7: Entwerfen von Batch-Datenanalyselösungen
- Anwendungsfälle für die Batch-Datenanalytik
- Aktivität: Entwerfen eines Arbeitsablaufs für die Batch-Datenanalyse
Modul B: Entwickeln moderner Datenarchitekturen auf AWS
- Moderne Datenarchitekturen
Dieser Kurs richtet sich an folgende Jobrollen:
Wir empfehlen, dass die Teilnehmenden dieses Kurses die folgenden Voraussetzungen mitbringen:
- Mindestens ein Jahr Erfahrung mit der Verwaltung von Open-Source-Daten-Frameworks wie Apache Spark oder Apache Hadoop