Seminare
Seminare

Live-Online: Building Batch Data Analytics Solutions on AWS

Webinar - Haufe Akademie GmbH & Co. KG

In diesem Kurs lernst du den Aufbau von Batch-Datenanalyselösungen mit Amazon EMR, einem verwalteten Apache Spark- und Apache Hadoop-Service der Enterprise-Klasse.
Termin Ort Preis*
16.01.2025 online 868,70 €
03.03.2025 online 868,70 €
*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

Erfahre, wie Amazon EMR mit Open-Source-Projekten wie Apache Hive, Hue und HBase und mit AWS-Services wie AWS Glue und AWS Lake Formation integriert wird. Der Kurs behandelt die Komponenten Datenerfassung, -aufnahme, -katalogisierung, -speicherung und -verarbeitung im Kontext von Spark und Hadoop. Du lernst die Verwendung von EMR Notebooks zur Unterstützung von Analyse- und Machine-Learning-Arbeitslasten. Du lernst auch, die besten Praktiken für Sicherheit, Leistung und Kostenmanagement auf den Betrieb von Amazon EMR anzuwenden.

Modul A: Überblick über Datenanalyse und die Datenpipeline


  • Anwendungsfälle der Datenanalyse 
  • Verwendung der Datenpipeline für die Datenanalyse


 


Modul 1: Einführung in Amazon EMR


  • Verwendung von Amazon EMR in Analyselösungen
  • Architektur von Amazon-EMR-Clustern
  • Interaktive Demo 1: Starten eines Amazon-EMR-Clusters
  • Strategien zur Kostenverwaltung


 


Modul 2: Datenanalyse-Pipeline mit Amazon EMR: Ingestion und Speicherung


  • Speicheroptimierung mit Amazon EMR
  • Techniken zur Datenübernahme


 


Modul 3: Leistungsstarke Batch-Datenanalyse mit Apache Spark auf Amazon EMR


  • Anwendungsfälle für Apache Spark auf Amazon EMR
  • Warum Apache Spark auf Amazon EMR?
  • Spark-Konzepte
  • Interaktive Demo 2: Verbinde dich mit einem EMR-Cluster und führe Scala-Befehle mit der Spark-Shell
  • Transformation, Verarbeitung und Analyse
  • Verwendung von Notebooks mit Amazon EMR
  • Practice Lab 1: Datenanalyse mit niedriger Latenz mit Apache Spark auf Amazon EMR


 


Modul 4: Verarbeiten und Analysieren von Batch-Daten mit Amazon EMR und Apache Hive


  • Verwendung von Amazon EMR mit Hive zur Verarbeitung von Stapeldaten
  • Transformation, Verarbeitung und Analyse
  • Practice Lab 2: Batch-Datenverarbeitung mit Amazon EMR und Hive
  • Einführung in Apache HBase auf Amazon EMR


 


Modul 5: Serverlose Datenverarbeitung


  • Serverlose Datenverarbeitung, -transformation und -analytik
  • Verwendung von AWS Glue mit Amazon-EMR-Arbeitslasten
  • Practice Lab 3: Orchestrierung der Datenverarbeitung in Spark mit AWS Step Functions


 


Modul 6: Sicherheit und Überwachung von Amazon EMR-Clustern


  • Sichern von EMR-Clustern
  • Interaktive Demo 3: Client-seitige Verschlüsselung mit EMRFS
  • Überwachung und Fehlersuche bei Amazon-EMR-Clustern
  • Demo: Überprüfung des Verlaufs von Apache-Spark-Clustern


 


Modul 7: Entwerfen von Batch-Datenanalyselösungen


  • Anwendungsfälle für die Batch-Datenanalytik
  • Aktivität: Entwerfen eines Arbeitsablaufs für die Batch-Datenanalyse


 


Modul B: Entwickeln moderner Datenarchitekturen auf AWS


  • Moderne Datenarchitekturen
Dauer/zeitlicher Ablauf:
1 Tag
Ziele/Bildungsabschluss:
  • Vergleich der Funktionen und Vorteile von Data Warehouses, Data Lakes und modernen Datenarchitekturen
  • Entwerfen und Implementieren einer Lösung für die Batch-Datenanalyse
  • Identifizieren und Anwenden geeigneter Techniken, einschließlich Komprimierung, zur Optimierung der Datenspeicherung
  • Auswählen und Bereitstellen geeigneter Optionen für die Aufnahme, Umwandlung und Speicherung von Daten 
  • Auswahl der geeigneten Instanz- und Knotentypen, Cluster, automatischen Skalierung und Netzwerktopologie für einen bestimmten geschäftlichen Anwendungsfall
  • Verstehen, wie sich Datenspeicherung und -verarbeitung auf die Analyse- und Visualisierungs-Mechanismen auswirken, die für die Gewinnung verwertbarer Geschäftserkenntnisse erforderlich sind
  • Sichern von Daten im Ruhezustand und bei der Übertragung
  • Überwachung von Analyse-Workloads, um Probleme zu erkennen und zu beheben
  • Anwendung von Best Practices für das Kostenmanagement
Zielgruppe:

Dieser Kurs richtet sich an folgende Jobrollen:


  • Data Analytics


Wir empfehlen, dass die Teilnehmenden dieses Kurses die folgenden Voraussetzungen mitbringen:


  • Mindestens ein Jahr Erfahrung mit der Verwaltung von Open-Source-Daten-Frameworks wie Apache Spark oder Apache Hadoop
Seminarkennung:
36413
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha