Seminare
Seminare

Building Batch Data Analytics Solutions on AWS

Seminar - Cegos Integrata GmbH

In diesem Kurs werden Sie lernen:

  • Vergleichen Sie die Funktionen und Vorteile von Data Warehouses, Data Lakes und modernen Datenarchitekturen
  • Entwurf und Implementierung einer Lösung für die Batch-Datenanalyse
  • Identifizierung und Anwendung geeigneter Techniken, einschließlich Komprimierung, zur Optimierung der Datenspeicherung
  • Auswahl und Einsatz geeigneter Optionen zur Aufnahme, Umwandlung und Speicherung von Daten
  • Auswahl der geeigneten Instanz- und Knotentypen, Cluster, der automatischen Skalierung und der Netzwerktopologie für einen bestimmten geschäftlichen Anwendungsfall
  • Verstehen, wie sich Datenspeicherung und -verarbeitung auf die Analyse- und Visualisierungsmechanismen auswirken, die für die Gewinnung verwertbarer Geschäftseinblicke erforderlich sind
  • Sichere Daten im Ruhezustand und bei der Übertragung
  • Überwachen von Analyse-Workloads, um Probleme zu erkennen und zu beheben
  • Anwendung bewährter Kostenmanagementverfahren
Termin Ort Preis*
17.03.2025 online 892,50 €
09.06.2025 online 892,50 €
29.09.2025 online 892,50 €
08.12.2025 online 892,50 €
firmenintern auf Anfrage auf Anfrage

Alle Termine anzeigen

*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

Modul A: Überblick über Datenanalyse und die Datenpipeline

  • Anwendungsfälle der Datenanalyse
  • Nutzung der Datenpipeline für Analysen

Modul 1: Einführung in Amazon EMR

  • Verwendung von Amazon EMR in Analyselösungen
  • Amazon EMR-Cluster-Architektur
  • Interaktive Demo 1: Starten eines Amazon EMR-Clusters
  • Strategien für das Kostenmanagement

Modul 2: Datenanalyse-Pipeline mit Amazon EMR: Ingestion und Speicherung

  • Speicheroptimierung mit Amazon EMR
  • Techniken für die Datenübernahme

Modul 3: Leistungsstarke Batch-Datenanalyse mit Apache Spark auf Amazon EMR

  • Apache Spark auf Amazon EMR Anwendungsfälle
  • Warum Apache Spark auf Amazon EMR
  • Spark-Konzepte
  • Interaktive Demo 2: Verbinden mit einem EMR-Cluster und Ausführen von Scala-Befehlen mit der Spark-Shell
  • Umwandlung, Verarbeitung und Analyse
  • Verwendung von Notebooks mit Amazon EMR
  • Praxisübung 1: Datenanalyse mit niedriger Latenz mit Apache Spark auf Amazon EMR

Modul 4: Verarbeitung und Analyse von Batch-Daten mit Amazon EMR und Apache Hive

  • Verwendung von Amazon EMR mit Hive zur Verarbeitung von Stapeldaten
  • Umwandlung, Verarbeitung und Analyse
  • Praxisübung 2: Batch-Datenverarbeitung mit Amazon EMR und Hive
  • Einführung in Apache HBase auf Amazon EMR

Modul 5: Serverlose Datenverarbeitung

  • Serverlose Datenverarbeitung, -umwandlung und -analyse
  • Verwendung von AWS Glue mit Amazon EMR-Arbeitslasten
  • Praxisübung 3: Orchestrierung der Datenverarbeitung in Spark mit AWS Step Functions

Modul 6: Sicherheit und Überwachung von Amazon EMR-Clustern

  • Sicherung von EMR-Clustern
  • Interaktive Demo 3: Client-seitige Verschlüsselung mit EMRFS
  • Überwachung und Fehlerbehebung von Amazon EMR-Clustern
  • Demo: Überprüfung der Apache Spark-Cluster-Historie

Modul 7: Entwurf von Batch Data Analytics-Lösungen

  • Anwendungsfälle der Batch-Datenanalyse
  • Tätigkeit: Entwurf eines Arbeitsablaufs für die Batch-Datenanalyse

Modul B: Entwicklung von modernen Datenarchitekturen auf AWS

  • Moderne Datenarchitekturen
Dauer/zeitlicher Ablauf:
1 Tage
Ziele/Bildungsabschluss:

In diesem Kurs werden Sie lernen:

  • Vergleichen Sie die Funktionen und Vorteile von Data Warehouses, Data Lakes und modernen Datenarchitekturen
  • Entwurf und Implementierung einer Lösung für die Batch-Datenanalyse
  • Identifizierung und Anwendung geeigneter Techniken, einschließlich Komprimierung, zur Optimierung der Datenspeicherung
  • Auswahl und Einsatz geeigneter Optionen zur Aufnahme, Umwandlung und Speicherung von Daten
  • Auswahl der geeigneten Instanz- und Knotentypen, Cluster, der automatischen Skalierung und der Netzwerktopologie für einen bestimmten geschäftlichen Anwendungsfall
  • Verstehen, wie sich Datenspeicherung und -verarbeitung auf die Analyse- und Visualisierungsmechanismen auswirken, die für die Gewinnung verwertbarer Geschäftseinblicke erforderlich sind
  • Sichere Daten im Ruhezustand und bei der Übertragung
  • Überwachen von Analyse-Workloads, um Probleme zu erkennen und zu beheben
  • Anwendung bewährter Kostenmanagementverfahren
Teilnahmevoraussetzungen:

Teilnehmer mit mindestens einem Jahr Erfahrung im Umgang mit Open-Source-Datenframeworks wie Apache Spark oder Apache Hadoop profitieren von diesem Kurs.

Zielgruppe:

Dieser Kurs richtet sich an:

  • Ingenieure für Datenplattformen
  • Architekten und Betreiber, die Datenanalyse-Pipelines aufbauen und verwalten
Seminarkennung:
39123
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha