Seminare
Seminare

Apache Spark Komplettkurs

Webinar - IT-Schulungen.com

In dieser 10-tägigen Schulung "Apache Spark Komplettkurs" lernen Sie Spark kennen, die schnellere und universellere Alternative zu MapReduce. Der Kurs vermittelt nicht nur die Grundlagen, sondern vertieft auch Kenntnisse zu spezialisierten Spark-Bibliotheken.


Die Schulung umfasst folgende Einzelkurse: "Apache Spark Grundlagen (Module 1, 2 und 3)" in 3 Tagen, "Apache Spark SQL (Modul 4 und 5)" in 2 Tagen, "Apache Spark ML (Modul 6 und 7)" in 3 Tagen und "Apache Spark Streaming (Modul 8)" in 2 Tagen.


Sie erhalten eine umfassende Einführung in Spark und lernen die nahtlose Integration in das Hadoop-Ökosystem kennen. Zudem werden Sie mit Spark SQL, maschinellem Lernen und Echtzeitdatenverarbeitung vertraut gemacht. Nach Abschluss des Komplettkurses sind Sie bestens gerüstet, um Spark effizient einzusetzen und komplexe, verteilter Anwendungen erfolgreich zu bewältigen.


Termin Ort Preis*
26.08.2024- 06.09.2024 Nürnberg 7.134,05 €
26.08.2024- 06.09.2024 online 7.134,05 €
30.09.2024- 14.10.2024 Nürnberg 7.134,05 €
30.09.2024- 14.10.2024 online 7.134,05 €

Alle Termine anzeigen

*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

Modul 1: Spark Grundlagen

Spark wurde im universitären AMPLab in Berkeley ersonnen und entwickelt sich seit 2013 unter dem Dach der Apache Software Foundation als defacto-Standard für nebenläufige Berechnungen rasant weiter.


Kern von Spark ist eine Engine, die Daten in sogenannte RDDs (Resilient Distributed Datasets) so aufspaltet, dass diese über mehrere Knoten verteilt und parallel bearbeitet werden können, bis sie wieder zusammengeführt und erforderlichenfalls erneut aufgeteilt werden. Dieses Aufteilen und Zusammenführen wird größtmöglich im Hauptspeicher durchgeführt, weshalb die Performance von Spark deutlich höher ist als vergleichsweise in MapReduce.


In diesem einführenden Modul lernen die Teilnehmer die grundlegenden Prinzipien von Spark und ihre Integration in das Hadoop Ökosystem kennen.


Modul 2: Spark Programmierung

Jedes Spark-Programm besteht aus einem zentralen Driver Program sowie zahlreichen Executor Programs, die auf den einzelnen Knoten ausgeführt werden. Es stehen verschiedene Schnittstellen zur Verfügung, um Spark-Programme in Java, Scala oder Python erstellen zu können.


Aufbauend auf dem Grundkonzept, welches für alle Sprachen gleich ist, wird ein Überblick zu den einzelnen Sprachvarianten gegeben und auf Unterschiede eingegangen. Die Teilnehmer setzen eigenständig Aufgabenstellungen mit der Sprache ihrer Wahl um. Abschließend werden die Realisierungen mit verschiedenen Sprachen diskutiert.


Modul 3: Spark Tools

Die Liste der verfügbaren Werkzeuge für die Entwicklung und Ausführung von Spark-Programmen ist lang und reicht von (interaktiven) Shell-Tools bis zur mächtigen Spark-Plattform von Databricks.


In diesem Modul lernen die Teilnehmer die interaktiven Shells in Hadoop für Scala und Python kennen, wenden webbasierte Notebooks wie Zeppelin und Jupyter an, nutzen die Entwickler-Tools Eclipse und Visual Studio und erhalten einen Überblick zur Spark-Plattform von Databricks.


Modul 4: Spark SQL

Der Durchbruch für Spark SQL erfolgte mit der Einführung von Datasets und DataFrames, die die performante verteilte Verarbeitung von strukturierten Daten möglich machte. Spark SQL ist heute eine der am häufigsten eingesetzten Komponenten und ermöglicht eine SQL-basierte Verarbeitung von verteilten Daten.


Die Teilnehmer lernen die Konzepte von Spark SQL kennen und lösen unterschiedlichste Aufgabenstellungen zum Persistieren, Selektieren und Aggregieren strukturierter Daten ein einer verteilten Umgebung mit Hilfe von Scala.


Modul 5: Spark GraphX

GraphX ist eine Komponente in Spark, die speziell auf die Verarbeitung von Graphen ausgelegt ist. Jeder Graph besteht aus Knoten und Kanten, die wiederum durch Eigenschaften beschrieben sind. GraphX definiert sogenannte Eigenschafts-Graphen, über denen typische Graphen-Operationen ausgeführt werden können.


Die Teilnehmer machen sich mit den Grundprinzipien der Implementierung von GraphX vertraut und lösen exemplarische Aufgabenstellungen mit Hilfe von Python.


Modul 6: Spark Machine Learning (MLlib)

Mit Spark MLlib steht eine Bibliothek für typische Aufgabenstellungen im Data Mining bzw. Machine Learning (ML) zur Verfügung, womit beispielsweise Vorhersagemodelle für diskrete oder stetige Werte trainiert werden können.


Die Teilnehmer machen sich mit den Grundprinzipien der Implementierung von ML-Algorithmen in Spark vertraut und lernen verschiedene Ansätze für die Modellerstellung kennen. Der Schwerpunkt dieses Moduls liegt aber in der praktischen Umsetzung verschiedener Aufgabenstellungen durch die Teilnehmer mit Hilfe von Python.


Modul 7: SparkR

SparkR ist eine relativ junge Bibliothek in Spark, die den Bogen zwischen der frei verfügbaren Programmiersprache „R“ und Spark spannt. Damit ist es grundsätzlich möglich, bestimmte rechenintensive Aktivitäten wie Aggregationen, Selektionen und Filtern in einer verteilten Umgebung mit Hilfe von Spark auszuführen. Dies kann entweder aus der Spark-Umgebung heraus initiiert werden oder aus einer beliebigen IDE (Integrated Developer Environment) für R wie beispielsweise R Studio.


Die Teilnehmer machen sich mit der Funktionalität von SparkR vertraut und erstellen einfache R-Programme unter Nutzung von Spark.


Modul 8: Spark Streaming

Spark Streaming ist eine Lösung, um in sogenannten Micro Batches Daten zeitnah verarbeiten zu können. Das ist zwar kein Ansatz

Ziele/Bildungsabschluss:

In dieser 10-tägigen Schulung "Apache Spark Komplettkurs" lernen Sie Spark kennen, die schnellere und universellere Alternative zu MapReduce. Der Kurs vermittelt nicht nur die Grundlagen, sondern vertieft auch Kenntnisse zu spezialisierten Spark-Bibliotheken.


Die Schulung umfasst folgende Einzelkurse: "Apache Spark Grundlagen (Module 1, 2 und 3)" in 3 Tagen, "Apache Spark SQL (Modul 4 und 5)" in 2 Tagen, "Apache Spark ML (Modul 6 und 7)" in 3 Tagen und "Apache Spark Streaming (Modul 8)" in 2 Tagen.


Sie erhalten eine umfassende Einführung in Spark und lernen die nahtlose Integration in das Hadoop-Ökosystem kennen. Zudem werden Sie mit Spark SQL, maschinellem Lernen und Echtzeitdatenverarbeitung vertraut gemacht. Nach Abschluss des Komplettkurses sind Sie bestens gerüstet, um Spark effizient einzusetzen und komplexe, verteilter Anwendungen erfolgreich zu bewältigen.


Teilnahmevoraussetzungen:
  • Praktische Erfahrung in der IT-Informationsverarbeitung
  • Kenntnisse im Einsatz relationaler Datenbanken
  • Kenntnisse über Big Data


Lehrgangsverlauf/Methoden:

Die Schulung bietet Ihnen eine ausgewogene Mischung aus Theorie und Praxis in einer erstklassigen Lernumgebung. Profitieren Sie vom direkten Austausch mit unseren projekterfahrenen Trainern und anderen Teilnehmern, um Ihren Lernerfolg zu maximieren.


Zielgruppe:
  • (IT-)Architekt
  • (IT-)Entwickler
  • Software Entwickler
  • Data Scientist
  • Data Engineer


Seminarkennung:
NE-WEBDATE-45ef8841-c003-4031-8685-ca778b864a47
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha