Seminar - Cegos Integrata GmbH
Dieser praxisorientierte Kurs behandelt die Verarbeitung von großen Datenmengen mit Apache Spark und Python. Es werden grundlegende Konzepte von PySpark erläutert und die Integration des Python Datenanalyse Moduls Pandas in PySpark behandelt. Darüber hinaus werden die Möglichkeiten der Anwendung von Machine Learning in PySpark vorgestellt. Der Kurs bietet einen Überblick über die Analyse großer Datenmengen, Hadoop und Kubernetes, sowie die Verwendung von Spark als Datenverarbeitungsframework. Es werden auch Themen wie das Einladen von Daten, Datenaufbereitung (Transformation, Filtern, Joinen, Aggregation), Ausführungsmodelle von Apache Spark und Datenorganisation in Big Data Projekten behandelt. Insgesamt bietet dieser Kurs eine umfassende Einführung in die Verarbeitung großer Datenmengen mit Apache Spark und Python.
Der Kurs ist in drei thematische Bereiche unterteilt, um die Teilnehmer schrittweise an Apache Spark heranzuführen.
Im ersten Teil wird ein knapper Überblick über aktuelle Technologien zur Speicherung und Verarbeitung großer Datenmengen (Hadoop und Kubernetes) gegeben und die Rolle von Spark als wichtiges Datenverarbeitungsframework erläutert.
Der zweite Teil beinhaltet eine ausführliche Einführung in die Arbeit mit Apache Spark mit Python (PySpark). Dabei werden alle wichtigen Punkte behandelt, wie das Laden von Daten, die Datenaufbereitung (Transformation, Filtern, Joinen, Aggregation), die Anbindung verschiedener Datenquellen, die A...
Termin | Ort | Preis* |
---|---|---|
30.01.2025- 31.01.2025 | online | 1.535,10 € |
24.03.2025- 25.03.2025 | online | 1.535,10 € |
08.05.2025- 09.05.2025 | online | 1.535,10 € |
03.07.2025- 04.07.2025 | München | 1.535,10 € |
01.09.2025- 02.09.2025 | online | 1.535,10 € |
03.11.2025- 04.11.2025 | Düsseldorf | 1.535,10 € |
firmenintern | auf Anfrage | auf Anfrage |
Einführung in Apache Spark Grundlagen:
Erste Schritte in der PySpark-Welt:
Weitere Datentransformationen erkunden:
UDF - User Defined Functions verwenden:
Datenhaltung und Speicherung:
Grundlagen des Maschinellen Lernens:
Vorbereitung der Daten:
Datenexploration:
Modelltraining:
Verfeinerung des Modells: