Detaillierte Informationen zum Seminar
Inhalte:
Der Kurs ist thematisch in drei Bereiche gegliedert, die die Teilnehmer Schritt für Schritt in die Arbeit mit Apache Spark einführen:
1. Einführung in Big Data Technologien
Im ersten, eher theoretischen Teil erhalten Sie einen kompakten Überblick über moderne Technologien zur Speicherung und Verarbeitung großer Datenmengen, wie Hadoop und Kubernetes, und erfahren, welche Rolle Apache Spark als leistungsstarkes Framework in diesem Ökosystem spielt.
2. Praktische Arbeit mit PySpark
Der Kern des Workshops ist eine umfangreiche Einführung in die Arbeit mit PySpark. Im Fokus stehen dabei zentrale Aspekte der Datenverarbeitung:
- Datenimport: Laden von Daten
- Datenaufbereitung: Techniken wie Transformation, Filtern, Joinen und Aggregation.
- Datenquellen: Anbindung externer Datenquellen
- Spark-Execution-Modelle: Verständnis der Funktionsweise und Optimierungsmöglichkeiten von Apache Spark.
- Integration von pandas: Unterschiede und Kombination von pandas und PySpark für spezifische Analyseaufgaben.
Die Inhalte werden durch praktische Übungen ergänzt, bei denen die Teilnehmer alle Schritte direkt selbst umsetzen. Darüber hinaus werden Konzepte zur Datenorganisation in Big Data Projekten vorgestellt.
3. Datenanalyse und Machine Learning mit Spark
Im letzten Teil des Seminars werden die Möglichkeiten von Apache Spark im Bereich Datenanalyse und maschinelles Lernen (ML) thematisiert. Sie erhalten:
- Eine kurze Einführung in die grundlegenden Konzepte und Arbeitsweisen von Machine Learning.
- Ein praktisches Beispiel, das zeigt, wie ML-Algorithmen mit PySpark umgesetzt werden können.
Der Workshop konzentriert sich darauf, den Teilnehmern den praktischen Einsatz von PySpark für die Bearbeitung und Auswertung umfangreicher Datensätze zu vermitteln. Im abschließenden Abschnitt wird auch das Thema Machine Learning behandelt. Aufgrund der Komplexität dieses Bereichs erfolgt jedoch lediglich eine kompakte theoretische Einführung. Der Schwerpunkt liegt dabei darauf, die Einsatzmöglichkeiten von Apache Spark in diesem Kontext aufzuzeigen und zu erläutern, wann und warum PySpark anderen Lösungen vorzuziehen ist.
Nach Abschluss des Workshops sind Sie in der Lage, mit Apache Spark eigenständig Datenprojekte umzusetzen. Sie lernen, Daten zu bereinigen, zu transformieren und zielgerichtet zu analysieren - eine essenzielle Fähigkeit für alle, die in der datengetriebenen Welt erfolgreich sein wollen.
Voraussetzungen
Grundkenntnisse in Programmierung und SQL sind erforderlich, da die Beispiele für Apache Spark in Python umgesetzt werden. Teilnehmer mit Kenntnissen in anderen Programmiersprachen können sich erfahrungsgemäß schnell in Python einarbeiten. Lesekenntnisse in Englisch sind hilfreich, da die Kursunterlagen auf Englisch sind, während die Schulung auf Deutsch stattfindet.
Technik im Kurs
Für die Schulung benötigen Sie einen Computer mit aktuellem Browser (Chrome, Firefox, Edge) sowie Mikrofon und Kopfhörer oder Lautsprecher.
Eine Kamera ist optional.
Jeder Teilnehmer erhält für ein praxisnahes Schulungserlebnis Zugriff auf ein individuelles Cluster in der Amazon Cloud, verbunden über SSH und Browser - zusätzliche Software ist nicht nötig.
Stellen Sie sicher, dass Ihr Laptop uneingeschränkten Internetzugang hat. Schulungsunterlagen werden online bereitgestellt, und vorab erhalten Sie einen Link zu einer Testdatei, um die Zugänglichkeit zu prüfen.
Hinweis
Das Online-Seminar wird über die E-Learningplattform von Enable AI bereitgestellt. Zur Einrichtung des User-Accounts und Zusendung von Zugangsdaten und Nutzung der Lernplattform übermitteln wir Name, Anschrift, Emailadresse der Teilnehmer an Enable AI. In diesem Zusammenhang wird auch die Telefonnummer zur Klärung der technischen Fragen übermittelt.
Dauer/zeitlicher Ablauf:
16 Stunden
Ziele/Bildungsabschluss:
Teilnahmebescheinigung /
Zielgruppe:
Dieses Seminar ist speziell auf die Bedürfnisse von Fachleuten zugeschnitten, die mit großen Datenmengen arbeiten oder künftig arbeiten möchten.
Es richtet sich an:
- Datenanalysten und -wissenschaftler: Personen, die ihre Kenntnisse in der Verarbeitung von großen Datenmengen erweitern und Tools wie Apache Spark in ihre Arbeit integrieren möchten.
- IT-Fachleute und Architekten: Fachkräfte, die für die Implementierung und Verwaltung von Big-Data-Lösungen verantwortlich sind und skalierbare Technologien wie Spark einsetzen möchten.
- Softwareentwickler: Entwickler, die datenintensive Anwendungen mit Python programmieren und dabei Spark als Basis für die Datenverarbeitung nutzen möchten.
- Projektleiter und Entscheider: Manager, die ein besseres Verständnis für die Möglichkeiten von Big Data und skalierbaren Datenverarbeitungstechnologien gewinnen möchten.
Seminarkennung:
1850_252_02AI