Seminar - Essential Data Science Training GmbH
Der 5-tägige Machine Learning Bootcamp in R vermittelt in einzeln buchbaren Modulen Kenntnisse im überwachten maschinellen Lernen (engl. supervised machine learning) in Modul 1 und im unüberwachten maschinellen Lernen (engl. unsupervised machine learning) in Modul 2, sowie praktisches Wissen zum interpretierbaren maschinellen Lernen in Modul 3. Für die Anwendungsbeispiele und praktische Übungsaufgaben kommt die statistische Software R zum Einsatz.
Ziel: Vermittlung von Kenntnissen zur Anpassung und Verbesserung von Vorhersagemodellen, zum Auffinden von Strukturen in den Daten und zur Interpretation von Algorithmen und Methoden aus dem Bereich des maschinellen Lernen mit praktischen Beispielen in R. Dies soll es den Teilnehmern erleichtern, in ihrem Arbeitsalltag eigene Vorhersagemodelle zu optimieren und Projekte zielgerichtet bearbeiten zu können, ohne sich tagelang selber in bestimmte Themen einarbeiten zu müssen. Zudem werden in den einzelnen Themenblöcken hilfreiche Zusatzpakete in R empfohlen, deren Nutzung oft unnötige Programmierarbeit, zusätzliche Recherchen und Anfängerfehler ersparen können.
Termin | Ort | Preis* |
---|---|---|
30.06.2025- 04.07.2025 | München | 3.326,05 € |
30.06.2025- 04.07.2025 | online | 2.380,00 € |
auf Anfrage | auf Anfrage | auf Anfrage |
Modul 1: Supervised Machine Learning in R (3-tägig)
Themenschwerpunkte Teil 1: Einführung in Machine Learning und Predictive Modeling
Kursteilnehmer sollen mit den wichtigsten Konzepten und Begriffen des maschinellen Lernens vertraut gemacht werden, sowie erste einfache überwachte Lernmodelle trainieren und evaluieren. Folgende Themen werden behandelt:
Allgemeine Fragestellungen im maschinellen Lernen (Regression, Klassifikation, Clustering, …)
Einführung allgemeiner Begriffe (Verlustfunktion, Risikominimierung, Overfitting, Hyper- und Modelparameter, Training- und Testdaten, …)
Lineare und Logistische Regression aus der Perspektive des maschinellen Lernens
K-nächste Nachbarn Verfahren
Wichtige Evaluationmaße für Regression und Klassifikation und deren Eigenschaften
Resampling Methoden (Kreuzvalidierung, Bootstrap, …) und deren Vor- und Nachteile
Themenschwerpunkte Teil 2: Praktisches Machine Learning - Evaluation und Tuning
Es werden verschiedene Algorithmen des überwachten maschinellen Lernens eingeführt. Dabei werden Vor- und Nachteile der Modelle diskutiert. Zudem werden weitere fortgeschrittene Konzepte vermittelt um praktische Probleme besser und effizienter lösen zu können. Folgende Themen werden behandelt:
Funktionsweise wichtiger Machine Learning Algorithmen:
Regressions- und Klassifikationsbäume
Random Forests, ggf. Ausblick auf (Gradienten) Boosting
Hyperparameter Optimierung (Zufallssuche und Gittersuche)
Genestete Kreuzvalidierung zur optimalen Modellwahl
Fallstricke und praxisrelevante Tipps bei der Modell-Evaluation und Modellwahl
Themenschwerpunkte Teil 3: Machine Learning Pipelines, Datenvorverarbeitung und Feature Engineering
Die Kursteilnehmer lernen praktische Methoden kennen, um häufig auftretende Probleme und Herausforderungen in Daten zu lösen und komplizierte machine learning pipelines anzuwenden. Folgende Themen werden behandelt:
Einfache Vorverarbeitungsmethoden (z.B. konstante und gedoppelte Feature identifizieren und entfernen)
Feature Transformationen (Skalierung, Zentrierung, ...)
Umgang mit kategorialen Features (Dummy und Impact Kodierung)
Fehlende Werte und Imputation
Unbalancierte Daten (Over/Undersampling)
Ausblick: Automatic Machine Learning
Voraussetzungen:
Kenntnisse in R und Datenanalyse / Statistik
Modul 2: Unsupervised Learning in R (1-tägig)
Während beim überwachten maschinellen Lernen (engl. supervised machine learning) Vorhersagemodelle und das Erstellen akkurater Prognosen für eine bestimmte Zielgröße im Vordergrund ist, steht im unüberwachten maschinellen Lernen (engl. unsupervised machine learning) das Auffinden von Strukturen und Erkennen von Mustern in den Daten (ohne Kenntnisse über die Zielgröße) im Vordergrund. Hauptkomponentenanalyse (PCA) und Clusteranalyse sind bekannte Verfahren aus dem Bereich des Unsupervised Machine Learning und werden in diesem Kurs ausführlich behandelt.
Die Themenschwerpunkte sind:
Clusteranalyse - Auffinden von Gruppen bzw. Ähnlichkeitsstrukturen in Daten:
Hierarchische Clusteranalyse: Distanzmaße für Beobachtungen und Cluster (Linkage-Methoden), Dendrogramme und deren Interpretation
Partitionierende Clusteralgorithmen: k-Means, k-Median, k-Medoids
Kennzahlen für die Evaluation der Ergebnisse von Clusteralgorithmen (bzw. Indizes zur Clustervalidierung).
Eigenschaften, Vergleich, sowie Vor- und Nachteile verschiedener Clusterverfahren
Dimensionsreduktion mittels Hauptkomponentenanalyse (PCA).
Voraussetzungen:
Kenntnisse in R und Datenanalyse / Statistik
Modul 3: Interpretable Machine Learning in R (1-tägig)
Machine Learning Modelle werden oft als Blackbox bezeichnet, da ihre Vorhersagen üblicherweise nicht nachvollziehbar sind. Teilnehmer lernen die wichtigsten modell-agnostischen Methoden aus dem Bereich des interpretierbaren maschinellen Lernen (auch eXplainable Artificial Intelligence bzw. XAI genannt) um Vorhersagen von Modellen besser verstehen zu können. Der Fokus der Anwendungsbeispiele liegt auf Modelle für tabulare Daten. Die
Themenschwerpunkte sind:
Globale und lokale Interpretationsmethoden
Permutation feature importance um die Wichtigkeit von Variablen zu quantifizieren
Partial dependence (PD) plots um den erwarteten Variablen-Effekt zu visualisieren
Individual conditional expectation (ICE) plots um den Variablen-Effekt einzelner Beobachtungen zu visualisieren
Überblick über weitere Methoden wie LIME und Shapley values.
Diskussion allgemeiner Fallstricke im bei der Anwendung von Machine Learning.
Voraussetzungen:
Kenntnisse in R und Machine Learning
Allgemeine Kursinformationen:
Kurssprache: Wenn nicht anders erwähnt Deutsch, Kursunterlagen: Englisch.
R Kurse: Sie benötigten R (ab Version 3.6.0: https://cran.r-project.org), RStudio (https://www.rstudio.com/products/rstudio) und ausreichend Berechtigungen um Zusatzpakete in R installieren zu können (z.B. mit dem Befehl install.packages).
Webinar-Tool: Zoom-Software, was mittels Breakout Sessions (virtuelle Kursräume) Gruppenarbeit und individuelle Betreuung ermöglicht. Eine Teilnahme ist auch ohne zusätzliche Installation der Zoom-Software möglich (siehe Zoom per Internetbrowser).