Seminar - Essential Data Science Training GmbH
Der 5-tägige Intensivkurs Data Analysis und Machine Learning in R vermittelt in einzeln buchbaren Modulen Grundkenntnisse in R (Modul 1), praktisches Wissen zur deskriptiven Datenanalyse, der statisischen Inferenz und Modellierung in R (Modul 2), sowie Kenntnisse im supervised machine learning (Modul 3). Für die Anwendungsbeispiele und praktische Übungsaufgaben kommt die statistische Software R zum Einsatz.
Ziel: Vermittlung von theoretischen Kenntnissen im Bereich der Datenanalyse, Statistik und Machine Learning sowie technische und praktische Grundlagen in R. Dies soll es den Teilnehmern erleichtern, in ihrem Arbeitsalltag eigene Datenanalysen durchzuführen und Vorhersagemodelle anzupassen und zu verbessern. Zudem werden in den einzelnen Themenblöcken hilfreiche Zusatzpakete in R empfohlen, deren Nutzung oft unnötige Programmierarbeit, zusätzliche Recherchen und Anfängerfehler ersparen können.
Termin | Ort | Preis* |
---|---|---|
24.03.2025- 28.03.2025 | München | auf Anfrage |
24.03.2025- 28.03.2025 | online | auf Anfrage |
auf Anfrage | auf Anfrage | auf Anfrage |
Modul 1: R Crashkurs (1-tägig)
In diesem Tag werden Grundkenntnisse der Programmiersprache R vermittelt. Der Fokus liegt dabei auf die technische Einführung in R, das Erlernen der grundlegenden R-Syntax und das Arbeiten mit R zur Datenanalyse. Dieser Kurs ist sowohl für Teilnehmer ohne R Kenntnisse als auch zur Auffrischung der Grundlagen in geeignet.
Themenschwerpunkte:
Arbeiten mit R und R Studio, eine der beliebtesten und mächtigsten graphischen Benutzeroberfläche (GUIs) für R.
Installation und Nutzung von Erweiterungspaketen in R.
Einführung in Hilfeseiten und Tipps zur Selbsthilfe.
Erläuterung der wichtigsten Datentypen, Operatoren (arithmetische und logische Operatoren) und Funktionen in R.
Import und Export von Daten (z.B. Dateiformate wie CSV, Excel etc.)
Arbeiten mit Dataframes und Vektoren (numeric, logical, character, factors), z.B. das Indizieren, Aufteilen und Umwandeln von Variablen bzw. Datensätzen.
Berechnen von einfachen statistischen Kennzahlen in R (z.B.: Median, Mittelwert, Quantile, Varianz, etc.).
Voraussetzungen: keine
Modul 2: Praktische Datenanalyse in R (2-tägig)
Kursteilnehmer sollen mit den wichtigsten Konzepten und Begriffen in Data Science, Statistik und der Datenanalyse vertraut gemacht werden und lernen erste explorative Analysen in verschiedenen Datensituationen durchzuführen.
Themenschwerpunkte Teil 1: Grundlagen der Statistik und Datenanalyse in R
Definition von Data Science und weiterer Grundbegriffe
Einführung in ggplot2 zur Visualisierung von Daten
Univariate Deskriptive Statistik und Datenvisualisierung in R: Häufigkeitstabellen, Balkendiagramme, Histogramme, Kerndichteschätzung, Boxplots, Dichten und Verteilungen, QQ-Plots, etc.
Multivariate Deskriptive Statistik und Datenvisualisierung in R: Kreuztabellen, Scatter-Plots, Korrelation
Themenschwerpunkte Teil 2: Statistische Inferenz und Modellierung in R
Einführung in die statistische Inferenz: Punktschätzung, Intervallschätzung und Konfidenzintervalle
Statistische Hypothesentests:
Motivation und Übersicht: Einstichproben vs. zweistichproben Test, einseitiger vs. zweiseitiger Test, gepaarter vs. ungepaarter Tests
Interpretation der Ergebnisse und Begriffserklärung: Signifikanzniveau, p-Wert, Teststatistik, etc.
Behandelte Tests: t-Test, Welch-Test (Test auf Mittelwertunterschiede), Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest, Shapiro-Wilk-Test (Test auf Normalverteilung), Kolmogoroff-Smirnow-Test (Test auf beliebige Verteilungen)
Multiples Testen: Probleme und Lösungsansätze (z.B. Bonferroni Korrektur)
Statistische Modellierung:
Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Einflussgrößen.
Modellevaluation und Modelldiagnose: MSE, R-squared, QQ-plots und Residuenanalyse
Ausblick: Generalisierte lineare Modelle (engl. generalized linear models) mit Fokus auf logistische Regression
Voraussetzungen: Kenntnisse in R (etwa im Umfang von Modul 1)
Modul 3: Supervised Machine Learning in R (2-tägig)
Kursteilnehmer lernen die wichtigsten Konzepte und Begriffe des maschinellen Lernens und werden inverschiedene Algorithmen des überwachten maschinellen Lernens eingeführt. Zudem werden weitere fortgeschrittene Konzepte für (überwachtes) maschinelles Lernen vermittelt um praktische Probleme besser und effizienter lösen zu können.
Themenschwerpunkte Teil 1: Einführung in Machine Learning und Predictive Modeling
Allgemeine Fragestellungen im maschinellen Lernen (Regression, Klassifikation, Clustering, …)
Einführung allgemeiner Begriffe (Verlustfunktion, Risikominimierung, Overfitting, Hyper- und Modelparameter, Training- und Testdaten, …)
Lineare und Logistische Regression aus der Perspektive des maschinellen Lernens
K-nächste Nachbarn Verfahren
Wichtige Evaluationmaße für Regression und Klassifikation und deren Eigenschaften
Resampling Methoden (Kreuzvalidierung, Bootstrap, …) und deren Vor- und Nachteile
Themenschwerpunkte Teil 2: Praktisches Machine Learning - Evaluation und Tuning
Funktionsweise wichtiger Machine Learning Algorithmen:
Regressions- und Klassifikationsbäume
Random Forests, ggf. Ausblick auf (Gradienten) Boosting
Hyperparameter Optimierung (Zufallssuche und Gittersuche)
Genestete Kreuzvalidierung zur optimalen Modellwahl
Fallstricke und praxisrelevante Tipps bei der Modell-Evaluation und Modellwahl
Voraussetzungen: Kenntnisse in R und in der Datenanalyse / Statistik (etwa im Umfang von Modul 1 und 2)
Allgemeine Kursinformationen:
Kurssprache: Wenn nicht anders erwähnt Deutsch, Kursunterlagen: Englisch.
R Kurse: Sie benötigten R (ab Version 3.6.0: https://cran.r-project.org), RStudio (https://www.rstudio.com/products/rstudio) und ausreichend Berechtigungen um Zusatzpakete in R installieren zu können (z.B. mit dem Befehl install.packages).
Webinar-Tool: Zoom-Software, was mittels Breakout Sessions (virtuelle Kursräume) Gruppenarbeit und individuelle Betreuung ermöglicht. Eine Teilnahme ist auch ohne zusätzliche Installation der Zoom-Software möglich (siehe Zoom per Internetbrowser).