Seminar - Essential Data Science Training GmbH
Der 5-tägige Data Analysis Bootcamp in R vermittelt in einzeln buchbaren Modulen Grundkenntnisse in R (Modul 1), praktisches Wissen zur deskriptiven Datenanalyse, der statisischen Inferenz und Modellierung in R (Modul 2), sowie fortgeschrittene Kenntnisse zur effizienten Nutzung von R (Modul 3).
Ziel: Vermittlung von theoretischen Statistik-Kenntnissen sowie technischen und praktischen Wissen in R. Dies soll es den Teilnehmern erleichtern, in ihrem Arbeitsalltag eigene Analysen und Projekte zielgerichteter und effizienter bearbeiten zu können, ohne sich tagelang selber in bestimmte Themen einarbeiten zu müssen. Zudem werden in den einzelnen Themenblöcken hilfreiche Zusatzpakete in R empfohlen, deren Nutzung oft unnötige Programmierarbeit, zusätzliche Recherchen und Anfängerfehler ersparen können.
Termin | Ort | Preis* |
---|---|---|
23.06.2025- 27.06.2025 | online | 2.380,00 € |
23.06.2025- 27.06.2025 | München | 2.380,00 € |
auf Anfrage | auf Anfrage | auf Anfrage |
Modul 1: R Crashkurs (1-tägig)
In diesem Tag werden Grundkenntnisse der Programmiersprache R vermittelt. Der Fokus liegt dabei auf die technische Einführung in R, das Erlernen der grundlegenden R-Syntax und das Arbeiten mit R zur Datenanalyse. Dieser Kurs ist sowohl für Teilnehmer ohne R Kenntnisse als auch zur Auffrischung der Grundlagen in geeignet.
Themenschwerpunkte:
Arbeiten mit R und R Studio, eine der beliebtesten und mächtigsten graphischen Benutzeroberfläche (GUIs) für R.
Installation und Nutzung von Erweiterungspaketen in R.
Einführung in Hilfeseiten und Tipps zur Selbsthilfe.
Erläuterung der wichtigsten Datentypen, Operatoren (arithmetische und logische Operatoren) und Funktionen in R.
Import und Export von Daten (z.B. Dateiformate wie CSV, Excel etc.)
Arbeiten mit Dataframes und Vektoren (numeric, logical, character, factors), z.B. das Indizieren, Aufteilen und Umwandeln von Variablen bzw. Datensätzen.
Berechnen von einfachen statistischen Kennzahlen in R (z.B.: Median, Mittelwert, Quantile, Varianz, etc.).
Voraussetzungen: keine
Modul 2: Praktische Datenanalyse in R (2-tägig)
Kursteilnehmer sollen mit den wichtigsten Konzepten und Begriffen in Data Science, Statistik und der Datenanalyse vertraut gemacht werden und lernen erste explorative Analysen in verschiedenen Datensituationen durchzuführen.
Themenschwerpunkte Teil 1: Grundlagen der Statistik und Datenanalyse in R
Definition von Data Science und weiterer Grundbegriffe
Einführung in ggplot2 zur Visualisierung von Daten
Univariate Deskriptive Statistik und Datenvisualisierung in R: Häufigkeitstabellen, Balkendiagramme, Histogramme, Kerndichteschätzung, Boxplots, Dichten und Verteilungen, QQ-Plots, etc.
Multivariate Deskriptive Statistik und Datenvisualisierung in R: Kreuztabellen, Scatter-Plots, Korrelation
Themenschwerpunkte Teil 2: Statistische Inferenz und Modellierung in R
Einführung in die statistische Inferenz: Punktschätzung, Intervallschätzung und Konfidenzintervalle
Statistische Hypothesentests:
Motivation und Übersicht: Einstichproben vs. zweistichproben Test, einseitiger vs. zweiseitiger Test, gepaarter vs. ungepaarter Tests
Interpretation der Ergebnisse und Begriffserklärung: Signifikanzniveau, p-Wert, Teststatistik, etc.
Behandelte Tests: t-Test, Welch-Test (Test auf Mittelwertunterschiede), Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest, Shapiro-Wilk-Test (Test auf Normalverteilung), Kolmogoroff-Smirnow-Test (Test auf beliebige Verteilungen)
Multiples Testen: Probleme und Lösungsansätze (z.B. Bonferroni Korrektur)
Statistische Modellierung:
Das lineare Regressionsmodell mit Erweiterungen wie multipler Regression und Verwendung von kategorischen Einflussgrößen.
Modellevaluation und Modelldiagnose: MSE, R-squared, QQ-plots und Residuenanalyse
Ausblick: Generalisierte lineare Modelle (engl. generalized linear models) mit Fokus auf logistische Regression
Voraussetzungen: Kenntnisse in R (etwa im Umfang von Modul 1)
Modul 3: Effiziente Datenverarbeitung und Programmierung in R (2 Tage)
Lerne, wie du Daten in R effizient verarbeitest und programmierst, um Zeit bei statistischen Analysen zu sparen. Dieser Kurs vermittelt Fähigkeiten, um auch mit großen Datensätzen klarzukommen und Datenvorverarbeitung schneller durchzuführen.
Inhalt:
Voraussetzungen:
Allgemeine Kursinformationen:
Kurssprache: Wenn nicht anders erwähnt Deutsch, Kursunterlagen: Englisch.
R Kurse: Sie benötigten R (ab Version 3.6.0: https://cran.r-project.org), RStudio (https://www.rstudio.com/products/rstudio) und ausreichend Berechtigungen um Zusatzpakete in R installieren zu können (z.B. mit dem Befehl install.packages).
Webinar-Tool: Zoom-Software, was mittels Breakout Sessions (virtuelle Kursräume) Gruppenarbeit und individuelle Betreuung ermöglicht. Eine Teilnahme ist auch ohne zusätzliche Installation der Zoom-Software möglich (siehe Zoom per Internetbrowser).