Seminar - Essential Data Science Training GmbH
Datenmanipulation und Verarbeitung kann oft eine der zeitaufwendigsten Tätigkeiten in einer statistischen Analyse sein. In diesem Kurs werden Fähigkeiten vermittelt um effizient auch mit größeren Datenmengen in R arbeiten zu können. Nach dem Kurs sollen Teilnehmer in der Lage sein effizient in R arbeiten zu können, sowie Datenvorverarbeitung klarer, einfacher und schneller durchführen zu können.
Termin | Ort | Preis* |
---|---|---|
auf Anfrage | auf Anfrage | auf Anfrage |
Themenschwerpunkte Teil 1: Effiziente Datenverarbeitung in R
Kurzer Überblick wichtiger R packages für fortgeschrittene Datenanalyse
Schnelle und intuitive Datenmanipulation mit dem dplyr Package:
Wenn viele Datenvorverarbeitungsschritte nacheinander durchgeführt werden, wird Programmcode schnell unübersichtlich und ineffizient (z.B. durch abspeichern unnötiger Zwischenschritte). Das dplyr Package erlaubt sog. chaining-Operatoren, womit R Code wesentlich effizienter und übersichtlicher dargestellt werden kann.
Split / Apply / Combine in R: Allgemeinen Vorgang einen Datensatz in kleine Teildatensätze aufzuteilen, auf jedem Teildatensatz Operationen auszuführen und die Ergebnisse wieder zusammenzufügen.
Datenbanken in R
Einführung in das DBI package und der Nutzung von SQL Anfragen direkt in R
Vereinfachte Datenbankanbindung mit dplyr und dbplyr
Kurzer Ausblick zu weiteren R Paketen für spezielle Datenbanken
Automatisierte Berichterstellung, Reporting und literate Programming
Einführung in die Markdown Syntax mit Hilfe der Erweiterungspakete rmarkdown bzw. knitr.
Automatisierte Erstellung von dynamischen Berichten und Präsentationen, um wiederkehrende Analysen zeitsparend zu produzieren und voll reproduzierbar zu gestalten.
Professionelle Präsentation von Analyseergebnissen durch das gleichzeitige Einbinden von Grafiken, Tabellen und R-Code in Berichten ohne Copy & Paste, z.B. in Dateiformate wie PDF, Word oder HTML.
Themenschwerpunkte Teil 2: Fortgeschrittene R Programmierung
Programming with R: Basics
Anwenden von Kontrollstrukturen (if, else) für bedingte Anweisungen (sog. WENN-DANN-SONST Funktionalität).
Anwenden von Schleifen (for, while) und apply Funktionen für das effiziente Ausführen von repetitiven und iterativem R-Code.
Debugging, Exception und Error Handling
Einführung in die objektorientierte Programmierung mit R mit den beiden beliebtesten Klassensystemen S3 und R6.
Effizientes Arbeiten mit tabularen Daten und dem data.table Package: Filtering, Selecting, Grouping, Reshaping.
Effiziente Datenverarbeitung mit funktionaler Programmierung und dem purrr Package: Arbeiten mit Listen und genesteten Datenstrukturen.
Parallelisierung von R Code
Voraussetzungen:
Kenntnisse in R
Allgemeines Grundverständnis in der Datenanalyse / Statistik
Allgemeine Kursinformationen:
Kurssprache: Wenn nicht anders erwähnt Deutsch, Kursunterlagen: Englisch.
R Kurse: Sie benötigten R (ab Version 3.6.0: https://cran.r-project.org), RStudio (https://www.rstudio.com/products/rstudio) und ausreichend Berechtigungen um Zusatzpakete in R installieren zu können (z.B. mit dem Befehl install.packages).
Webinar-Tool: Zoom-Software, was mittels Breakout Sessions (virtuelle Kursräume) Gruppenarbeit und individuelle Betreuung ermöglicht. Eine Teilnahme ist auch ohne zusätzliche Installation der Zoom-Software möglich (siehe Zoom per Internetbrowser).