Modul 1: Thematische Einführung und methodische Grundlagen zu Data Science und Einführung in KNIME
Woher kommt Data Science?
- Was ist Supervised und Unsupervised Learning?
- Statistische Grundlagen, die für maschinelles Lernen und Data Science unerlässlich sind.
- Einführung in die Konzepte der Regression, Klassifikation und Clustering.
- Grundsätzliches zum Training und Testing von Machine-Learning-Modellen (Stichproben).
- Beliebte Fehler beim Machine Learning.
Identifikation potenzieller Einsatzfelder (z.B. in Controlling, Marketing, Sales, Produktion).
Der Datenanalyse-Prozess
Wichtige Rollen in Data-Science-Projekten (Citizen Data Scientist, Product Owner etc.).
Wichtigste Projektmanagementmethode CRISP-DM als Standard in der Datenanalyse.
- Business Understanding: Ziele, Anforderungen, Fragen.
- Data Understanding: Datenstruktur und Datenqualität.
- Data Preparation: Daten bereinigen, filtern, formatieren.
- Modeling: Datenmodelle entwickeln und validieren.
- Evaluation: Modelle überprüfen und an Geschäftszielen ausrichten.
- Deployment: Modelle für die Datenanalyse in Betrieb nehmen.
- Re-Training von Machine-Learning-Modellen.
KNIME Analytics Platform
- Grundlagen.
- Arbeiten mit der Software.
- Import gängiger Fileformate und Anbindung an Quellsysteme.
- Zusammenführung mehrerer Datenquellen (… und Bereinigung).
- Explorative Datenanalyse und Visualisierung.
Modul 2: Daten verstehen, transformieren und nutzen
Konzepte und Prozesse der Datenbearbeitung
Praktische Übungen mit KNIME
- Datenbereinigung und Datenqualität.
- Reorganisation des Datensatzes.
- Metriken der deskriptiven Statistiken.
- Daten transformieren.
- Berechnungen einbinden.
Aufgabe: Selbstständiges Lösen einer Aufgabe mit KNIME in Vorbereitung auf Modul 3.
Modul 3: Maschinelles Lernen
Feedback zur selbstständigen Aufgabe aus Modul 2
Umgang mit Daten und was dabei beachtet werden muss
- Bewertung der Modelle (Overfitting, Underfitting, Data Leakage etc.).
- Modellanwendung, operationalisieren von ML-Learning.
- Export der Ergebnisse in verschiedene Formate.
- Datensicherung und weitere Verwendung.
- Bereitstellung von Daten für andere Tools.
Einblick in wesentliche Verfahren anhand von Fallstudien
- Erläuterung der gängigsten Machine-Learning-Verfahren.
- Zeitreihenanalysen.
- Praktische Übungen mit KNIME.
- Übung zum Clustering von Kundensegmenten.
- Übung zu Prognoseverfahren.
- Best Practice zur Gestaltung von Data Science Projekten.
Ausblick und organisatorische Maßnahmen.