Detaillierte Informationen zum Seminar
Inhalte:
Grundlegende Konzepte in Python:
- Installation neuer Pakete
- Verwendung von PyCharm als integrierter Entwicklungsumgebung (IDE)
- Unterschiede in Funktionen und Methoden
- Vergleich wichtiger Python-Aspekte mit anderen Programmiersprachen
Arbeiten mit dem pandas-Paket und DataFrames:
- Struktur eines DataFrames (Zeilen, Spalten)
- Auswahl von Zeilen und Spalten
- Erstellen, Löschen und Ändern von Zeilen und Spalten
- Verwendung von Boolean-Indexing zur Zeilenauswahl anhand logischer Abfragen
- Zusammenfassung von Daten für einen Überblick
Berechnung von Statistiken direkt in pandas DataFrames:
- Durchführung einfacher Statistiken direkt auf DataFrames (Durchschnitt, Minimum, Maximum, Summe, Median, Varianz usw.)
- Aggregation und Filterung von Daten
- Ersetzen von fehlenden Werten
- Erstellung von Kreuztabellen (Kontingenztabellen)
Datenverarbeitung: Einlesen und Schreiben von Daten:
- Festlegung des Arbeitsverzeichnisses in Python und der IDE Spyder
- Einlesen und Schreiben von CSV- und Excel-Dateien
- Datenimport von einer URL
- Übersicht über nützliche Parameter
- Lesen und Schreiben im Python-Format ”pickle”
- Handhabung großer Datensätze
Kontrollstrukturen:
- Erstellung eigener Funktionen
- Festlegung von Standardparametern in Funktionen (Positional Arguments und Keyword Arguments)
- Anwendung von For-Schleifen
- Implementierung von If-Else-Bedingungen
- Verwendung von List Comprehensions mit If-Else
Datenvisualisierung mit seaborn/matplotlib:
- Grundlegende Aspekte von matplotlib
- Anpassung von Achsenbeschriftung, Legende und Titel
- Speichern von Diagrammen
- Erstellung von Diagrammtypen wie Linien-, Box-, Histogramm-, Scatter- und Balkendiagrammen in seaborn
- Variation oder Festlegung von Darstellungsmerkmalen (Punktgröße, Farbe, Gruppierung) durch eine Variable
Textmanipulation im DataFrame und Einführung in numpy:
- Zeilenweise Textbearbeitung in DataFrames
- Extraktion von Informationen aus Texten
- Erstellung von numpy-Arrays und Slicing nach Zeilen und Spalten
- Anwendung von Funktionen auf numpy-Arrays
Überblick über Machine Learning:
- Einführung in das Konzept des Machine Learnings
- Praktische Anwendungsbeispiele
- Unterscheidung von künstlicher Intelligenz, Machine Learning und Deep Learning
- Erklärung des Unterschieds zwischen überwachtem und unüberwachtem Lernen
- Besprechung von Overfitting, Train-Test-Split und Kreuzvalidierung
Entscheidungsbaum mit scikit-learn:
- Datenaufteilung in Test- und Trainingsdaten, Modellerstellung und Validierung
- Grundlagen des Entscheidungsbaum-Algorithmus
- Umsetzung in Python
- Ergebnisvalidierung (u. a. Verwirrungsmatrix, Sensitivität, Genauigkeit)
- Anpassung von Hyperparametern während des Trainings
Neuronales Netz und K-Nearest Neighbor:
- Grundlagen dieser Algorithmen
- Training eines Multi-Layer-Perceptrons (MLP)
- Umsetzung in Python mit scikit-learn
- Ergebnisvalidierung (u. a. Verwirrungsmatrix, Sensitivität, Genauigkeit)
- Anpassung von Hyperparametern
K-Means Clustering:
- Erstellung und Validierung eines Cluster-Modells
- Grundlagen des K-Means-Algorithmus
- Umsetzung in Python mit scikit-learn
- Ergebnisvalidierung
Clustering mit DBSCAN:
- Funktionsweise des DBSCAN-Clustering-Algorithmus
- Worin liegt der Unterschied zu K-Means?
- Umsetzung in Python mit scikit-learn
- Ergebnisvalidierung (Sillhouette Score, Calinski-Harabasz)
Zielgruppe:
ZielgruppeDer Python Data Science Kurs richtet sich an Teilnehmer, die Python erlernen möchten, um Daten zu analysieren und Machine Learning Algorithmen zu programmieren. Dieser Kurs ist ideal für Anwender, die die Grundlagen der Data Science erlernen möchten.VoraussetzungenUm die Grundlagen der Data Science in Python zu erlernen, ist es nicht erforderlich, bereits Kenntnisse in Python zu besitzen. Es wird jedoch empfohlen, über Grundkenntnisse in einer anderen Programmiersprache zu verfügen, um mit Begriffen wie Variablen, Funktionen und Schleifen vertraut zu sein.
Das Data Science Seminar behandelt Machine Learning-Algorithmen, die auf statistischen Verfahren basieren. Daher sind grundlegende Kenntnisse der Statistik erforderlich. Sie sollten mit Begriffen wie Mittelwert, Median, Standardabweichung und Normalverteilung vertraut sein. Auch mathematische Symbole wie das Integral oder das Summenzeichen sowie Konzepte wie Funktionen und Ableitungen werden empfohlen. Es werden auch logische Operatoren wie Und, Oder und Nicht kurz verwendet.
Die Teilnehmer sollten bereits Erfahrung im Umgang mit Daten haben, z. B. in Excel oder einer BI-Software, um mit Konzepten wie spaltenweisen Berechnungen und einfachen Statistiken (Mittelwert, Varianz) vertraut zu sein.
Der Unterricht findet auf Deutsch statt, während die Folien auf Englisch sind, da Python und die Dokumentation der Pakete sowie Fachbegriffe des Machine Learnings auf Englisch sind. Es ist daher wichtig, dass ein englischer Text verstanden werden kann, um dem Seminar folgen zu können.