Detaillierte Informationen zum Seminar
Inhalte:
Das dreitägige Seminar schafft einen kompakten und umfangreichen Einstieg in die Data Science- und Programmiersprache Python. Die Teilnehmenden sind anschließend in der Lage, Python selbstständig für Datenanalysen im Unternehmen zu nutzen. Das Seminar umfasst hierbei eine Einführung in die Datenstruktur DataFrame vom Paket pandas (effizient Daten anpassen und verändern), Daten aus flat files (csv) einlesen bzw. schreiben, Visualisierung mit matplotlib und seaborn, erste eigene Funktionen schreiben und enthält einen Einstieg in Machine Learning mit den Algorithmen Entscheidungsbaum, K-Nearest Neigbhor, einem einfachen Neuronalen Netz und den Cluster Verfahren K-Means und DBSCAN.
Konkrete Inhalte sind:
- Grundlagen von Python
- Einführung in das Data Science Paket pandas und dem DataFrame
- Daten aus flat files (csv, txt, excel) einlesen und schreiben
- Daten anpassen, konvertieren, modellieren
- Visualisierung von Daten mit seaborn
- Erste Supervised Algorithmen aus dem Machine Learning
- Clustering Algorithmen (K-Means, DBSCAN)
Dieses Seminar ist sehr praxisorientiert. Die Teilnehmer arbeiten direkt und selbstständig mit der Programmiersprache Python in der Entwicklungsumgebung Spyder, so dass das Erlernte direkt geübt und vertieft werden kann. Der Trainer moderiert dabei verschiedene Aufgaben und begleitet die Teilnehmer durch die einzelnen Lehreinheiten.
Die Bitkom Akademie bietet ein zweitägiges Vertiefungsseminar zu Machine Learning an. Weitere Informationen zu Supervised & Unsupervised Machine Learning finden Sie hier.
Dauer/zeitlicher Ablauf:
3 Tage
Ziele/Bildungsabschluss:
- Sie erhalten eine umfassende Einführung in die wichtigsten Grundlagen der Programmiersprache Python: anhand eines durchgehenden Fallbeispiels erlernen Sie, wie Daten eingelesen, verarbeitet, aufbereitet und schließlich visualisiert werden.
- Das Seminar führt in die bekannte Bibliothek pandas ein, welche bei Data Scientists für die Datenanalyse sehr beliebt ist.
- Sie erhalten erste Einblicke in drei Machine Learning Algorithmen (Lineare Regression, Entscheidungsbaum, K-Means Clustering), welche in Python umgesetzt werden, um Ergebnisse aus Data Science-Analysen auswerten zu können.
- Sie sind anschließend in der Lage, Grundlagen von Python selbstständig für unternehmenseigene Zwecke zu nutzen, können Ihre eigenen ersten Datenanalysen durchführen und wissen, wie Sie weitergehende Algorithmen und Methoden in Python finden.
Teilnahmevoraussetzungen:
Die Teilnehmenden benötigen keine Erfahrung mit Python, sollten aber bereits Erfahrung mit einer Programmiersprache (z.B. VBA, Java, C, R, etc.) gemacht haben, um das Grundkonzept einer Programmiersprache zu verstehen (Variable in einer Programmiersprache, Zuweisung von Werten zu einer Variablen, Aufrufen von Funktionen, Parameter einer Funktion).
Sehr hilfreich sind grundlegende Vorkenntnisse im Bereich der Statistik (Begriffsdefinitionen wie bspw. Mittelwert, Median, Standardabweichung, Quantil, Dichtefunktion, Normalverteilung), Kenntnisse grundlegender mathematischer Symbole und Begriff (Summenzeichen, Integral, Funktion, Ableitung, Menge der natürlichen und reellen Zahlen, Vektor, Matrix) und Kenntnis der booleschen Algebra mit den logischen Operatoren (UND, ODER, NICHT).
Technische Voraussetzungen:
- Die Teilnehmer sollten vorab prüfen, ob firmeneigene Laptops Zugangsbeschränkungen beim Herunterladen von Dateien und Programmen haben, die der Referent bereitstellt. Die digitalen Unterlagen (Skript, Code, Dateien) werden über eine Cloud zur Verfügung gestellt. Die Einwahl in fremde WLAN-Netze sollte daher möglich sein.
- Im Idealfall ist der USB Port der Teilnehmer-Laptops freigeschalten, so dass als Backup Pakete, verwendete Daten oder sonstige Unterlagen per USB-Stick übertragen werden können.
- Bitte stellen Sie sicher, dass Sie mit dem Betriebssystem (Windows, Mac OS, Linux), mit dem Sie arbeiten, vertraut sind.
Lehrgangsverlauf/Methoden:
Tag 1
- Begrüßung durch den Seminarleiter
- Vorstellungsrunde & Erwartungshaltung der Teilnehmer
- Hintergrund von Python
- Anwendungsmöglichkeiten von Python
- Installieren von Paketen
- Die Entwicklungsumgebung Jupyter Lab
- Aspekte von Python, welche von anderen Programmiersprachen abweichen
- Einführung in das Data Science Paket pandas
- Elemente eines pandas data.frame
- Eine Zeile oder Spalte auswählen, hinzufügen und verändern
- Boolean indexing
- Ein leeres data.frame erstellen
- Grundlegende Statistiken mit pandas
- Statistiken mit einem data.frame berechnen (Anzahl an Beobachtungen, Summe, Mittelwert, Median, Minimum, Maximum, Varianz,…)
- Methoden im data.frame, um einen Überblick der Daten zu erhalten
- Kreuztabelle (Kontingenztafel)
- Auswertungen nach einer Variable gruppieren
- Fehlende Werte löschen oder ergänzen
- Daten einlesen
- Arbeitsverzeichnis setzen
- Eine CSV Datei einlesen / schreiben
- Überblick über nützliche Parameter beim Lesen und Schreiben
- Große Dateien mit dem Paket pandas einlesen
- Das pickle modul zum Speichern von Python Objekten
Tag 2
- Control Flows
- Die range() Funktion
- Eine eigene Funktion schreiben und default Parameter setzen
- For Schleifen, If-Else Bedingungen
- List comprehension
- Logische Vergleichsoperatoren
- Visualisierung mit matplotlib und pandas
- Die Hauptelemente beim Plotten
- Einen Plot anpassen (x- und y-Achse ändern, Beschriftungen, Legende und Titel) und speichern
- Auswahl von Farben
- Subplots in einer Grafik erstellen
- Erstellen von Scatterplot, Linienplot, Barplot, (gruppiertes) Histogram, Boxplot
- String Manipulation mit pandas; Einführung numpy
- Information aus Text in einem DataFrame extrahieren
- Text verändern und anpassen
- Grundlagen von numpy, das die Basis von pandas ist
- Machine Learning
- Begriffserklärungen (Machine Learning, Deep Learning, Künstliche Intelligenz)
- Einteilung von Machine Learning Algorithmen (Supervised vs. Unsupervised Learning)
- Train-Test Split der Daten
- Schritte beim Trainieren eines Machine Learning Algorithmus
- Overfitting
- One-Hot Encoding
Tag 3
- Entscheidungsbaum
- Einführung in den Algorithmus
- Einen Entscheidungsbaum in Python umsetzen
- Erste Ergebnisse validieren
- K-Nearest Neighbor und Neuronale Netze
- K-Nearest Neighbor in Python trainieren
- Ein einfaches Neuronales Netz in scikit-learn umsetzen
- Ergebnisse validieren
- K-Means Clustering
- Einführung in den Algorithmus
- Den K-Means Algorithmus in Python umsetzen
- Güte von Cluster Ergebnissen einschätzen
- DBSCAN
- Einführung in den Cluster Algorithmus
- DBSCAN mit scikit-learn in Python umsetzen
- Ergebnisse validieren
Förderung:
Die Bitkom Akademie ist anerkannter Bildungsträger in
Baden-Württemberg und
Nordrhein-Westfalen. Teilnehmer haben im Rahmen des Bildungszeitgesetzes die Möglichkeit, Bildungsurlaub bzw. eine Bildungsfreistellung zu beantragen. Auf Anfrage erstellen wir auch Anträge auf Anerkennung unserer Veranstaltungen in anderen Bundesländern.
Zielgruppe:
Das Seminar richtet sich an angehende
Data Scientists, BI-Analysts und Datenanalysten und an der Programmierung in Python interessierte Fachkräfte bzw. Projektleiter, welche schon erste Programmiererfahrung in Python haben und die Grundlagen der Programmiersprache Python für Data Science-Projekte erlernen möchten, um damit eigenständig an data mining Projekten mitzuwirken oder Python Code besser verstehen zu können.