Installieren von Beautiful Soup und der requests Bibliothek
Parsen einer einfachen Webseite
Medien, Texte, Bilder und URLs extrahieren
Speichern der Informationen in einer CSV-Datei
Speichern der Informationen in einer Json-Datei
Speichern in einer Datenbank
Probleme erkennen: dynamische Webseiten, JavaScript, das DOM
HTML Vertiefung
Attribute, verschachtelte Strukturen
HTML als Baumstruktur, Knoten, Kanten
eine kleiner Exkurs über ascii, utf8 und den Zeichenkodierungs-Dschungel
Web Scraping, erweitert
eine URL-Liste abarbeiten
URLs extrahieren und URL-liste abarbeiten
einen Katalog nach Titeln parsen
einen Webshop nach Artikeln und Preisen parsen
Bilder runterladen, komprimieren und auf der HD speichern
Tabellen auslesen
Daten in einem Pandas Dataframe darstellen
Umgang mit fehlerhaften Daten
4.-5. Tag auch separat buchbar als:
xPath und Selenium
Grundlagen von xPATH
Installieren der Firebug und Firepath Extension
Selenium installieren, Chrome Webdriver festlegen, erste Schritte
Scrapen dynamischer Webseiten mit Selenium
Headless Selenium
Ausfüllen von Inputfeldern und Ergebnisse parsen
hinter passwortgeschützten Bereichen arbeiten
Scrapy und Spider Installieren und Programmieren
Installieren von Scrapy
einen ersten Spider bauen
einen Spider programmieren, der Seiten einer ganze Domain einlesen kann
Pydantic installieren und Modelle entwerfen
Daten in einer Sqlite Datenbank speichern
Zielgruppe:
Dieses Seminar richtet sich an Entwickler, Data-Scientists, Machine Learner, Wissenschaftler, Marketing Experten und Analysten die das Web gezielt und effizient nach Informationen durchsuchen und diese Daten extrahieren wollen.
Grundlegende Python-Kenntnisse und OOP sind von Vorteil, aber kein Muss.
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern.
Diese Cookies werden nicht automatisiert gesetzt.
Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren.
Weitere Informationen finden Sie hier.