Seminare
Seminare

Web Scraping und Web-Crawler mit Python - Komplett

Seminar - GFU Cyrus AG

In diesem 5-tägigen Seminar erlernen Sie, wie Sie Rohdaten aus dem Web extrahieren und in ein Maschinenlesbares Format bringen können.

Python wird als einsteigerfreundliche und einfache Skript- und Programmiersprache eingesetzt und Ihnen beigebracht.
Termin Ort Preis*
firmenintern auf Anfrage auf Anfrage
*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

1.-3. Tag auch separat buchbar als: 







  • Einrichten der Entwicklungsumgebung
    • Anlegen der Ordnerstruktur
    • Einrichten der IDE VSCode
    • Virtuelle Umgebung und installieren der nötigen Software

  • Grundlagen
    • Python Wiederholung (Datentypen, Funktionen, Generatoren, OOP)
    • Einführung in Pandas
    • Einführung HTTP, HTML, CSS und DOM
    • Einführung JSON
    • Client-Server Architektur
    • Was ist denn eigentlich Scraping genau?
    • Webscraping ist NICHT Data-Mining

  • Web Scraping, erste Schritte
    • ethische und rechtliche Grenzen, Drosselung
    • die robots.txt Datei
    • Installieren von Beautiful Soup und der requests Bibliothek
    • Parsen einer einfachen Webseite 
    • Medien, Texte, Bilder und URLs extrahieren
    • Speichern der Informationen in einer CSV-Datei
    • Speichern der Informationen in einer Json-Datei
    • Speichern in einer Datenbank
    • Probleme erkennen: dynamische Webseiten, JavaScript, das DOM

  • HTML Vertiefung
    • Attribute, verschachtelte Strukturen
    • HTML als Baumstruktur, Knoten, Kanten
    • eine kleiner Exkurs über ascii, utf8 und den Zeichenkodierungs-Dschungel

  • Web Scraping, erweitert
    • eine URL-Liste abarbeiten
    • URLs extrahieren und URL-liste abarbeiten
    • einen Katalog nach Titeln parsen
    • einen Webshop nach Artikeln und Preisen parsen
    • Bilder runterladen, komprimieren und auf der HD speichern
    • Tabellen auslesen
    • Daten in einem Pandas Dataframe darstellen
    • Umgang mit fehlerhaften Daten





4.-5. Tag auch separat buchbar als: 







  • xPath und Selenium
    • Grundlagen von xPATH
    • Installieren der Firebug und Firepath Extension
    • Selenium installieren, Chrome Webdriver festlegen, erste Schritte
    • Scrapen dynamischer Webseiten mit Selenium
    • Headless Selenium
    • Ausfüllen von Inputfeldern und Ergebnisse parsen
    • hinter passwortgeschützten Bereichen arbeiten

  • Scrapy und Spider Installieren und Programmieren
    • Installieren von Scrapy
    • einen ersten Spider bauen
    • einen Spider programmieren, der Seiten einer ganze Domain einlesen kann
    • Pydantic installieren und Modelle entwerfen
    • Daten in einer Sqlite Datenbank speichern




Zielgruppe:
Dieses Seminar richtet sich an Entwickler, Data-Scientists, Machine Learner, Wissenschaftler, Marketing Experten und Analysten die das Web gezielt und effizient nach Informationen durchsuchen und diese Daten extrahieren wollen.

Grundlegende Python-Kenntnisse und OOP sind von Vorteil, aber kein Muss.
Seminarkennung:
S2605
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha