Seminare
Seminare

Web Scraping und Web-Crawler mit Python - Grundlagen

Seminar - GFU Cyrus AG

In diesem 3-tägigen Seminar erlernen Sie die Grundlagen, um Rohdaten aus dem Web zu extrahieren und in ein maschinenlesbares Format zu bringen.

Sie lernen Python als einsteigerfreundliche und einfache Skript- und Programmiersprache einzusetzen.
Termin Ort Preis*
firmenintern auf Anfrage auf Anfrage
*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

Diese Agenda ist auch Bestandteil des Kurses





  • Einrichten der Entwicklungsumgebung
    • Anlegen der Ordnerstruktur
    • Einrichten der IDE VSCode
    • Virtuelle Umgebung und installieren der nötigen Software

  • Grundlagen
    • Python Wiederholung (Datentypen, Funktionen, Generatoren, OOP)
    • Einführung in Pandas
    • Einführung HTTP, HTML, CSS und DOM
    • Einführung JSON
    • Client-Server Architektur
    • Was ist denn eigentlich Scraping genau?
    • Webscraping ist NICHT Data-Mining

  • Web Scraping, erste Schritte
    • ethische und rechtliche Grenzen, Drosselung
    • die robots.txt Datei
    • Installieren von Beautiful Soup und der requests Bibliothek
    • Parsen einer einfachen Webseite 
    • Medien, Texte, Bilder und URLs extrahieren
    • Speichern der Informationen in einer CSV-Datei
    • Speichern der Informationen in einer Json-Datei
    • Speichern in einer Datenbank
    • Probleme erkennen: dynamische Webseiten, JavaScript, das DOM

  • HTML Vertiefung
    • Attribute, verschachtelte Strukturen
    • HTML als Baumstruktur, Knoten, Kanten
    • eine kleiner Exkurs über ascii, utf8 und den Zeichenkodierungs-Dschungel

  • Web Scraping, erweitert
    • eine URL-Liste abarbeiten
    • URLs extrahieren und URL-liste abarbeiten
    • einen Katalog nach Titeln parsen
    • einen Webshop nach Artikeln und Preisen parsen
    • Bilder runterladen, komprimieren und auf der HD speichern
    • Tabellen auslesen
    • Daten in einem Pandas Dataframe darstellen
    • Umgang mit fehlerhaften Daten




Zielgruppe:
Dieses Seminar richtet sich an Entwickler:innen, Data-Scientists, Machine Learner, Wissenschaftler:innen, Marketing Expert:innen und Analysten, die das Web gezielt und effizient nach Informationen durchsuchen und diese Daten extrahieren wollen.

Grundlegende Python-Kenntnisse und OOP sind von Vorteil, aber kein Muss.
Seminarkennung:
S2606
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha