Am Ende des Seminars sind die Teilnehmenden in der Lage, SRE-Praktiken effektiv zu nutzen, um die Zuverlässigkeit, Skalierbarkeit und Sicherheit ihrer Systeme zu verbessern. Sie lernen, wie sie Projekte planen, entwickeln, integrieren und testen, um verschiedene Anforderungen abzudecken und die Systemleistung zu optimieren.
Was ist SRE und warum ist es wichtig? Historische Entwicklung und Hauptmerkmale
Kerngedanken hinter SRE, Unterschiede zu traditionellen Operations- und DevOps-Ansätzen
Typische Anwendungsbereiche und Szenarien, in denen SRE eingesetzt wird
SLI / SLO / SLA - Definition und Bedeutung
Service Level Indicators (SLI)
Service Level Objectives (SLO)
Service Level Agreements (SLA)
Monitoring/Alerting Werkzeuge
Einführung in gängige Überwachungs- und Logging-Tools (z.B. Prometheus, Grafana, ELK Stack)
Tools und Prozesse zur Incident-Erkennung und -Behebung (z.B. PagerDuty, Opsgenie)
Praktische Übung: Einrichtung einer Überwachungs- und Incident Management-Lösung
Problemstellung: Einrichtung einer Überwachungs- und Incident Management-Lösung für eine Beispielanwendung
Lösung: Installation und Konfiguration von Prometheus und Grafana zur Überwachung, Einrichtung von Incident Management-Tools wie PagerDuty
Ergebnis: Ein funktionierendes Überwachungs- und Incident Management-System für die Beispielanwendung
Continuous Delivery und Release Engineering
Kleine Deployments
Automatisierte Deployments
Canary Releases
Feature Toggles
Infrastruktur als Code
Definition
Nutzen
Beispiele: Ansible / Terraform
Zusammenarbeit zwischen Entwicklung und Betrieb
Error Budgets: Konzept und Anwendung von Error Budgets zur Verwaltung von Systemstabilität und Featureentwicklung
Reduzierung der operativen Last: Automatisierung, Toil-Reduzierung und Best Practices zur Effizienzsteigerung
Incident Management
Umgang mit Vorfällen und Ausfällen
Status-Seite
Post-Mortem-Analysen und Lessons Learned
Hochverfügbarkeit vs. Notfallwiederherstellung
Security & Compliance
DSGVO
Fortgeschrittene Techniken
Chaos Engineering
Kapazitätsplanung - datenbasiert
Automatische Skalierung - in Public und Private Cloud
Abschlussdiskussion und Feedbackrunde
Dauer/zeitlicher Ablauf:
2 Tage
Zielgruppe:
Dieses Seminar richtet sich an Site Reliability Engineers, DevOps-Ingenieure, Systemadministratoren, Softwareentwickler und IT-Experten, die ihre Kenntnisse in der Nutzung von SRE-Praktiken zur Verbesserung der Zuverlässigkeit und Skalierbarkeit ihrer Systeme erweitern möchten. Grundlegende Kenntnisse in Systemadministration, DevOps und Cloud-Computing sind hilfreich
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern.
Diese Cookies werden nicht automatisiert gesetzt.
Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren.
Weitere Informationen finden Sie hier.