Sprich mit einem Trainer:
Jonas Felix
Ein zweitägiger Intensivkurs, der sich auf das Monitoring und die Observability von Anwendungen mit Prometheus und die Visualisierung von Metriken mit Grafana konzentriert. Die Teilnehmenden erlernen die Installation, Konfiguration und den effektiven Einsatz von Prometheus zur Überwachung von Anwendungen sowie die Erstellung aussagekräftiger Dashboards mit Grafana in einem Kubernetes-Umfeld – um Stabilität und Performance sicherzustellen. Wir behandeln **Service Discovery, Recording Rules, PromQL, Alerting (Alertmanager & Grafana Alerting), SLO/SLA-Tracking, Histogramme/Exemplars**, sowie **HA & Langzeit-Storage** (Thanos/Cortex/Mimir) und **Security/Costs/Retention**.
Gerne führen wir zugeschnittene Kurse für euer Team durch - vor Ort, remote oder in unseren Kursräumen.
Prometheus ist ein leistungsstarkes Open-Source-Monitoring- und Alerting-System, das speziell für moderne, verteilte und containerisierte Anwendungen entwickelt wurde. In diesem Kurs zeigen wir, wie du Prometheus mit Grafana effektiv nutzt, um den Zustand deiner Anwendungen zu überwachen, Performance-Probleme zu erkennen und die Qualität deiner Software sicherzustellen.
**Kursthemen (mit Praxisfokus):**
- **Einführung & Architektur**
- Prometheus Datenmodell (Labels/Time Series), Pull-Modell, TSDB
- Komponenten: Prometheus, Exporter, Alertmanager, Pushgateway (Wann sinnvoll?)
- Deployment-Varianten: Standalone, Prometheus Operator, kube-prometheus-stack (Helm)
- **Installation & Konfiguration**
- Prometheus in Kubernetes (Helm/Operator) und via Docker/Compose
- **Service Discovery** (Kubernetes, EC2, Consul) und **Relabeling**-Patterns
- Scrape-Konfiguration, Jobs/Targets, Schemas für Multi-Cluster/Namespaces
- **Instrumentierung & Exporter**
- Best Practices in Applikationen (Counter/Gauge/Histogram/Summary)
- **Histogramme & Exemplars** für Latenz-Analyse und Tracing-Korrelation
- Wichtige Exporter: **node_exporter**, **kube-state-metrics**, **cAdvisor**, **blackbox_exporter**, **postgres/mysql/redis** Exporter
- OpenTelemetry Brücke (OTel Collector → Prometheus)
- **PromQL & Recording Rules**
- Abfrage-Grundlagen und Operatoren, Label-Matching, Joins
- **Rate/irate**, Histogramm-Quantile, Berechnung von Apdex/Latenz-Buckets
- **Recording Rules** und **Rule Groups**: Performance und Wiederverwendung
- **SLO/SLA**-Metriken: Error Budget, Availability & Latenz
- **Visualisierung mit Grafana**
- Datenquelle konfigurieren, Time Range, Transformations
- Dashboard-Design: Panels, Variables, Templating, Re-Use (Library Panels)
- **Exemplars** in Grafana, Drill-down, Annotations
- **Best Practices**: Dashboard-Patterns für SRE, Infra & App Monitoring
- **Alerting**
- Alerting-Regeln in Prometheus, Vorlagen & Severity-Design
- **Alertmanager**: Routing, Inhibition, Silence, Receivers (E-Mail, Slack, PagerDuty)
- **Grafana Alerting**: Wann Grafana-Alerts? Harmonisierung mit Alertmanager
- **Runbooks** & Annotationen: Vom Alert zur Aktion
- **Betrieb, Skalierung & Zuverlässigkeit**
- Retention & TSDB-Tuning, WAL/Compaction, Ressourcenbedarf
- **High Availability**: Sharding/HA-Paare, **Thanos/Cortex/Mimir** für Langzeit-Storage & Querien über mehrere Prometheus-Instanzen
- Föderation vs. Remote Write/Read, Multicluster-Strategien
- Self-Monitoring von Prometheus/Grafana; Watchdog Alerts
- **Security & Compliance**
- TLS, AuthN/Z (Reverse Proxy, OAuth-Proxy), Netzwerkgrenzen
- Multi-Tenancy-Ansätze (Mimir/Cortex), Mandanten-Trennung via Labels/Namespaces
- DSGVO/PII-Sensitivität: Was nicht in Metriken gehört
- **Kostenkontrolle & Kardinalität**
- Kardinalitäts-Fallen erkennen (Label-Explosion), Kardinalitäts-Checks
- Metrik-Hygiene: Naming, Labeling, Scrape-Intervalle, Downsampling/Recording
- Speicherkosten vs. Auflösung vs. Retention: Leitplanken
- **Troubleshooting & Patterns**
- Langsame Queries debuggen, PromQL-Optimierung
- Exporter/Target-Probleme, Scrape Errors, Stale Series
- Dashboards für Incident Response (Golden Signals, RED/USE)
**Hands-on Labs (Beispiele):**
- Lab 1: Deployment via Helm (kube-prometheus-stack), Zugriff & Security
- Lab 2: Service Discovery & Relabeling – nur gewünschte Targets scrapen
- Lab 3: PromQL-Übungen (Rates, Histogramme, Joins, Quantiles)
- Lab 4: Recording Rules für SLOs + SLI-Dashboards in Grafana
- Lab 5: Alerting-Setup (Prometheus Rules + Alertmanager Routing), Runbook-Linking
- Lab 6: Blackbox-Checks (HTTP/TCP/ICMP) + Incident-Dashboard
- Lab 7: Retention/Kardinalitätstuning, Self-Monitoring & Watchdog
- Lab 8: Thanos als Langzeit-Storage & HA-Querien
Die Übungen basieren auf Kubernetes und containerisierten Anwendungen.
Disclaimer: Der effektive Kursinhalt kann, abhängig vom Trainer, Durchführung, Dauer und Konstellation der Teilnehmer:innen von obigen Angaben abweichen.
Ob wir es Schulung, Kurs, Workshop, Seminar oder Training nennen, wir möchten Teilnehmer/innen an ihrem Punkt abholen und mit dem nötigen praktischen Wissen ausstatten, damit sie die Technologie nach der Schulung direkt anwenden und eigenständig vertiefen können.
Nach dem Kurs können die Teilnehmenden Prometheus und Grafana als Monitoring- und Alerting-System in ihren Projekten einsetzen: **Service Discovery & Relabeling** konfigurieren, **PromQL** sicher anwenden, **Recording Rules & SLOs** definieren, **Alerts mit Alertmanager/Grafana** betreiben und **Betrieb/Skalierung** (HA, Retention, Kosten, Kardinalität) fundiert planen.
Der Kurs kombiniert kurze Input-Sessions, geführte **Live-Demos** und praxisnahe **Hands-on-Labs** im Kubernetes-Cluster (Helm/Operator). Wir legen Wert auf **realistische Szenarien**, klare Patterns und sofort anwendbare Best Practices.
Softwareentwickler\*innen, DevOps/Platform Engineers, SREs und Systemadministratoren, die Anwendungen und Infrastruktur effizient überwachen, **SLOs** etablieren, **Incident Response** beschleunigen und **Kubernetes**-basierte Monitoring-Stacks professionell betreiben möchten.
Grundkenntnisse Linux/CLI, Basiswissen zu Containern/Kubernetes und Web-Anwendungen. Vorteilhaft: erste Erfahrungen mit Metrics/Logs und YAML/Helm.
Jeder Teilnehmer erhält nach der Anmeldung einen Fragebogen und eine Installationsanleitung. Wir stellen eine Lab-Umgebung bereit (Kubernetes-Cluster, **kube-prometheus-stack**, Beispielservices). Optional: eigener Cloud-Zugang. Voraussetzungen werden vorab verifiziert.
Danke für deine Anfrage, wir melden uns so rasch wie möglich.
Unerwarteter Fehler - bitte versuche es erneut.
Trage dich in die Warteliste ein für weitere öffentliche Kurs-Termine. Sobald wir genügend Personen auf der Warteliste haben, klären wir einen möglichst für alle passenden Termin ab und schalten einen neuen Termin auf. Falls du direkt mit zwei Kollegen oder Kolleginnen teilnehmen möchtest, können wir sogar direkt einen öffentlichen Kurs für euch planen.
Danke für deine Anfrage, wir melden uns so rasch wie möglich.
Unerwarteter Fehler - bitte versuche es erneut.
Prometheus wurde 2012 bei SoundCloud gestartet und 2016 als zweites CNCF-Projekt nach Kubernetes aufgenommen. Seitdem hat es sich – in Kombination mit Grafana – zum De-facto-Standard für Metrics-basiertes Monitoring und SRE-getriebene Observability entwickelt. Das Ökosystem (Operator, Thanos/Mimir/Cortex, OpenTelemetry-Integration) wächst kontinuierlich weiter.
Sprich mit einem Trainer:
Jonas Felix
Trainings-Center:
Basel:
- Aeschenplatz 6, 4052 Basel
Zürich:
- HWZ, Lagerstrasse 5, 8004 Zürich
Firmenadresse:
felixideas GmbH
Baslerstrasse 5a
4102 Binningen