Kurs · Schulung · Workshop

Monitoring und Observability mit Prometheus und Grafana

Lerne, wie du mit Prometheus und Grafana Anwendungen und Systeme praxisnah überwachen, analysieren und visualisieren kannst – inkl. Alerting, SLOs und Kubernetes-Best Practices.

Ein zweitägiger Intensivkurs, der sich auf das Monitoring und die Observability von Anwendungen mit Prometheus und die Visualisierung von Metriken mit Grafana konzentriert. Die Teilnehmenden erlernen die Installation, Konfiguration und den effektiven Einsatz von Prometheus zur Überwachung von Anwendungen sowie die Erstellung aussagekräftiger Dashboards mit Grafana in einem Kubernetes-Umfeld – um Stabilität und Performance sicherzustellen. Wir behandeln **Service Discovery, Recording Rules, PromQL, Alerting (Alertmanager & Grafana Alerting), SLO/SLA-Tracking, Histogramme/Exemplars**, sowie **HA & Langzeit-Storage** (Thanos/Cortex/Mimir) und **Security/Costs/Retention**.

In-House Kurs

Massgeschneidert für Ihr Team.

Anfragen

Kein passender Termin?

Neuen öffentlichen Termin anfragen.

Termin anfragen

Trainer

Jan-Hendrik Heuing

Trainer

Michael Mühlebach

Trainer

Stimmen unserer Teilnehmer:innen

Great training with exercises that were immediately relevant to my daily work. The training environment was easy to set up and felt almost like our prod environment!

Tim
Application Developer

The course "Prometheus and PromQL" by letsboot.ch met my expectations. The teacher, Jan-Hendrik Heuing, impressed with his expertise and competence. I can wholeheartedly recommend this course and letsboot.ch.

Martin
Leiter IT Entwicklung Platform & Services

Diese Kunden haben Kurse im gleichen Themen-Cluster bei uns gebucht.Mehr Kunden →

Inhalt

Prometheus ist ein leistungsstarkes Open-Source-Monitoring- und Alerting-System, das speziell für moderne, verteilte und containerisierte Anwendungen entwickelt wurde. In diesem Kurs zeigen wir, wie du Prometheus mit Grafana effektiv nutzt, um den Zustand deiner Anwendungen zu überwachen, Performance-Probleme zu erkennen und die Qualität deiner Software sicherzustellen.

Kursthemen (mit Praxisfokus):

Einführung & Architektur
- Prometheus Datenmodell (Labels/Time Series), Pull-Modell, TSDB
- Komponenten: Prometheus, Exporter, Alertmanager, Pushgateway (Wann sinnvoll?)
- Deployment-Varianten: Standalone, Prometheus Operator, kube-prometheus-stack (Helm)
Installation & Konfiguration
- Prometheus in Kubernetes (Helm/Operator) und via Docker/Compose
- Service Discovery (Kubernetes, EC2, Consul) und Relabeling-Patterns
- Scrape-Konfiguration, Jobs/Targets, Schemas für Multi-Cluster/Namespaces
Instrumentierung & Exporter
- Best Practices in Applikationen (Counter/Gauge/Histogram/Summary)
- Histogramme & Exemplars für Latenz-Analyse und Tracing-Korrelation
- Wichtige Exporter: node_exporter, kube-state-metrics, cAdvisor, blackbox_exporter, postgres/mysql/redis Exporter
- OpenTelemetry Brücke (OTel Collector → Prometheus)
PromQL & Recording Rules
- Abfrage-Grundlagen und Operatoren, Label-Matching, Joins
- Rate/irate, Histogramm-Quantile, Berechnung von Apdex/Latenz-Buckets
- Recording Rules und Rule Groups: Performance und Wiederverwendung
- SLO/SLA-Metriken: Error Budget, Availability & Latenz
Visualisierung mit Grafana
- Datenquelle konfigurieren, Time Range, Transformations
- Dashboard-Design: Panels, Variables, Templating, Re-Use (Library Panels)
- Exemplars in Grafana, Drill-down, Annotations
- Best Practices: Dashboard-Patterns für SRE, Infra & App Monitoring
Alerting
- Alerting-Regeln in Prometheus, Vorlagen & Severity-Design
- Alertmanager: Routing, Inhibition, Silence, Receivers (E-Mail, Slack, PagerDuty)
- Grafana Alerting: Wann Grafana-Alerts? Harmonisierung mit Alertmanager
- Runbooks & Annotationen: Vom Alert zur Aktion
Betrieb, Skalierung & Zuverlässigkeit
- Retention & TSDB-Tuning, WAL/Compaction, Ressourcenbedarf
- High Availability: Sharding/HA-Paare, Thanos/Cortex/Mimir für Langzeit-Storage & Querien über mehrere Prometheus-Instanzen
- Föderation vs. Remote Write/Read, Multicluster-Strategien
- Self-Monitoring von Prometheus/Grafana; Watchdog Alerts
Security & Compliance
- TLS, AuthN/Z (Reverse Proxy, OAuth-Proxy), Netzwerkgrenzen
- Multi-Tenancy-Ansätze (Mimir/Cortex), Mandanten-Trennung via Labels/Namespaces
- DSGVO/PII-Sensitivität: Was nicht in Metriken gehört
Kostenkontrolle & Kardinalität
- Kardinalitäts-Fallen erkennen (Label-Explosion), Kardinalitäts-Checks
- Metrik-Hygiene: Naming, Labeling, Scrape-Intervalle, Downsampling/Recording
- Speicherkosten vs. Auflösung vs. Retention: Leitplanken
Troubleshooting & Patterns
- Langsame Queries debuggen, PromQL-Optimierung
- Exporter/Target-Probleme, Scrape Errors, Stale Series
- Dashboards für Incident Response (Golden Signals, RED/USE)

Hands-on Labs (Beispiele):

Lab 1: Deployment via Helm (kube-prometheus-stack), Zugriff & Security
Lab 2: Service Discovery & Relabeling – nur gewünschte Targets scrapen
Lab 3: PromQL-Übungen (Rates, Histogramme, Joins, Quantiles)
Lab 4: Recording Rules für SLOs + SLI-Dashboards in Grafana
Lab 5: Grafana Dashboards von Grund auf erstellen (Panel-Design, Variablen, Alerts)
Lab 6: Application Metrics instrumentieren (Counter, Gauge, Histogram in Sample-App)
Lab 7: Alerting-Setup (Prometheus Rules + Alertmanager Routing), Runbook-Linking
Lab 8: Blackbox-Checks (HTTP/TCP/ICMP) + Incident-Dashboard
Lab 9: Retention/Kardinalitätstuning, Self-Monitoring & Watchdog
Lab 10: Thanos als Langzeit-Storage & HA-Querien

Die Übungen basieren auf Kubernetes und containerisierten Anwendungen.

Der effektive Kursinhalt kann, abhängig von Trainer, Durchführung, Dauer und Konstellation der Teilnehmer:innen, von obigen Angaben abweichen.

Ziel

Nach dem Kurs können die Teilnehmenden Prometheus und Grafana als Monitoring- und Alerting-System in ihren Projekten einsetzen: **Service Discovery & Relabeling** konfigurieren, **PromQL** sicher anwenden, **Recording Rules & SLOs** definieren, **Alerts mit Alertmanager/Grafana** betreiben und **Betrieb/Skalierung** (HA, Retention, Kosten, Kardinalität) fundiert planen.

Dauer

2 Tage

Form

Der Kurs kombiniert kurze Input-Sessions, geführte **Live-Demos** und praxisnahe **Hands-on-Labs** im Kubernetes-Cluster (Helm/Operator). Wir legen Wert auf **realistische Szenarien**, klare Patterns und sofort anwendbare Best Practices.

Zielgruppe

Softwareentwickler\*innen, DevOps/Platform Engineers, SREs und Systemadministratoren, die Anwendungen und Infrastruktur effizient überwachen, **SLOs** etablieren, **Incident Response** beschleunigen und **Kubernetes**-basierte Monitoring-Stacks professionell betreiben möchten.

Voraussetzungen

Grundkenntnisse Linux/CLI, Basiswissen zu Containern/Kubernetes und Web-Anwendungen. Vorteilhaft: erste Erfahrungen mit Metrics/Logs und YAML/Helm.

Vorbereitung

Jeder Teilnehmer erhält nach der Anmeldung einen Fragebogen und eine Installationsanleitung. Wir stellen eine Lab-Umgebung bereit (Kubernetes-Cluster, **kube-prometheus-stack**, Beispielservices). Optional: eigener Cloud-Zugang. Voraussetzungen werden vorab verifiziert.

In-House Kurs anfragen

Öffentlichen Termin anfragen

Kein passender öffentlicher Termin dabei? Trag dich unverbindlich ein – sobald genug Interesse besteht, planen wir einen neuen öffentlichen Termin und informieren dich zuerst.

Mehr über Prometheus & Grafana

Prometheus nutzt ein dimensionales Datenmodell (Labels) und das Pull-Scraping mit integrierter **Service Discovery**. **PromQL** erlaubt flexible Abfragen, **Recording Rules** beschleunigen Standardmetriken und **Alertmanager** steuert Benachrichtigungen. **Grafana** visualisiert Metriken, unterstützt **Exemplars** und Dashboards für SRE-Patterns. Für **Langzeit-Storage & HA** kommen oft **Thanos/Cortex/Mimir** zum Einsatz.

Weitere Ressourcen:

Geschichte

Prometheus wurde 2012 bei SoundCloud gestartet und 2016 als zweites CNCF-Projekt nach Kubernetes aufgenommen. Seitdem hat es sich – in Kombination mit Grafana – zum De-facto-Standard für Metrics-basiertes Monitoring und SRE-getriebene Observability entwickelt. Das Ökosystem (Operator, Thanos/Mimir/Cortex, OpenTelemetry-Integration) wächst kontinuierlich weiter.