Plattform Engineering für AI Applikationen
Schulung & Kurs

Platform Engineering für AI-Applikationen: Deployment, Betrieb und Optimierung von Large Language Models und AI-Workloads mit Inferenz-Engines, LLM-Gateways, Monitoring und MLOps.

Dieser praxisorientierte Kurs vermittelt Platform Engineers, DevOps Engineers und SREs die notwendigen Kenntnisse und Fähigkeiten, um AI-Applikationen und Large Language Models professionell zu betreiben. Die Teilnehmenden lernen, wie sie LLM-Infrastruktur aufbauen, Inferenz-Engines konfigurieren, Performance optimieren und AI-Workloads in Produktion betreiben. Der Kurs behandelt die gesamte Bandbreite von selbst-gehosteter Model-Inferenz über optimierte Inferenz-Engines (vLLM, TensorRT-LLM) bis hin zu LLM-Gateways, Monitoring und Fine-Tuning. Die Teilnehmenden arbeiten mit realen AI-Infrastruktur-Projekten, die Model-Deployment, GPU-Ressourcen-Management, Batching-Strategien, Caching-Optimierung und Observability umfassen. Der Kurs wird sich mit der Konfiguration von Inferenz-Servern, Performance-Tuning, Cost-Optimierung, Monitoring-Setup und MLOps-Praktiken befassen.

Kurse für Teams:

Gerne führen wir zugeschnittene Kurse für euer Team durch - vor Ort, remote oder in unseren Kursräumen.

In-House Kurs Anfragen

Kursinhalt:


Der Kurs besteht aus den folgenden Themen und kann je nach Publikum erweitert oder angepasst werden.
Die Beispiele im Kurs konzentrieren sich auf weit verbreitete AI/ML-Frameworks und Platform-Engineering-Praktiken.
Für Inhouse-Kurse gibt es eine Auswahl an Technologien und Deployment-Szenarien, die gewählt werden können, um besser zum Publikum zu passen.

– Grundlagen und Theorie zu AI und Large Language Models:
... - Historie der Künstlichen Intelligenz und Neuronaler Netze
... - LLM-Architekturen (Transformer, Attention-Mechanismus)
... - Model-Typen (Instruct, Chat, Code, Embedding)
... - Wording: Tokens, Quantisierung, Gewichte, Layer, Context Window
... - Open Source vs. Open Weight vs. Commercial Models
... - Multimodalität und andere Neuronale Netze
– AI/ML Frameworks und Standards:
... - PyTorch und TensorFlow Grundlagen
... - ONNX und Model-Interchange-Formate
... - Hugging Face Transformers und Model Hub
... - Standards: MCP (Model Context Protocol), OpenAI API-Kompatibilität
– Self-Hosted Model-Inferenz und Deployment:
... - Ollama für schnelles Model-Deployment
... - On-Premises Model-Weight-Storage
... - Model-Download und -Verwaltung
... - Erste Inferenz-Tests und Prompting
– Inferenz-Engines und Performance-Optimierung:
... - Inferenz-Engines: vLLM, TensorRT-LLM, Triton Inference Server
... - Batching-Strategien (Static vs. Dynamic Batching)
... - Caching-Strategien (KV-Cache, Prompt Caching)
... - Parallelisierung (Tensor Parallelism, Pipeline Parallelism)
... - Quantisierung (INT8, INT4, GPTQ, AWQ, GGUF)
... - Performance-Metriken (Latency, Throughput, TTFT, TPOT)
– GPU-Infrastruktur und Ressourcen-Management:
... - GPU-Auswahl und -Sizing für LLM-Workloads
... - CUDA, ROCm und GPU-Driver-Management
... - GPU-Sharing und Multi-Tenancy
... - Kubernetes GPU-Scheduling und Resource Quotas
... - Cost-Optimierung für GPU-Workloads
– LLM-Gateways und API-Management:
... - LiteLLM: Installation, Konfiguration und Backends
... - Model Load Balancing und Fallback-Strategien
... - Rate Limiting und Cost Tracking
... - API-Key-Management und Authentication
... - Multi-Model-Routing und A/B-Testing
– Guardrails und Content-Filtering:
... - Konzepte und Notwendigkeit von Guardrails
... - Content-Filter-Implementierung
... - Input/Output-Validierung
... - Safety und Compliance
– Container-Orchestrierung für AI-Workloads:
... - Docker-Images für LLM-Deployment
... - Kubernetes-Deployments für Inferenz-Server
... - Helm Charts für AI-Applikationen
... - Autoscaling-Strategien für AI-Workloads
... - Service Mesh für Model-Serving
– Model-Serving-Patterns und Architekturen:
... - REST API und gRPC für Model-Serving
... - Synchrone vs. Asynchrone Inferenz
... - Streaming-Responses und Server-Sent Events
... - Model-Versioning und Canary Deployments
... - Blue-Green Deployments für Models
– Monitoring und Observability für AI-Workloads:
... - Metriken: Inter-Token Latency, Throughput, Token/s
... - Prometheus-Integration für LLM-Metriken
... - Grafana Dashboards für AI-Monitoring
... - OpenTelemetry für Distributed Tracing
... - Log-Aggregation für Inferenz-Logs
... - Cost-Tracking und Resource-Utilization
– Retrieval Augmented Generation (RAG) Infrastructure:
... - Vector-Datenbanken (Pinecone, Weaviate, Qdrant, Milvus)
... - Embedding-Models und Deployment
... - Chunking-Strategien und Indexierung
... - Hybrid Search und Reranking
... - RAG-Pipeline-Orchestrierung
– Fine-Tuning und Model-Anpassung:
... - Fine-Tuning-Konzepte und Use Cases
... - LoRA (Low-Rank Adaptation) und QLoRA
... - Full Fine-Tuning vs. Parameter-Efficient Fine-Tuning
... - Training-Infrastructure und GPU-Requirements
... - Model-Evaluation und Validation
– MLOps für LLMs:
... - Model-Registry und Versioning (MLflow, Weights & Biases)
... - Experiment-Tracking und Reproducibility
... - Model-Lifecycle-Management
... - CI/CD für Model-Deployment
... - Automated Model-Testing und Validation
– Tool-Calling und Function-Calling:
... - Tool-Calling-Konzepte und Implementierung
... - Function-Calling-APIs
... - Integration externer Tools und Services
... - Agentic Workflows (Unterschied zu Agentic Coding)
– Security und Compliance für AI-Workloads:
... - Model-Security und Supply Chain
... - Data Privacy und GDPR-Compliance
... - Secret-Management für API-Keys
... - Network-Security für Model-Serving
... - Audit-Logging und Compliance-Reporting
– Cloud-Provider und Managed Services:
... - AWS SageMaker, Bedrock und EC2 für LLMs
... - Azure OpenAI Service und Azure ML
... - Google Cloud Vertex AI und GKE
... - Hybrid und Multi-Cloud-Strategien
– Best Practices und Zukunftstrends:
... - Emerging Technologies in AI Infrastructure
... - Cost-Optimierung und Sustainability
... - Performance-Tuning und Benchmarking
... - Team-Organisation für AI-Platform-Teams

Der Kurs kombiniert theoretische Grundlagen mit intensiven praktischen Übungen. Die Teilnehmenden arbeiten mit realen AI-Infrastruktur-Projekten und lernen, wie sie LLM-Workloads professionell betreiben.


Disclaimer: Der effektive Kursinhalt kann, abhängig vom Trainer, Durchführung, Dauer und Konstellation der Teilnehmer:innen von obigen Angaben abweichen.

Ob wir es Schulung, Kurs, Workshop, Seminar oder Training nennen, wir möchten Teilnehmer/innen an ihrem Punkt abholen und mit dem nötigen praktischen Wissen ausstatten, damit sie die Technologie nach der Schulung direkt anwenden und eigenständig vertiefen können.

Ziel:

Nach Abschluss dieses Kurses werden Sie in der Lage sein, AI-Applikationen und Large Language Models professionell zu betreiben und zu optimieren. Sie werden Techniken für Model-Deployment, Inferenz-Optimierung, GPU-Ressourcen-Management und Performance-Tuning beherrschen. Sie werden praktische Erfahrungen in der Arbeit mit Inferenz-Engines (vLLM, Ollama), LLM-Gateways (LiteLLM), Monitoring-Systemen und MLOps-Praktiken sammeln. Zusätzlich werden Sie verstehen, wie Sie AI-Infrastruktur skalieren, Kosten optimieren und Production-Ready AI-Workloads betreiben können. Diese Fähigkeiten ermöglichen es Ihnen, als Platform Engineer die gesamte AI-Infrastruktur Ihres Unternehmens zu verantworten und zu optimieren.


Dauer:

2 Tage (Wird bei In-House Kursen individuell angepasst.)


Form:

Der Kurs kombiniert theoretische Konzepte mit intensiven praktischen Übungen an realen AI-Infrastruktur-Projekten. Die Teilnehmenden arbeiten mit verschiedenen Inferenz-Engines, LLM-Gateways und Monitoring-Tools, um ein umfassendes Verständnis für den Betrieb von AI-Workloads zu entwickeln. Der Trainer begleitet den Prozess mit Expertenwissen und individueller Unterstützung, um die optimale Konfiguration und den effizienten Betrieb von LLM-Infrastruktur zu fördern.


Zielgruppe:

Das Training richtet sich an Platform Engineers, DevOps Engineers, Site Reliability Engineers und System Engineers, die AI-Applikationen und Large Language Models in Produktion betreiben möchten. Der Kurs ist besonders geeignet für Professionals, die für die Infrastruktur, das Deployment und den Betrieb von AI-Workloads verantwortlich sind und ihre Kenntnisse in LLM-Operations, Inferenz-Optimierung und MLOps vertiefen möchten.


Voraussetzungen:

Dieser Kurs erfordert solide Kenntnisse in Platform Engineering, DevOps oder System Engineering. Die Teilnehmenden sollten Erfahrung mit Linux-Systemen, Container-Technologien (Docker), Kubernetes-Grundlagen und Infrastructure as Code haben. Vertrautheit mit Python-Grundlagen, REST APIs, Monitoring-Tools (Prometheus/Grafana) und Cloud-Plattformen ist von Vorteil. Grundlegendes Verständnis von Machine Learning-Konzepten ist hilfreich, aber nicht zwingend erforderlich.


Vorbereitung:

Vor dem Kurs erhält jeder Teilnehmer einen detaillierten Fragebogen zur Erfassung des Erfahrungsniveaus und spezifischer Interessen. Wir stellen eine fortschrittliche Lab-Umgebung mit GPU-Zugang, vorinstallierten Inferenz-Engines und Model-Weights sowie einen Installationsleitfaden zur Vorbereitung von Entwicklungsumgebungen bereit. Während des Kurses werden notwendige Cloud-Ressourcen und API-Zugriffe für praktische Übungen zur Verfügung gestellt. Nach dem Kurs haben die Teilnehmer weiterhin Zugang zur Letsboot Labmachine-Umgebung für lernbezogenes AI Platform Engineering.

In-House Kurs anfragen:

In-House Kurs Anfragen

Trage dich in die Warteliste ein für weitere öffentliche Kurs-Termine. Sobald wir genügend Personen auf der Warteliste haben, klären wir einen möglichst für alle passenden Termin ab und schalten einen neuen Termin auf. Falls du direkt mit zwei Kollegen oder Kolleginnen teilnehmen möchtest, können wir sogar direkt einen öffentlichen Kurs für euch planen.

Warteliste

(Falls ihr bereits mehr 3 Teilnehmer:innen oder mehr habt, klären wir mit euch direkt euren Wunschtermin ab und schreiben den Kurs aus.)

Platform Engineering für AI-Applikationen repräsentiert eine neue Disziplin im Bereich der IT-Infrastruktur. Mit dem rasanten Aufstieg von Large Language Models und generativer AI entstehen neue Herausforderungen für Platform Engineers: GPU-Ressourcen-Management, Inferenz-Optimierung, Cost-Management und die Skalierung von AI-Workloads. Dieser Kurs vermittelt das notwendige Wissen, um AI-Infrastruktur professionell zu betreiben, von selbst-gehosteter Model-Inferenz über optimierte Inferenz-Engines bis hin zu Production-Ready Deployments mit Monitoring, Observability und MLOps-Praktiken. Platform Engineers lernen, wie sie die Brücke zwischen AI/ML-Teams und Production-Infrastruktur schlagen und AI-Applikationen zuverlässig, performant und kosteneffizient betreiben.