Allgemein Tech

DevOps für AI: LLMs in Produktion mit Kubernetes und Kubeflow betreiben

9. März 2026

Large Language Models (LLMs) werden zunehmend Teil moderner Softwaresysteme. Von Chatbots und Copilots über Retrieval-Systeme bis hin zu AI-Agenten – immer mehr Organisationen integrieren generative AI in echte Produktionsumgebungen. Während es heute einfacher denn je geworden ist, AI-Prototypen zu bauen, bleibt der zuverlässige Betrieb von LLMs in Produktion eine grosse Herausforderung.

Auf den Kubernetes Community Days New York teilte Aarno Aukia praktische Einblicke, was es braucht, um LLMs mit bewährten DevOps-Praktiken zu betreiben. Sein Vortrag machte eine wichtige Realität deutlich: AI-Systeme benötigen weiterhin starke DevOps-Fundamente – möglicherweise sogar mehr als klassische Softwaresysteme.

Aarno Aukia’s Talk am KCD New York

DevOps trifft auf AI

DevOps war schon immer darauf ausgerichtet, die Lücke zwischen Entwicklung und Betrieb zu schliessen. Entwickler konzentrieren sich auf die Anwendungslogik und Daten, während Operations-Teams dafür sorgen, dass Software zuverlässig in Produktion läuft. In den letzten zehn Jahren haben sich DevOps-Praktiken rund um Automatisierung, Observability und Continuous Delivery stark weiterentwickelt.

In vielen Organisationen folgt Software heute einer etablierten Pipeline: Entwickler committen Code in Git, automatisierte CI/CD-Pipelines bauen und paketieren die Anwendung, und Kubernetes deployt und betreibt sie in Produktion. Monitoring- und Logging-Systeme schaffen Transparenz darüber, wie sich die Anwendung verhält, sodass Entwickler sie kontinuierlich verbessern können.

Diese Feedback-Schleife ist zum Rückgrat moderner Cloud-Native-Entwicklung geworden.

Wenn jedoch AI ins Spiel kommt, verändert sich dieses Modell in mehreren wichtigen Punkten.

AI-Systeme verhalten sich anders

Einer der grössten Unterschiede zwischen klassischen Anwendungen und AI-basierten Systemen ist die Deterministik. Traditionelle Software verhält sich vorhersehbar: Bei gleichem Input entsteht immer derselbe Output. LLMs funktionieren dagegen völlig anders.

Large Language Models sind probabilistische Systeme. Sie erzeugen Antworten, indem sie das nächste Token basierend auf dem Kontext vorhersagen und damit statistische Entscheidungen darüber treffen, was als Nächstes folgt. Das bedeutet, dass selbst kleine Änderungen im Prompt oder in der Eingabe zu sehr unterschiedlichen Ergebnissen führen können.

Eine scheinbar harmlose Anpassung eines System-Prompts kann das Verhalten eines Modells komplett verändern. In einem Beispiel führte bereits das Hinzufügen eines saisonalen Themas zu einem Chatbot-Prompt dazu, dass das Modell grundlegende Fragen nicht mehr korrekt beantworten konnte.

Für Operations-Teams entsteht dadurch eine neue Kategorie von Komplexität. Anstatt deterministische Systeme zu debuggen, müssen sie nun Systeme betreiben, deren Ergebnisse sich je nach Kontext subtil verändern können.

Testing wird dadurch deutlich komplexer.

Die Herausforderung beim Testen von AI

Klassisches Software-Testing ist vergleichsweise einfach. Ein Test liefert einen Input und überprüft, ob der Output exakt dem erwarteten Wert entspricht.

AI-Systeme passen nicht in dieses Modell. Wenn ein LLM eine Antwort generiert, kann diese korrekt sein, auch wenn sie sich in der Formulierung vom erwarteten Ergebnis unterscheidet. Gleichzeitig kann sie subtile sachliche Fehler oder Halluzinationen enthalten.

Zu bestimmen, ob eine Antwort akzeptabel ist, erfordert daher oft eine semantische Bewertung statt eines strikten Vergleichs. In manchen Fällen verwenden Organisationen sogar ein weiteres LLM, um die Ausgabe des ersten Modells zu bewerten. Dadurch entsteht ein völlig neues Testing-Paradigma, das viele Teams erst noch lernen zu beherrschen.

Mehr Artefakte zu verwalten

AI-Systeme bringen ausserdem zusätzliche Artefakte mit sich, die verwaltet und versioniert werden müssen.

In klassischen DevOps-Pipelines bestehen die wichtigsten Artefakte aus Source Code und Container Images. Bei AI-Workloads kommen jedoch weitere Komponenten hinzu: Datensätze, Trainingsartefakte, Prompts und Modelldateien. Diese Modelle sind oft sehr gross – teilweise mehrere Dutzend Gigabyte – und müssen sorgfältig gespeichert und versioniert werden.

Ohne saubere Versionierung wird es extrem schwierig, Probleme zu debuggen oder Ergebnisse später zu reproduzieren. Wenn sich ein Modell unerwartet verhält, müssen Teams genau wissen, welche Modellversion, welcher Datensatz und welche Konfiguration beim Deployment verwendet wurden.

Das erhöht die operative Komplexität von AI-Systemen erheblich.

Observability wird kritisch

Da LLMs nicht deterministisch sind, wird Observability noch wichtiger als in klassischen Systemen.

Logging muss deutlich mehr Kontext erfassen als bisher. Statt nur Anwendungsereignisse zu protokollieren, müssen Teams möglicherweise den vollständigen Prompt, die Modellantwort, die Modellversion und weitere Konfigurationsparameter speichern. Nur so können Betreiber später nachvollziehen, was genau passiert ist.

Ohne detaillierte Observability kann das Debugging von AI-Systemen schnell unmöglich werden.

Offene Modelle vs. gehostete APIs

Eine weitere wichtige operative Entscheidung ist die Wahl zwischen geschlossenen und offenen Modellen.

Gehostete AI-APIs bieten Komfort und leistungsstarke Funktionen, bringen aber auch Einschränkungen mit sich. In vielen Fällen haben Organisationen keine Kontrolle darüber, wann Modellupdates stattfinden oder welche Minor-Version gerade aktiv ist. Das kann Debugging und Reproduzierbarkeit erschweren.

Open-Weight- oder Open-Source-Modelle bieten dagegen mehr Kontrolle im Betrieb. Sie können heruntergeladen, versioniert, lokal getestet und auf eigener Infrastruktur betrieben werden. Organisationen können so selbst entscheiden, wann und wie Updates ausgerollt werden.

Gerade für regulierte Branchen wie Finanzwesen, Gesundheitswesen oder öffentliche Verwaltung ist dieses Mass an Kontrolle entscheidend.

Kubernetes als Fundament

Hier kommt Kubernetes als zentraler Bestandteil der AI-Infrastruktur ins Spiel.

Kubernetes löst bereits viele operative Herausforderungen beim Betrieb verteilter Systeme. Es bietet Mechanismen für Container-Orchestrierung, Ressourcenmanagement, Autoscaling und Fehlertoleranz. Für AI-Workloads besonders wichtig ist die Fähigkeit, auch GPU-Ressourcen zu verwalten.

Der Betrieb von Kubernetes selbst ist jedoch nicht trivial – wie wir auch in unserem Artikel Beste Kubernetes Distributionen 2026 – und warum du sie vielleicht nicht selbst betreiben solltest beschreiben. Produktionscluster zu betreiben erfordert erhebliche operative Erfahrung.

Kubeflow und der Machine-Learning-Lifecycle

Kubeflow erweitert Kubernetes um spezialisierte Komponenten für Machine-Learning-Workflows. Es hilft dabei, den gesamten Lebenszyklus von AI-Modellen zu verwalten – vom Training bis zum Betrieb der Inferenz.

Mit Kubeflow Pipelines können Teams Workflows für die Modellentwicklung und das Training automatisieren. Diese Pipelines orchestrieren komplexe Prozesse wie Datenvorverarbeitung, Trainingsläufe, Evaluationen und das Verpacken von Modellen für Deployments.

Für viele Organisationen, die LLMs einsetzen, liegt der Fokus jedoch nicht auf dem Training eigener Modelle, sondern darauf, bestehende Modelle zuverlässig in Produktion zu betreiben.

Hier kommt KServe ins Spiel.

LLMs mit KServe betreiben

KServe ist ein Kubernetes-natives Framework für Model Serving, das das Deployment und den Betrieb von AI-Modellen vereinfacht. Es ermöglicht Teams, Inferenzservices auf Kubernetes über standardisierte APIs bereitzustellen.

Ein typisches Deployment besteht aus einem Container, der einen Model Server betreibt, häufig basierend auf Runtimes wie vLLM. Der Container lädt das Modell, nutzt GPU-Ressourcen für die Inferenz und stellt einen API-Endpunkt für Anwendungen bereit.

KServe integriert sich mit Kubernetes-Autoscaling-Mechanismen und Observability-Tools, sodass AI-Workloads dynamisch skaliert und ihr Verhalten in Produktion überwacht werden kann.

Da alles als Kubernetes-Ressource läuft, können Teams dieselben DevOps-Praktiken nutzen, die sie bereits für andere Anwendungen einsetzen.

Ein schnell wachsendes Ökosystem

Das Ökosystem rund um AI-Infrastruktur entwickelt sich derzeit extrem schnell. Neue Projekte entstehen laufend, um die besonderen Herausforderungen beim Betrieb von LLMs im grossen Massstab zu adressieren.

Ein Beispiel ist LLMD, ein Kubernetes-Operator speziell für LLM-Inferenz. Er baut auf bestehenden Technologien wie vLLM auf, ergänzt diese jedoch um zusätzliche Funktionen wie Request-Routing, Modellselektion, Caching und intelligentes Scaling.

Solche Tools zeigen, wie sich das Cloud-Native-Ökosystem an die operativen Anforderungen von AI-Workloads anpasst.

AI braucht weiterhin DevOps

Trotz des grossen Hypes rund um generative AI bleibt eine zentrale Erkenntnis bestehen: AI-Systeme brauchen weiterhin starke operative Grundlagen.

LLMs in Produktion zu betreiben bedeutet weit mehr, als einfach eine API aufzurufen. Es erfordert sorgfältiges Management von Modellen, Infrastruktur, Observability und Deployment-Prozessen.

Kubernetes und Kubeflow bieten eine leistungsfähige Plattform, um diese Herausforderungen zu bewältigen. Durch die Anwendung bewährter DevOps-Prinzipien auf AI-Systeme können Organisationen Plattformen aufbauen, die nicht nur intelligent, sondern auch zuverlässig und skalierbar sind.

Während AI zunehmend zum Standardbestandteil moderner Anwendungen wird, wird die Fähigkeit, diese Systeme effizient zu betreiben, genauso wichtig wie die Modelle selbst.

Genau hier kommen Plattformansätze ins Spiel. Anstatt dass jedes Team komplexe Stacks selbst aufbauen und betreiben muss, können Plattformen fertige Services auf Kubernetes bereitstellen. Ein Beispiel dafür ist Servala – Sovereign App Store, ein Kubernetes-nativer Marktplatz, der Organisationen mit einem Katalog von Managed Cloud-Native-Services verbindet, darunter Datenbanken, Storage, Developer Tools und AI-fähige Infrastrukturkomponenten.

Markus Speth

Marketing, Communications, People

AppCat
Tech

VSHN AppCat Update – CloudNativePG PostgreSQL ist jetzt vollständig in AppCat verfügbar

Allgemein
Sovereignty

EUR 180 Millionen für Sovereign Cloud: Was die erste souveränitätsbewertete Ausschreibung der EU für Schweizer Organisationen bedeutet

Allgemein
Codey

Codey ist Live: Neue Features & Preis sichern bis 30. April

Allgemein
Event

VSHN an den DevOpsDays Zürich 2026

AppCat
Tech

VSHN AppCat Update – Grosse PostgreSQL Upgrades und mehr Kontrolle über Kosten

Allgemein
Tech

Espejote: Eine GitOps-Reise

AppCat
Tech

VSHN AppCat Update – Mehr Flexibilität für PostgreSQL und höhere Betriebssicherheit auf der Plattform

Allgemein
Event
Kubernetes

KubeCon Europe 2026 Recap – Souveränität, AI Agents und eine starke Community

AppCat
Tech

VSHN AppCat Update – Verbesserte Zuverlässigkeit, Betrieb und Entwicklerplattformen

Kontaktiere uns

Unser Expertenteam steht für dich bereit. Im Notfall auch 24/7.

Kontakt

VSHN erhält Red Hat Partner Award 2025

Schau dir die neue Codey Website an

Kommende Events

Partner werden