KI-Inference im EU AI Act

KI-Inference bezeichnet den Moment, in dem ein trainiertes Modell tatsächlich eine Ausgabe erzeugt. Für Unternehmen ist das die operative Phase, in der Prompts, Dateien, Token, Latenz, Kosten und Fehlerrisiken zusammenkommen.

Was bei der Inference passiert

Bei der Inference wird kein Modell mehr trainiert, sondern ein vorhandenes Modell ausgeführt. Das System lädt Modellgewichtungen, verarbeitet die Eingabe und berechnet Schritt für Schritt die nächste Ausgabe. Für das Gesamtbild sind auch Self-Hosting-KI, Ollama und Fine-Tuning relevant.

Phase	Beschreibung
Eingabe	Text, Datei oder strukturierte Daten werden übergeben
Vorverarbeitung	Inhalte werden in Token zerlegt
Modelllauf	Gewichtungen berechnen Wahrscheinlichkeiten
Ausgabe	Text, Klassifikation oder andere Antwort wird erzeugt

Inference ist der Laufzeitbetrieb eines Modells.
Inference verursacht direkte Kosten durch Rechenzeit und Speicher.
Inference ist die Stelle, an der Nutzungsregeln technisch durchgesetzt werden müssen.

Warum Inference für Governance wichtig ist

Die meisten Compliance-Risiken entstehen nicht beim Download eines Modells, sondern im realen Betrieb. Während der Inference fließen sensible Daten, Kontextdokumente, Systemprompts und Nutzungsentscheidungen durch die Infrastruktur. Deshalb sollten Sie Menschliche Aufsicht, Transparenzpflichten und Ihr KI-Inventar an den Produktivbetrieb koppeln.

Legen Sie fest, welche Daten eingegeben werden dürfen.
Messen Sie Latenz, Kosten und Fehlerraten pro Anwendungsfall.
Dokumentieren Sie Modellversion und Infrastruktur je Produktivsystem.

Betriebsfrage	Relevanz
Wie viele Anfragen pro Minute sind nötig?	Kapazitätsplanung
Wie groß ist das Kontextfenster?	Nutzbarer Dokumentumfang
Wer darf Modellparameter ändern?	Governance

Was Unternehmen praktisch optimieren sollten

Unternehmen sollten Inference nicht nur auf Geschwindigkeit optimieren, sondern auf Verlässlichkeit. Ein schneller Antwortserver nützt wenig, wenn Prompts unkontrolliert, Quellen ungeprüft oder Ausgaben nicht nachvollziehbar sind. Für die nächste Ebene sind RAG, LoRA und Model Card die wichtigsten Ergänzungen.

Trennen Sie Experimentier- und Produktivumgebungen.
Überwachen Sie Kosten pro Anfrage und pro Nutzergruppe.
Koppeln Sie Modellwechsel an formale Freigaben.

KI-Inference ist damit der eigentliche Produktionskern eines KI-Systems. Wer diese Phase sauber betreibt, schafft die Voraussetzung für nachvollziehbare, wirtschaftliche und sichere KI-Nutzung im Unternehmen.

KI-Inference

Was bei der Inference passiert

Warum Inference für Governance wichtig ist

Was Unternehmen praktisch optimieren sollten

Begriffe einordnen ist der Anfang. Umsetzung und Nachweis entscheiden im Unternehmen.