Token sind die kleinsten Einheiten, mit denen ein Sprachmodell Text verarbeitet. Für Unternehmen sind Token vor allem deshalb wichtig, weil sie Kosten, Antwortlänge, Kontextfenster und die Leistungsgrenze eines Modells direkt beeinflussen.
Was ein Token praktisch ist
Ein Token ist meist kein vollständiges Wort, sondern ein Textstück. Ein deutsches Kompositum kann aus mehreren Token bestehen, während kurze Zeichenfolgen oder Satzzeichen eigene Token bilden können. Für die Einordnung helfen KI-Inference, RAG und Modellgewichtungen.
| Beispiel | Typische Zerlegung |
|---|---|
| "KI" | 1 Token oder wenige Zeichen |
| "Datenschutzfolgeabschätzung" | Mehrere Token |
| Satzzeichen | Oft eigenes Token |
| Tabellen oder Code | Viele kurze Token |
- Mehr Token bedeuten meist mehr Rechenaufwand und höhere Kosten.
- Tokenzahl ist nicht identisch mit Wortzahl.
- Kontextgrenzen eines Modells werden in Token und nicht in Seiten gemessen.
Warum Token für Unternehmen relevant sind
Token sind die Währung des Modellbetriebs. API-Kosten, Antwortgeschwindigkeit und Kontextgrenzen hängen direkt an der Menge von Eingabe- und Ausgabetoken. Deshalb sollten Sie bei Self-Hosting-KI, Ollama oder externen APIs immer Tokenbudgets mitplanen.
- Lange Prompts und große Dokumente erhöhen Kosten sofort.
- RAG-Systeme können unnötig teuer werden, wenn zu viele Textblöcke eingefügt werden.
- Begrenzte Kontextfenster erzwingen Priorisierung und Kürzung von Quellen.
| Frage | Wirkung |
|---|---|
| Wie viele Dokumente gehen in einen Prompt? | Kosten und Antwortqualität |
| Wie lang ist die gewünschte Ausgabe? | Output-Kosten und Latenz |
| Wie gut ist das Chunking? | Token-Effizienz bei RAG |
Was Teams praktisch steuern sollten
Teams sollten Token wie eine operative Ressource behandeln. Ein promptlastiger Assistenzfall mit 2.000 Eingabetoken und 800 Ausgabetoken skaliert bei 1.000 Anfragen pro Tag schnell zu relevanten Monatskosten. Für Optimierung helfen Fine-Tuning, LoRA und eine präzise Model Card des eingesetzten Modells.
- Setzen Sie Obergrenzen für Prompt- und Antwortlängen.
- Kürzen Sie Anhänge und Kontext auf wirklich relevante Inhalte.
- Beobachten Sie Tokenkosten pro Use Case und nicht nur aggregiert.
Token sind damit kein Detail für Entwickler, sondern ein betrieblicher Steuerungswert. Wer Tokenflüsse versteht, verbessert Wirtschaftlichkeit, Geschwindigkeit und Verlässlichkeit eines KI-Systems gleichzeitig.