Token-Caching und Kostenoptimierung

Qwen Code optimiert automatisch die API-Kosten durch Token-Caching, wenn eine Authentifizierung mit API-Schlüssel verwendet wird. Diese Funktion speichert häufig genutzte Inhalte wie Systemanweisungen und Verlaufsdaten der Konversation, um die Anzahl der bei nachfolgenden Anfragen verarbeiteten Tokens zu reduzieren.

Vorteile für Sie

Kostensenkung: Weniger Tokens bedeuten niedrigere API-Kosten
Schnellere Antworten: Gecachter Inhalt wird schneller abgerufen
Automatische Optimierung: Keine Konfiguration erforderlich – die Funktion arbeitet im Hintergrund

Token-Caching ist verfügbar für

Nutzer mit API-Schlüssel (Qwen-API-Schlüssel, OpenAI-kompatible Anbieter)

Überwachung Ihrer Einsparungen

Verwenden Sie den Befehl /stats, um Ihre zwischengespeicherten Token-Einsparungen anzuzeigen:

Wenn die Funktion aktiv ist, zeigt die Statistik an, wie viele Token aus dem Cache bereitgestellt wurden.
Sie sehen sowohl die absolute Anzahl als auch den Prozentsatz der aus dem Cache stammenden Token.
Beispiel: „10.500 (90,4 %) der Eingabetoken wurden aus dem Cache bereitgestellt, wodurch Kosten gesenkt werden.“

Diese Informationen werden nur angezeigt, wenn zwischengespeicherte Token verwendet werden – dies ist bei der Authentifizierung mit einem API-Schlüssel der Fall, nicht jedoch bei der OAuth-Authentifizierung.

Beispiel für die Anzeige der Statistik

Anzeige der Qwen Code-Statistik

Das obige Bild zeigt ein Beispiel für die Ausgabe des /stats-Befehls mit Hervorhebung der Informationen zu den Einsparungen durch zwischengespeicherte Token.