トークンキャッシュとコスト最適化
Qwen Code は API キー認証利用時、トークンキャッシュ機能により API コストを自動的に最適化します。この機能は、システムプロンプトや会話履歴など頻繁に使用されるコンテンツを保存し、後続リクエストで処理されるトークン数を削減します。
主な利点
- コスト削減: トークン使用量が減るため、API コストが低下します
- 応答速度の向上: キャッシュされたコンテンツはより高速に取得されます
- 自動最適化: 設定不要で、バックグラウンドで自動的に動作します
トークンキャッシュの利用対象
- API キー利用者(Qwen API キー、OpenAI 互換プロバイダー)
コスト削減状況の確認
/stats コマンドを使用して、キャッシュされたトークンによる節約状況を確認できます:
- 有効時、統計情報表示にはキャッシュから提供されたトークン数が表示されます
- キャッシュされたトークンの絶対数と割合の両方が確認できます
- 例: 「入力トークンの 10,500 (90.4%) がキャッシュから提供され、コストが削減されました。」
この情報はキャッシュトークンが利用されている場合のみ表示され、API キー認証では有効ですが、OAuth 認証では無効です。
統計表示の例

上記の画像は /stats コマンドの出力例を示しており、キャッシュされたトークンによる節約情報が強調表示されています。
Last updated on