トークンのキャッシュとコスト最適化
Qwen Code では、API キー認証を使用する際に、トークンのキャッシュによって API コストを自動的に最適化します。この機能により、システム指示や会話履歴など頻繁に使用されるコンテンツが保存され、後続のリクエストで処理されるトークン数を削減します。
お客様へのメリット
- コスト削減: トークン数が減ることで API コストが低下します
- 応答速度の向上: キャッシュされたコンテンツはより高速に取得できます
- 自動最適化: 設定不要で、バックグラウンドで自動的に動作します
トークンのキャッシュが利用可能なユーザー
- API キーを利用するユーザー(Qwen API キー、OpenAI 互換プロバイダー)
サービス利用料金の節約状況の監視
キャッシュによるトークン節約額を確認するには、/stats コマンドを使用します。
- 有効な場合、統計表示ではキャッシュから提供されたトークン数が表示されます。
- キャッシュから提供されたトークンの絶対数および割合の両方が表示されます。
- 例:「入力トークンのうち 10,500 個(90.4%)がキャッシュから提供され、コストが削減されました。」
この情報は、キャッシュされたトークンが実際に使用されている場合にのみ表示されます。これは API キー認証では発生しますが、OAuth 認証では発生しません。
統計表示の例

上記の画像は /stats コマンドの出力例を示しており、キャッシュによるトークン節約額に関する情報を強調しています。
Last updated on