トークンキャッシュとコスト最適化
Qwen Code は、APIキー認証を使用する際に、トークンキャッシュを活用して API コストを自動的に最適化します。この機能により、システム指示や会話履歴など頻繁に使用されるコンテンツがキャッシュされ、後続のリクエストで処理されるトークン数を削減します。
メリット
- コスト削減: トークン数が減ることで API コストが低下
- 応答の高速化: キャッシュされたコンテンツはより迅速に取得可能
- 自動最適化: 設定不要でバックグラウンドで動作します
トークンキャッシュが利用可能な対象
- APIキーユーザー(Qwen APIキー、OpenAI互換プロバイダー)
節約状況の確認
/stats コマンドを使用して、キャッシュされたトークンの節約量を確認できます:
- 有効な場合、統計表示にはキャッシュから提供されたトークン数が表示されます
- キャッシュされたトークンの絶対数と割合の両方が表示されます
- 例:「入力トークンの10,500(90.4%)がキャッシュから提供され、コストが削減されました。」
この情報はキャッシュされたトークンが使用されている場合にのみ表示されます。これは APIキー認証時には発生しますが、OAuth認証時には発生しません。
統計表示の例

上の画像は /stats コマンドの出力例で、キャッシュされたトークンの節約情報を示しています。
Last updated on