Кэширование токенов и оптимизация затрат
Qwen Code автоматически оптимизирует затраты на API через кэширование токенов при использовании аутентификации по ключу API. Эта функция сохраняет часто используемый контент, такой как системные инструкции и история разговоров, чтобы уменьшить количество обрабатываемых токенов в последующих запросах.
Как это вам помогает
- Снижение затрат: Меньше токенов означает меньшие расходы на API
- Более быстрые ответы: Кэшированный контент извлекается быстрее
- Автоматическая оптимизация: Нет необходимости в настройке — всё работает за кулисами
Кэширование токенов доступно для
- Пользователей с ключом API (ключ Qwen API, совместимые с OpenAI провайдеры)
Мониторинг ваших сбережений
Используйте команду /stats, чтобы посмотреть кэшированные сбережения токенов:
- Когда функция активна, в отображении статистики показывается, сколько токенов было получено из кэша
- Вы увидите как абсолютное количество, так и процент кэшированных токенов
- Пример: «10 500 (90,4%) входных токенов были получены из кэша, что позволило сократить расходы»
Эта информация отображается только тогда, когда используются кэшированные токены. Это происходит при аутентификации через ключ API, но не при аутентификации через OAuth.
Пример отображения статистики

На изображении выше показан пример вывода команды /stats, в котором выделена информация о сэкономленных за счет кэширования токенах.
Last updated on