Кэширование токенов и оптимизация затрат
Qwen Code автоматически оптимизирует затраты на API за счёт кэширования токенов при использовании аутентификации по ключу API. Эта функция сохраняет часто используемый контент, например системные инструкции и историю диалога, чтобы сократить количество токенов, обрабатываемых в последующих запросах.
Как это выгодно для вас
- Снижение затрат: меньшее количество токенов означает более низкие затраты на API
- Более быстрые ответы: кэшированный контент извлекается быстрее
- Автоматическая оптимизация: никакой дополнительной настройки не требуется — всё работает «под капотом»
Кэширование токенов доступно для
- Пользователей ключей API (ключ Qwen API, совместимые с OpenAI провайдеры)
Мониторинг ваших сбережений
Используйте команду /stats, чтобы увидеть, сколько токенов было сохранено благодаря кэшированию:
- При активном кэшировании в статистике отображается количество токенов, полученных из кэша
- Отображаются как абсолютное количество токенов, так и их доля в процентах
- Пример: «10 500 (90,4 %) входных токенов были получены из кэша, что позволило снизить затраты».
Эта информация отображается только при использовании кэшированных токенов — это происходит при аутентификации с помощью API-ключа, но не при аутентификации через OAuth.
Пример отображения статистики

На приведённом выше изображении показан пример вывода команды /stats с выделенной информацией о сбережениях за счёт кэширования токенов.
Last updated on