Кэширование токенов и оптимизация затрат

Qwen Code автоматически оптимизирует затраты на API за счёт кэширования токенов при использовании аутентификации по ключу API. Эта функция сохраняет часто используемый контент, например системные инструкции и историю диалога, чтобы сократить количество токенов, обрабатываемых в последующих запросах.

Как это выгодно для вас

Снижение затрат: меньшее количество токенов означает более низкие затраты на API
Более быстрые ответы: кэшированный контент извлекается быстрее
Автоматическая оптимизация: никакой дополнительной настройки не требуется — всё работает «под капотом»

Кэширование токенов доступно для

Пользователей ключей API (ключ Qwen API, совместимые с OpenAI провайдеры)

Мониторинг ваших сбережений

Используйте команду /stats, чтобы увидеть, сколько токенов было сохранено благодаря кэшированию:

При активном кэшировании в статистике отображается количество токенов, полученных из кэша
Отображаются как абсолютное количество токенов, так и их доля в процентах
Пример: «10 500 (90,4 %) входных токенов были получены из кэша, что позволило снизить затраты».

Эта информация отображается только при использовании кэшированных токенов — это происходит при аутентификации с помощью API-ключа, но не при аутентификации через OAuth.

Пример отображения статистики

Отображение статистики Qwen Code

На приведённом выше изображении показан пример вывода команды /stats с выделенной информацией о сбережениях за счёт кэширования токенов.