Кэширование токенов и оптимизация затрат
Qwen Code автоматически оптимизирует затраты на API с помощью кэширования токенов при использовании аутентификации по API-ключу. Эта функция сохраняет часто используемый контент, такой как системные инструкции и история диалога, чтобы уменьшить количество токенов, обрабатываемых в последующих запросах.
Преимущества для вас
- Снижение затрат: Меньше токенов — ниже затраты на API
- Быстрые ответы: Кэшированный контент загружается быстрее
- Автоматическая оптимизация: Не требует настройки — работает в фоновом режиме
Кэширование токенов доступно для
- Пользователей API-ключей (API-ключ Qwen, провайдеры, совместимые с OpenAI)
Отслеживание экономии
Используйте команду /stats, чтобы увидеть экономию за счет кэширования токенов:
- При активации в статистике отображается количество токенов, полученных из кэша
- Вы увидите как абсолютное число, так и процент кэшированных токенов
- Пример: “10,500 (90.4%) входных токенов были получены из кэша, что снизило затраты.”
Эта информация отображается только при использовании кэшированных токенов, что происходит при аутентификации по API-ключу, но не при аутентификации через OAuth.
Пример отображения статистики

На изображении выше показан пример вывода команды /stats, где выделена информация об экономии за счет кэширования токенов.
Last updated on