Follow-up-Vorschläge
Qwen Code kann vorhersagen, was du als Nächstes eingeben möchtest, und zeigt dies als Ghost-Text im Eingabebereich an. Diese Funktion nutzt einen LLM-Aufruf, um den Konversationskontext zu analysieren und einen natürlichen Vorschlag für den nächsten Schritt zu generieren.
Diese Funktion funktioniert im CLI end-to-end. In der WebUI sind der Hook und die UI-Infrastruktur vorhanden, Host-Anwendungen müssen jedoch die Vorschlagsgenerierung auslösen und den Follow-up-Status verknüpfen, damit Vorschläge angezeigt werden.
Funktionsweise
Nachdem Qwen Code die Antwort abgeschlossen hat, erscheint nach einer kurzen Verzögerung (~300 ms) ein Vorschlag als abgedunkelter Text im Eingabebereich. Nach dem Beheben eines Bugs könntest du beispielsweise Folgendes sehen:
> run the testsDer Vorschlag wird generiert, indem der Konversationsverlauf an das Modell gesendet wird, das vorhersagt, was du als Nächstes natürlich eingeben würdest. Enthält die Antwort einen expliziten Hinweis (z. B. Tip: type post comments to publish findings), wird die vorgeschlagene Aktion automatisch extrahiert.
Vorschläge annehmen
| Taste | Aktion |
|---|---|
Tab | Vorschlag annehmen und in die Eingabe übernehmen |
Enter | Vorschlag annehmen und sofort absenden |
Right Arrow | Vorschlag annehmen und in die Eingabe übernehmen |
| Beliebige Eingabe | Vorschlag verwerfen und normal tippen |
Wann Vorschläge angezeigt werden
Vorschläge werden generiert, wenn alle folgenden Bedingungen erfüllt sind:
- Das Modell hat seine Antwort abgeschlossen (nicht während des Streamings)
- Es fanden mindestens 2 Modell-Turns in der Konversation statt
- Die letzte Antwort enthält keine Fehler
- Es stehen keine Bestätigungsdialoge aus (z. B. Shell-Bestätigung, Berechtigungen)
- Der Genehmigungsmodus ist nicht auf
plangesetzt - Die Funktion ist in den Einstellungen aktiviert (standardmäßig aktiviert)
Vorschläge werden im nicht-interaktiven Modus (z. B. Headless-/SDK-Modus) nicht angezeigt.
Vorschläge werden automatisch verworfen, wenn:
- du mit dem Tippen beginnst
- ein neuer Modell-Turn startet
- der Vorschlag angenommen wird
Schnelles Modell
Standardmäßig verwenden Vorschläge dasselbe Modell wie deine Hauptkonversation. Für schnellere und kostengünstigere Vorschläge kannst du ein dediziertes schnelles Modell konfigurieren:
Über Befehl
/model --fast qwen3-coder-flashOder verwende /model --fast (ohne Modellnamen), um ein Auswahldialogfeld zu öffnen.
Über settings.json
{
"fastModel": "qwen3-coder-flash"
}Das schnelle Modell wird für Prompt-Vorschläge und spekulative Ausführung verwendet. Wenn es nicht konfiguriert ist, wird das Modell der Hauptkonversation als Fallback genutzt.
Der Thinking-/Reasoning-Modus wird für alle Hintergrundaufgaben (Vorschlagsgenerierung und Spekulation) automatisch deaktiviert, unabhängig von der Thinking-Konfiguration deines Hauptmodells. So wird vermieden, Tokens für internes Reasoning zu verbrauchen, das für diese Aufgaben nicht benötigt wird.
Konfiguration
Diese Einstellungen können in settings.json konfiguriert werden:
| Einstellung | Typ | Standardwert | Beschreibung |
|---|---|---|---|
ui.enableFollowupSuggestions | boolean | true | Follow-up-Vorschläge aktivieren oder deaktivieren |
ui.enableCacheSharing | boolean | true | Cache-aware forked Queries zur Kostenreduzierung verwenden (experimentell) |
ui.enableSpeculation | boolean | false | Vorschläge vor dem Absenden spekulativ ausführen (experimentell) |
fastModel | string | "" | Modell für Prompt-Vorschläge und spekulative Ausführung |
Beispiel
{
"fastModel": "qwen3-coder-flash",
"ui": {
"enableFollowupSuggestions": true,
"enableCacheSharing": true
}
}Monitoring
Die Nutzung des Vorschlagsmodells wird in der Ausgabe von /stats angezeigt und zeigt die vom schnellen Modell für die Vorschlagsgenerierung verbrauchten Tokens.
Das schnelle Modell wird außerdem in der Ausgabe von /about unter „Fast Model” angezeigt.
Vorschlagsqualität
Vorschläge durchlaufen Qualitätsfilter, um sicherzustellen, dass sie nützlich sind:
- Muss 2–12 Wörter (CJK: 2–30 Zeichen) umfassen, insgesamt unter 100 Zeichen
- Darf keine Bewertungen enthalten („looks good”, „thanks”)
- Darf keine KI-Stimme verwenden („Let me…”, „I’ll…”)
- Darf keine mehreren Sätze oder Formatierungen enthalten (Markdown, Zeilenumbrüche)
- Darf keine Meta-Kommentare sein („nothing to suggest”, „silence”)
- Darf keine Fehlermeldungen oder Präfix-Labels sein („Suggestion: …”)
- Ein-Wort-Vorschläge sind nur für gängige Befehle erlaubt (yes, commit, push usw.)
- Slash-Befehle (z. B.
/commit) sind immer als Ein-Wort-Vorschläge erlaubt