Text-to-Image

La generation text-to-image est le cas d’usage principal de ComfyUI. Ce guide couvre les differentes approches et modeles disponibles.

Modeles recommandes en 2025-2026

Le modele de reference pour la qualite text-to-image.

Flux.1 Dev : meilleur rapport qualite/vitesse pour le developpement
Flux.1 Schnell : generation ultra-rapide (4 steps suffisent)
Points forts : excellente adherence au prompt, texte lisible, compositions complexes
VRAM : 12 Go+ recommande (quantifie possible pour 8 Go)

La derniere generation de Stability AI.

Toujours excellent et tres supporte par la communaute.

Load Checkpoint (Flux) → CLIP Text Encode → KSampler → VAE Decode → Save Image

Utilise un double CLIP (CLIP-L + T5-XXL)
CFG : 1.0 pour Schnell, 3.5 pour Dev (pas besoin de prompt negatif avec guidance)
Sampler : euler recommande
Steps : 4 pour Schnell, 20 pour Dev

Controlez la composition de l’image avec des images de reference :

Workflow : Ajoutez un node Apply ControlNet entre votre conditioning et le KSampler.

Transferez le style ou le sujet d’une image de reference.

Affinez le style ou ajoutez des concepts specifiques :

Poids : (mot important:1.3) augmente l’importance
Negatif : [mot a eviter] reduit la presence
BREAK : separe les concepts dans le prompt
Embeddings : utilisez des embeddings pre-entraines pour des styles specifiques

Pour generer plusieurs images automatiquement :

Batch Size dans Empty Latent Image : genere N images en une seule passe
Queue multiple : lancez plusieurs generations a la suite
Load Images from Directory : traitez un dossier entier d’images de reference