Text-to-Video

Le text-to-video est l’un des cas d’usage les plus avances de ComfyUI, combinant plusieurs modeles pour creer une video complete depuis une simple description.

Pipeline complet Text-to-Video

Un pipeline text-to-video typique enchaine plusieurs etapes :

Texte → Generation image → Image-to-Video → Upscale → Audio/TTS → Video finale

Approche 1 : Generation video directe

Certains modeles supportent le text-to-video directement :

Wan 2.1 T2V : le plus complet
CogVideoX : bonne qualite text-to-video
HunyuanVideo : professionnel
LTX Video : le plus rapide

Approche 2 : Pipeline multi-etapes (recommande)

Pour un controle maximal :

Text-to-Image : generez l’image de depart avec Flux ou SDXL
Image-to-Video : animez avec Wan 2.1 I2V
Post-traitement : upscale, color correction
Audio : ajoutez voix et son

Workflow Wan 2.1 Text-to-Video

Nodes principaux

Load Checkpoint : modele Wan 2.1 T2V
CLIP Text Encode : description de la scene
Wan Video Sampling : generation des frames
VAE Decode : conversion en images
Video Combine : assemblage en video

Prompts efficaces pour la video

La cle d’un bon resultat est un prompt qui decrit :

La scene : ce qui est visible
Le mouvement : ce qui bouge et comment
L’ambiance : eclairage, couleurs, atmosphere
Le style : cinematique, anime, documentaire…

Exemple :

A woman walking through a sunlit forest path, golden autumn leaves
falling gently, camera following from behind, cinematic look,
warm color palette, natural lighting, 4k quality

Creation de contenu a grande echelle

Batch de scenes

Pour creer plusieurs scenes automatiquement :

Preparez une liste de prompts dans un fichier texte
Utilisez le node Load Text File ou Prompt from Line
Bouclez avec Queue pour generer toutes les scenes
Assemblez les clips avec un editeur video ou FFmpeg

Coherence entre les scenes

Utilisez le meme seed de base pour garder un style coherent
Partagez les memes LoRA et embeddings entre les scenes
Gardez des parametres CFG et sampling identiques
Utilisez IP-Adapter avec une image de reference de style

Integration audio

Text-to-Speech

Ajoutez une narration IA a votre video :

Generez le texte de narration
Utilisez Fish Speech, XTTS ou Bark pour la synthese vocale
Synchronisez avec la video

Musique de fond

Generez de la musique avec des modeles comme MusicGen
Ou utilisez de la musique libre de droits
Mixez avec la narration

Exemples de pipelines complets

Video explicative

Script → TTS narration → Image par scene → Animation I2V →
Assemblage video + audio → Export final

Avatar parlant

Portrait → TTS du texte → Lip Sync (LivePortrait) →
Upscale → Export avec audio

Clip style anime

Prompt scene → Flux (style anime LoRA) → Wan 2.1 I2V →
Interpolation frames → Export

Prochaines etapes

Lip Sync & TTS : synchronisation labiale et voix IA
Image-to-Video : animation d’images
Upscale : ameliorer la qualite