Aller au contenu

Text-to-Video

Le text-to-video est l’un des cas d’usage les plus avances de ComfyUI, combinant plusieurs modeles pour creer une video complete depuis une simple description.

Pipeline complet Text-to-Video

Un pipeline text-to-video typique enchaine plusieurs etapes :

Texte → Generation image → Image-to-Video → Upscale → Audio/TTS → Video finale

Approche 1 : Generation video directe

Certains modeles supportent le text-to-video directement :

  • Wan 2.1 T2V : le plus complet
  • CogVideoX : bonne qualite text-to-video
  • HunyuanVideo : professionnel
  • LTX Video : le plus rapide

Approche 2 : Pipeline multi-etapes (recommande)

Pour un controle maximal :

  1. Text-to-Image : generez l’image de depart avec Flux ou SDXL
  2. Image-to-Video : animez avec Wan 2.1 I2V
  3. Post-traitement : upscale, color correction
  4. Audio : ajoutez voix et son

Workflow Wan 2.1 Text-to-Video

Nodes principaux

  1. Load Checkpoint : modele Wan 2.1 T2V
  2. CLIP Text Encode : description de la scene
  3. Wan Video Sampling : generation des frames
  4. VAE Decode : conversion en images
  5. Video Combine : assemblage en video

Prompts efficaces pour la video

La cle d’un bon resultat est un prompt qui decrit :

  • La scene : ce qui est visible
  • Le mouvement : ce qui bouge et comment
  • L’ambiance : eclairage, couleurs, atmosphere
  • Le style : cinematique, anime, documentaire…

Exemple :

A woman walking through a sunlit forest path, golden autumn leaves
falling gently, camera following from behind, cinematic look,
warm color palette, natural lighting, 4k quality

Creation de contenu a grande echelle

Batch de scenes

Pour creer plusieurs scenes automatiquement :

  1. Preparez une liste de prompts dans un fichier texte
  2. Utilisez le node Load Text File ou Prompt from Line
  3. Bouclez avec Queue pour generer toutes les scenes
  4. Assemblez les clips avec un editeur video ou FFmpeg

Coherence entre les scenes

  • Utilisez le meme seed de base pour garder un style coherent
  • Partagez les memes LoRA et embeddings entre les scenes
  • Gardez des parametres CFG et sampling identiques
  • Utilisez IP-Adapter avec une image de reference de style

Integration audio

Text-to-Speech

Ajoutez une narration IA a votre video :

  1. Generez le texte de narration
  2. Utilisez Fish Speech, XTTS ou Bark pour la synthese vocale
  3. Synchronisez avec la video

Musique de fond

  • Generez de la musique avec des modeles comme MusicGen
  • Ou utilisez de la musique libre de droits
  • Mixez avec la narration

Exemples de pipelines complets

Video explicative

Script → TTS narration → Image par scene → Animation I2V →
Assemblage video + audio → Export final

Avatar parlant

Portrait → TTS du texte → Lip Sync (LivePortrait) →
Upscale → Export avec audio

Clip style anime

Prompt scene → Flux (style anime LoRA) → Wan 2.1 I2V →
Interpolation frames → Export

Prochaines etapes