Lip Sync & Voix IA (TTS)
La synchronisation labiale (lip sync) et la synthese vocale (TTS) permettent de creer des videos avec des personnages parlants de maniere realiste.
Modeles de Lip Sync
LivePortrait (Recommande)
Le modele le plus avance pour l’animation faciale en temps reel.
- Fonctionnalites : lip sync, expressions faciales, mouvements de tete
- Qualite : tres realiste, transitions fluides
- Input : image portrait + audio ou video de reference
- VRAM : 4 Go suffisent
- Custom node :
ComfyUI-LivePortrait
SadTalker
Un classique de la generation de talking heads.
- Fonctionnalites : animation faciale a partir d’audio
- Style : resultats un peu plus “rigides” que LivePortrait
- Avantage : leger et rapide
- Custom node :
ComfyUI-SadTalker
Wav2Lip
Specialise uniquement dans la synchronisation labiale.
- Points forts : excellente precision du lip sync
- Limites : ne modifie que la zone de la bouche
- Ideal pour : post-traitement de videos existantes
- Custom node :
ComfyUI-Wav2Lip
Synthese vocale (TTS)
Fish Speech
Le meilleur TTS open source multi-langue en 2025.
- Langues : francais, anglais, chinois, japonais…
- Clonage de voix : quelques secondes d’audio suffisent
- Qualite : quasi-indistinguable d’une voix humaine
- Custom node :
ComfyUI-FishSpeech
XTTS (Coqui)
TTS multi-langue avec clonage de voix.
- 24 langues supportees dont le francais
- Clonage : 6-10 secondes de reference audio
- Points forts : emotion et intonation naturelles
- Custom node :
ComfyUI-XTTS
Bark
Modele TTS par Suno AI avec capacites musicales.
- Voix : pre-defined speakers + clonage basique
- Points forts : peut generer rires, hesitations, musique
- Limites : qualite variable, moins de controle
- Ideal pour : contenus creatifs et expressifs
Pipeline complet : Avatar parlant
Etape 1 : Generer le portrait
Utilisez Flux ou SDXL pour creer un portrait de face :
Prompt: portrait of a professional woman, front facing, neutralexpression, studio lighting, white background, photorealisticEtape 2 : Generer la voix
Avec Fish Speech ou XTTS :
- Ecrivez le texte a prononcer
- (Optionnel) Fournissez un echantillon de voix pour le clonage
- Generez le fichier audio WAV
Etape 3 : Appliquer le Lip Sync
Avec LivePortrait :
- Chargez le portrait genere (Load Image)
- Chargez l’audio genere (Load Audio)
- Appliquez LivePortrait (portrait + audio → video animee)
- Exportez la video
Etape 4 : Post-traitement
- Upscale la video si necessaire
- Ajoutez un fond ou un decor
- Mixez avec une musique de fond
Conseils pour de meilleurs resultats
Pour le lip sync
- Portrait de face : les angles frontaux donnent les meilleurs resultats
- Expression neutre : laissez le modele controler les expressions
- Haute resolution : partez d’un portrait en haute qualite
- Eclairage uniforme : evitez les ombres fortes sur le visage
Pour le TTS
- Texte clair : ponctuation correcte pour de bonnes pauses
- Debit : ajustez la vitesse de parole selon le contexte
- Echantillon de reference : utilisez un echantillon propre et clair
- Post-traitement audio : normalisez le volume
Cas d’usage
- Videos explicatives : avatar presentateur pour tutoriels
- Marketing : porte-parole IA pour des campagnes
- E-learning : professeur virtuel multilingue
- Podcasts : visualisation video d’un podcast audio
- Accessibilite : ajout de narration a des contenus visuels
Prochaines etapes
- Text-to-Video : pipeline video complet
- Image-to-Video : animation d’images
- Les modeles video : comparatif des modeles