Aller au contenu

Lip Sync & Voix IA (TTS)

La synchronisation labiale (lip sync) et la synthese vocale (TTS) permettent de creer des videos avec des personnages parlants de maniere realiste.

Modeles de Lip Sync

LivePortrait (Recommande)

Le modele le plus avance pour l’animation faciale en temps reel.

  • Fonctionnalites : lip sync, expressions faciales, mouvements de tete
  • Qualite : tres realiste, transitions fluides
  • Input : image portrait + audio ou video de reference
  • VRAM : 4 Go suffisent
  • Custom node : ComfyUI-LivePortrait

SadTalker

Un classique de la generation de talking heads.

  • Fonctionnalites : animation faciale a partir d’audio
  • Style : resultats un peu plus “rigides” que LivePortrait
  • Avantage : leger et rapide
  • Custom node : ComfyUI-SadTalker

Wav2Lip

Specialise uniquement dans la synchronisation labiale.

  • Points forts : excellente precision du lip sync
  • Limites : ne modifie que la zone de la bouche
  • Ideal pour : post-traitement de videos existantes
  • Custom node : ComfyUI-Wav2Lip

Synthese vocale (TTS)

Fish Speech

Le meilleur TTS open source multi-langue en 2025.

  • Langues : francais, anglais, chinois, japonais…
  • Clonage de voix : quelques secondes d’audio suffisent
  • Qualite : quasi-indistinguable d’une voix humaine
  • Custom node : ComfyUI-FishSpeech

XTTS (Coqui)

TTS multi-langue avec clonage de voix.

  • 24 langues supportees dont le francais
  • Clonage : 6-10 secondes de reference audio
  • Points forts : emotion et intonation naturelles
  • Custom node : ComfyUI-XTTS

Bark

Modele TTS par Suno AI avec capacites musicales.

  • Voix : pre-defined speakers + clonage basique
  • Points forts : peut generer rires, hesitations, musique
  • Limites : qualite variable, moins de controle
  • Ideal pour : contenus creatifs et expressifs

Pipeline complet : Avatar parlant

Etape 1 : Generer le portrait

Utilisez Flux ou SDXL pour creer un portrait de face :

Prompt: portrait of a professional woman, front facing, neutral
expression, studio lighting, white background, photorealistic

Etape 2 : Generer la voix

Avec Fish Speech ou XTTS :

  1. Ecrivez le texte a prononcer
  2. (Optionnel) Fournissez un echantillon de voix pour le clonage
  3. Generez le fichier audio WAV

Etape 3 : Appliquer le Lip Sync

Avec LivePortrait :

  1. Chargez le portrait genere (Load Image)
  2. Chargez l’audio genere (Load Audio)
  3. Appliquez LivePortrait (portrait + audio → video animee)
  4. Exportez la video

Etape 4 : Post-traitement

  • Upscale la video si necessaire
  • Ajoutez un fond ou un decor
  • Mixez avec une musique de fond

Conseils pour de meilleurs resultats

Pour le lip sync

  • Portrait de face : les angles frontaux donnent les meilleurs resultats
  • Expression neutre : laissez le modele controler les expressions
  • Haute resolution : partez d’un portrait en haute qualite
  • Eclairage uniforme : evitez les ombres fortes sur le visage

Pour le TTS

  • Texte clair : ponctuation correcte pour de bonnes pauses
  • Debit : ajustez la vitesse de parole selon le contexte
  • Echantillon de reference : utilisez un echantillon propre et clair
  • Post-traitement audio : normalisez le volume

Cas d’usage

  • Videos explicatives : avatar presentateur pour tutoriels
  • Marketing : porte-parole IA pour des campagnes
  • E-learning : professeur virtuel multilingue
  • Podcasts : visualisation video d’un podcast audio
  • Accessibilite : ajout de narration a des contenus visuels

Prochaines etapes