Aller au contenu

Lip Sync & Voix IA (TTS)

La synchronisation labiale (lip sync) et la synthese vocale (TTS) permettent de creer des videos avec des personnages parlants de maniere realiste.

Modeles de Lip Sync

LivePortrait (Recommande)

Le modele le plus avance pour l’animation faciale en temps reel.

Fonctionnalites : lip sync, expressions faciales, mouvements de tete
Qualite : tres realiste, transitions fluides
Input : image portrait + audio ou video de reference
VRAM : 4 Go suffisent
Custom node : ComfyUI-LivePortrait

SadTalker

Un classique de la generation de talking heads.

Fonctionnalites : animation faciale a partir d’audio
Style : resultats un peu plus “rigides” que LivePortrait
Avantage : leger et rapide
Custom node : ComfyUI-SadTalker

Wav2Lip

Specialise uniquement dans la synchronisation labiale.

Points forts : excellente precision du lip sync
Limites : ne modifie que la zone de la bouche
Ideal pour : post-traitement de videos existantes
Custom node : ComfyUI-Wav2Lip

Synthese vocale (TTS)

Fish Speech

Le meilleur TTS open source multi-langue en 2025.

Langues : francais, anglais, chinois, japonais…
Clonage de voix : quelques secondes d’audio suffisent
Qualite : quasi-indistinguable d’une voix humaine
Custom node : ComfyUI-FishSpeech

XTTS (Coqui)

TTS multi-langue avec clonage de voix.

24 langues supportees dont le francais
Clonage : 6-10 secondes de reference audio
Points forts : emotion et intonation naturelles
Custom node : ComfyUI-XTTS

Bark

Modele TTS par Suno AI avec capacites musicales.

Voix : pre-defined speakers + clonage basique
Points forts : peut generer rires, hesitations, musique
Limites : qualite variable, moins de controle
Ideal pour : contenus creatifs et expressifs

Pipeline complet : Avatar parlant

Etape 1 : Generer le portrait

Utilisez Flux ou SDXL pour creer un portrait de face :

Prompt: portrait of a professional woman, front facing, neutral
expression, studio lighting, white background, photorealistic

Etape 2 : Generer la voix

Avec Fish Speech ou XTTS :

Ecrivez le texte a prononcer
(Optionnel) Fournissez un echantillon de voix pour le clonage
Generez le fichier audio WAV

Etape 3 : Appliquer le Lip Sync

Avec LivePortrait :

Chargez le portrait genere (Load Image)
Chargez l’audio genere (Load Audio)
Appliquez LivePortrait (portrait + audio → video animee)
Exportez la video

Etape 4 : Post-traitement

Upscale la video si necessaire
Ajoutez un fond ou un decor
Mixez avec une musique de fond

Conseils pour de meilleurs resultats

Pour le lip sync

Portrait de face : les angles frontaux donnent les meilleurs resultats
Expression neutre : laissez le modele controler les expressions
Haute resolution : partez d’un portrait en haute qualite
Eclairage uniforme : evitez les ombres fortes sur le visage

Pour le TTS

Texte clair : ponctuation correcte pour de bonnes pauses
Debit : ajustez la vitesse de parole selon le contexte
Echantillon de reference : utilisez un echantillon propre et clair
Post-traitement audio : normalisez le volume

Cas d’usage

Videos explicatives : avatar presentateur pour tutoriels
Marketing : porte-parole IA pour des campagnes
E-learning : professeur virtuel multilingue
Podcasts : visualisation video d’un podcast audio
Accessibilite : ajout de narration a des contenus visuels

Prochaines etapes

Text-to-Video : pipeline video complet
Image-to-Video : animation d’images
Les modeles video : comparatif des modeles