La technique Hallo2 a été développée par Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu et Jingdong Wang de l'Université Fudan et Baidu Inc. Pour plus d'informations, visitez . Les nœuds et le flux de travail ComfyUI_Hallo2 ont été développés par smthemex. Pour plus de détails, visitez . Tous les crédits à leurs contributions.
Hallo2 est un modèle de pointe pour générer des vidéos d'animation de portraits pilotées par audio de haute qualité et de longue durée en résolution 4K. Il s'appuie sur le modèle original Hallo avec plusieurs améliorations clés :
Hallo2 y parvient en utilisant des techniques avancées telles que l'augmentation de données pour maintenir la cohérence sur de longues durées, la quantification vectorielle des codes latents pour la résolution 4K et un processus de débruitage amélioré guidé à la fois par l'audio et le texte.
Hallo2 combine plusieurs modèles et techniques avancés d'IA pour créer ses vidéos de portraits de haute qualité :
En résumé - Hallo2 prend en entrée un audio et une image de portrait, dispose d'un "agent" IA qui sculpte des images vidéo pour les assortir tout en restant fidèle au portrait original, et emploie quelques astuces supplémentaires pour garder tout synchronisé et cohérent même dans les longues vidéos. Toutes ces parties travaillent ensemble dans un pipeline à étapes multiples pour produire les résultats impressionnants que vous voyez.
Hallo2 a été intégré dans ComfyUI via un flux de travail personnalisé avec plusieurs nœuds spécialisés. Voici comment l'utiliser :
LoadImage
. Il doit s'agir d'un portrait clair de face. (Conseils : plus votre portrait de référence est bien cadré et éclairé, meilleurs seront les résultats. Évitez les profils latéraux, les occlusions, les arrière-plans chargés, etc.)LoadAudio
. Il doit correspondre à l'humeur que vous souhaitez que le portrait exprime.HalloPreImgAndAudio
. Cela prétraite l'image et l'audio en incorporations. Paramètres clés :
audio_separator
: Modèle pour séparer la parole du bruit de fond. Laissez généralement par défaut.face_expand_ratio
: Combien étendre la région du visage détectée. Des valeurs plus élevées incluent plus de cheveux/arrière-plan.width
/height
: Résolution de génération. Des valeurs plus élevées sont plus lentes mais plus détaillées. 512-1024 carré est un bon équilibre.fps
: FPS vidéo cible. 25 est un bon défaut.HalloLoader
. Pointez-le vers votre point de contrôle Hallo2, VAE, et fichiers de module de mouvement.HalloSampler
. Cela effectue la génération vidéo réelle. Paramètres clés :
seed
: Graine aléatoire qui détermine les détails mineurs. Changez-la si vous n'aimez pas le premier résultat.pose_scale
/face_scale
/lip_scale
: Combien échelle l'intensité des mouvements de pose, d'expression faciale et de lèvres. 1.0 = pleine intensité, 0.0 = gelé.cfg
: Échelle de guidage sans classificateur. Plus élevé = suit plus étroitement le conditionnement mais est moins diversifié.steps
: Nombre d'étapes de débruitage. Plus d'étapes = meilleure qualité mais plus lent.HallosUpscaleloader
et HallosVideoUpscale
à la fin de la chaîne. Le chargeur d'upscaling lit un modèle d'upscaling préentraîné, tandis que le nœud d'upscaling effectue réellement l'upscaling en 4K.© Droits d'auteur 2024 RunComfy. Tous droits réservés.