Die Hallo2-Technik wurde von Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu und Jingdong Wang von der Fudan University und Baidu Inc. entwickelt. Für weitere Informationen besuchen Sie . Die ComfyUI_Hallo2-Knoten und der Workflow wurden von smthemex entwickelt. Für weitere Details besuchen Sie . Alle Anerkennungen für ihre Beiträge.
Hallo2 ist ein hochmodernes Modell zur Erstellung hochwertiger, langdauernder, 4K-Auflösung audiogesteuerter Porträtanimationsvideos. Es baut auf dem ursprünglichen Hallo-Modell auf und bietet mehrere wichtige Verbesserungen:
Hallo2 erreicht dies durch den Einsatz fortschrittlicher Techniken wie Datenaugmentation zur Konsistenzwahrung über lange Zeiträume, Vektorisierung latenter Codes für 4K-Auflösung und einen verbesserten Denoising-Prozess, der sowohl durch Audio als auch Text geführt wird.
Hallo2 kombiniert mehrere fortschrittliche KI-Modelle und Techniken, um seine hochwertigen Porträtvideos zu erstellen:
Zusammengefasst - Hallo2 nimmt Audio und ein Porträtbild auf, hat einen KI-"Agenten", der Videoframes formt, um sie anzupassen, während es dem ursprünglichen Porträt treu bleibt und einige zusätzliche Tricks anwendet, um alles synchron und kohärent zu halten, selbst in langen Videos. Alle diese Teile arbeiten zusammen in einer mehrstufigen Pipeline, um die beeindruckenden Ergebnisse zu erzielen, die Sie sehen.
Hallo2 wurde über einen benutzerdefinierten Workflow mit mehreren spezialisierten Knoten in ComfyUI integriert. So verwenden Sie es:
LoadImage
-Knoten. Dies sollte ein klares frontales Porträt sein. (Tipps: Je besser gerahmt und beleuchtet Ihr Referenzporträt ist, desto besser werden die Ergebnisse sein. Vermeiden Sie Seitenprofile, Verdeckungen, unruhige Hintergründe etc.)LoadAudio
-Knoten. Es sollte die Stimmung widerspiegeln, die das Porträt ausdrücken soll.HalloPreImgAndAudio
-Knoten. Dies verarbeitet das Bild und das Audio in Einbettungen vor. Wichtige Parameter:
audio_separator
: Modell zur Trennung von Sprache und Hintergrundgeräuschen. Normalerweise auf Standard lassen.face_expand_ratio
: Wie stark der erkannte Gesichtsbereich erweitert wird. Höhere Werte umfassen mehr von den Haaren/Hintergrund.width
/height
: Erzeugungsauflösung. Höhere Werte sind langsamer, aber detaillierter. 512-1024 Quadrat ist ein guter Kompromiss.fps
: Zielvideo-FPS. 25 ist ein guter Standard.HalloLoader
-Knoten. Zeigen Sie auf Ihre Hallo2-Checkpoint-, VAE- und Bewegungsmodul-Dateien.HalloSampler
-Knoten. Dies führt die eigentliche Videogenerierung durch. Wichtige Parameter:
seed
: Zufallswert, der kleine Details bestimmt. Ändern Sie ihn, wenn Ihnen das erste Ergebnis nicht gefällt.pose_scale
/face_scale
/lip_scale
: Wie stark die Intensität von Pose, Gesichtsausdruck und Lippenbewegungen skaliert wird. 1.0 = volle Intensität, 0.0 = eingefroren.cfg
: Classifier-free Guidance-Skala. Höher = folgt der Konditionierung genauer, aber weniger vielfältig.steps
: Anzahl der Denoising-Schritte. Mehr Schritte = bessere Qualität, aber langsamer.HallosUpscaleloader
- und HallosVideoUpscale
-Knoten am Ende der Kette hinzu. Der Upscale-Loader liest ein vortrainiertes Upscaling-Modell ein, während der Upscaler-Knoten das Upscaling auf 4K durchführt.© Urheberrecht 2024 RunComfy. Alle Rechte vorbehalten.