La tecnica Hallo2 è stata sviluppata da Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu e Jingdong Wang della Fudan University e Baidu Inc. Per ulteriori informazioni, visita . I nodi e il flusso di lavoro ComfyUI_Hallo2 sono stati sviluppati da smthemex. Per maggiori dettagli, visita . Tutti i crediti per i loro contributi.
Hallo2 è un modello all'avanguardia per la generazione di video animati di ritratti guidati dall'audio di alta qualità, lunga durata e risoluzione 4K. Si basa sul modello originale Hallo con diversi miglioramenti chiave:
Hallo2 raggiunge questo obiettivo utilizzando tecniche avanzate come l'augmentazione dei dati per mantenere la coerenza su lunghe durate, la quantizzazione vettoriale dei codici latenti per la risoluzione 4K e un processo di denoising migliorato guidato sia dall'audio che dal testo.
Hallo2 combina diversi modelli AI avanzati e tecniche per creare i suoi video di ritratti di alta qualità:
In sintesi - Hallo2 prende in input audio e un'immagine di ritratto, ha un "agente" AI che scolpisce i fotogrammi video per abbinarli rimanendo fedele al ritratto originale, e impiega alcuni trucchi extra per mantenere tutto sincronizzato e coerente anche in video lunghi. Tutte queste parti lavorano insieme in una pipeline a più fasi per produrre i risultati impressionanti che vedi.
Hallo2 è stato integrato in ComfyUI tramite un flusso di lavoro personalizzato con diversi nodi specializzati. Ecco come usarlo:
LoadImage
. Deve essere un ritratto chiaro frontale. (Suggerimenti: Più il ritratto di riferimento è ben inquadrato e illuminato, migliori saranno i risultati. Evita profili laterali, occlusioni, sfondi occupati ecc.)LoadAudio
. Deve corrispondere all'umore che vuoi fare esprimere al ritratto.HalloPreImgAndAudio
. Questo preelabora l'immagine e l'audio in embeddings. Parametri chiave:
audio_separator
: Modello per separare il discorso dal rumore di fondo. Generalmente lasciare il valore predefinito.face_expand_ratio
: Quanto espandere la regione del volto rilevato. Valori più alti includono più capelli/sfondo.width
/height
: Risoluzione di generazione. Valori più alti sono più lenti ma più dettagliati. 512-1024 quadrato è un buon equilibrio.fps
: FPS video target. 25 è un buon valore predefinito.HalloLoader
. Puntalo al tuo checkpoint Hallo2, VAE e file del modulo di movimento.HalloSampler
. Questo esegue la generazione video effettiva. Parametri chiave:
seed
: Seme casuale che determina dettagli minori. Cambialo se non ti piace il primo risultato.pose_scale
/face_scale
/lip_scale
: Quanto scalare l'intensità di posa, espressione facciale e movimenti delle labbra. 1.0 = intensità piena, 0.0 = congelato.cfg
: Scala di guida senza classificatore. Più alto = segue più da vicino il condizionamento ma è meno diversificato.steps
: Numero di passaggi di denoising. Più passaggi = migliore qualità ma più lento.HallosUpscaleloader
e HallosVideoUpscale
alla fine della catena. Il caricatore di upscaling legge in un modello di upscaling pre-addestrato, mentre il nodo di upscaling esegue effettivamente l'upscaling a 4K.© Copyright 2024 RunComfy. Tutti i Diritti Riservati.