La técnica Hallo2 fue desarrollada por Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu y Jingdong Wang de la Universidad Fudan y Baidu Inc. Para más información, visita . Los nodos y el flujo de trabajo de ComfyUI_Hallo2 fueron desarrollados por smthemex. Para más detalles, visita . Todos los créditos a sus contribuciones.
Hallo2 es un modelo de vanguardia para generar videos de animación de retratos impulsados por audio de alta calidad, larga duración y resolución 4K. Se basa en el modelo original Hallo con varias mejoras clave:
Hallo2 logra esto utilizando técnicas avanzadas como la aumentación de datos para mantener la consistencia durante largas duraciones, la cuantización vectorial de códigos latentes para resolución 4K y un proceso de eliminación de ruido mejorado guiado tanto por audio como por texto.
Hallo2 combina varios modelos de IA avanzados y técnicas para crear sus videos de retratos de alta calidad:
En resumen, Hallo2 toma audio e imagen de retrato, tiene un "agente" de IA que esculpe fotogramas de video para que coincidan mientras se mantiene fiel al retrato original, y emplea algunos trucos adicionales para mantener todo sincronizado y coherente incluso en videos largos. Todas estas partes trabajan juntas en una canalización de múltiples pasos para producir los impresionantes resultados que ves.
Hallo2 ha sido integrado en ComfyUI a través de un flujo de trabajo personalizado con varios nodos especializados. Aquí se explica cómo usarlo:
LoadImage
. Esta debe ser un retrato claro y frontal. (Consejos: Cuanto mejor enmarcado e iluminado esté tu retrato de referencia, mejores serán los resultados. Evita perfiles laterales, oclusiones, fondos ocupados, etc.)LoadAudio
. Debe coincidir con el estado de ánimo que deseas que el retrato exprese.HalloPreImgAndAudio
. Esto preprocesa la imagen y el audio en incrustaciones. Parámetros clave:
audio_separator
: Modelo para separar el habla del ruido de fondo. Generalmente dejarlo en el valor predeterminado.face_expand_ratio
: Cuánto expandir la región detectada del rostro. Valores más altos incluyen más del cabello/fondo.width
/height
: Resolución de generación. Valores más altos son más lentos pero más detallados. 512-1024 cuadrado es un buen equilibrio.fps
: FPS de video objetivo. 25 es un buen valor predeterminado.HalloLoader
. Apúntalo a tu archivo de punto de control Hallo2, VAE y archivos del módulo de movimiento.HalloSampler
. Esto realiza la generación real del video. Parámetros clave:
seed
: Semilla aleatoria que determina detalles menores. Cámbiala si no te gusta el primer resultado.pose_scale
/face_scale
/lip_scale
: Cuánto escalar la intensidad de los movimientos de pose, expresión facial y labios. 1.0 = intensidad completa, 0.0 = congelado.cfg
: Escala de orientación sin clasificador. Más alto = sigue más de cerca la condicionante pero es menos diverso.steps
: Número de pasos de eliminación de ruido. Más pasos = mejor calidad pero más lento.HallosUpscaleloader
y HallosVideoUpscale
al final de la cadena. El cargador de escalado lee un modelo de escalado previamente entrenado, mientras que el nodo de escalado realiza el escalado a 4K.© Derechos de autor 2024 RunComfy. Todos los derechos reservados.