A técnica Hallo2 foi desenvolvida por Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu e Jingdong Wang da Fudan University e Baidu Inc. Para mais informações, visite . Os nós e o fluxo de trabalho ComfyUI_Hallo2 foram desenvolvidos por smthemex. Para mais detalhes, visite . Todos os créditos às suas contribuições.
Hallo2 é um modelo de ponta para gerar vídeos de animação de retratos guiados por áudio, de longa duração e em resolução 4K. Ele se baseia no modelo original Hallo com várias melhorias importantes:
O Hallo2 alcança isso usando técnicas avançadas como aumento de dados para manter a consistência ao longo de longas durações, quantização vetorial de códigos latentes para resolução 4K e um processo de remoção de ruído aprimorado guiado por áudio e texto.
Hallo2 combina vários modelos e técnicas avançadas de IA para criar seus vídeos de retratos de alta qualidade:
Em resumo - o Hallo2 recebe áudio e uma imagem de retrato, tem um "agente" de IA que esculpe os quadros de vídeo para correspondê-los enquanto permanece fiel ao retrato original, e emprega alguns truques extras para manter tudo sincronizado e coerente, mesmo em vídeos longos. Todas essas partes trabalham juntas em um pipeline de múltiplas etapas para produzir os resultados impressionantes que você vê.
O Hallo2 foi integrado ao ComfyUI por meio de um fluxo de trabalho personalizado com vários nós especializados. Veja como usá-lo:
LoadImage
. Esta deve ser um retrato claro de frente. (Dicas: Quanto melhor enquadrada e iluminada sua imagem de referência, melhores serão os resultados. Evite perfis laterais, oclusões, fundos ocupados, etc.)LoadAudio
. Deve corresponder ao humor que você deseja que o retrato expresse.HalloPreImgAndAudio
. Isso pré-processa a imagem e o áudio em embeddings. Parâmetros chave:
audio_separator
: Modelo para separar fala de ruído de fundo. Geralmente deixe no padrão.face_expand_ratio
: Quanto expandir a região do rosto detectada. Valores mais altos incluem mais cabelo/fundo.width
/height
: Resolução de geração. Valores mais altos são mais lentos, mas mais detalhados. 512-1024 quadrado é um bom equilíbrio.fps
: FPS de vídeo alvo. 25 é um bom padrão.HalloLoader
. Aponte para seu checkpoint Hallo2, VAE e arquivos do módulo de movimento.HalloSampler
. Isso realiza a geração real do vídeo. Parâmetros chave:
seed
: Semente aleatória que determina detalhes menores. Mude se você não gostar do primeiro resultado.pose_scale
/face_scale
/lip_scale
: Quanto escalar a intensidade de pose, expressão facial e movimentos labiais. 1.0 = intensidade total, 0.0 = congelado.cfg
: Escala de orientação sem classificador. Maior = segue mais de perto o condicionamento, mas é menos diverso.steps
: Número de etapas de remoção de ruído. Mais etapas = melhor qualidade, mas mais lento.HallosUpscaleloader
e HallosVideoUpscale
ao final da cadeia. O carregador de upscale lê um modelo de upscale pré-treinado, enquanto o nó de upscale realiza o upscale para 4K.© Copyright 2024 RunComfy. Todos os Direitos Reservados.