ComfyUI > Fluxos de Trabalho > Hallo2 | Animação de Retrato com Sincronização Labial

Hallo2 | Animação de Retrato com Sincronização Labial

Hallo2 é um modelo de IA avançado que gera animações de retratos de alta qualidade, sincronizadas com os lábios, guiadas por entrada de áudio. Utilizando técnicas como modelos de difusão, codificação de áudio e detecção facial, o Hallo2 cria animações em 4K com movimentos labiais e expressões sincronizadas com precisão. Integrado perfeitamente ao framework ComfyUI, o Hallo2 permite que os usuários criem animações de retratos realistas e sincronizadas com os lábios.

Os nós e o fluxo de trabalho ComfyUI_Hallo2 foram desenvolvidos por smthemex. Para mais detalhes, visite o ComfyUI_Hallo2 GitHub.

ComfyUI Hallo2 Lip-Sync Fluxo de Trabalho

Hallo2: Lip-Sync Portrait Driven by Audios

Deseja executar este fluxo de trabalho?

Fluxos de trabalho totalmente operacionais
Sem nós ou modelos ausentes
Nenhuma configuração manual necessária
Apresenta visuais impressionantes

ComfyUI Hallo2 Lip-Sync Exemplos

ComfyUI Hallo2 Lip-Sync Descrição

A técnica Hallo2 foi desenvolvida por Jiahao Cui, Hui Li, Yao Yao, Hao Zhu, Hanlin Shang, Kaihui Cheng, Hang Zhou, Siyu Zhu e Jingdong Wang da Fudan University e Baidu Inc. Para mais informações, visite . Os nós e o fluxo de trabalho ComfyUI_Hallo2 foram desenvolvidos por smthemex. Para mais detalhes, visite . Todos os créditos às suas contribuições.

1. Sobre o Hallo2

Hallo2 é um modelo de ponta para gerar vídeos de animação de retratos guiados por áudio, de longa duração e em resolução 4K. Ele se baseia no modelo original Hallo com várias melhorias importantes:

Suporta a geração de vídeos muito mais longos, de até dezenas de minutos ou até horas
Gera vídeos em resolução 4K
Permite controlar expressão e pose usando prompts textuais além do áudio

O Hallo2 alcança isso usando técnicas avançadas como aumento de dados para manter a consistência ao longo de longas durações, quantização vetorial de códigos latentes para resolução 4K e um processo de remoção de ruído aprimorado guiado por áudio e texto.

2. Características Técnicas do Hallo2

Hallo2 combina vários modelos e técnicas avançadas de IA para criar seus vídeos de retratos de alta qualidade:

Diffusion Model: Este é o "motor" principal que gera os quadros de vídeo. Começa com ruído aleatório e gradualmente o refina para corresponder ao resultado desejado, guiado pelos prompts de áudio e texto.
3D U-Net: Este é um tipo de rede neural que atua como o "escultor" no processo de difusão. Ele observa o quadro ruidoso atual, o áudio e as instruções de texto, e sugere como alterar o ruído para que pareça mais com o retrato final.
Audio Encoder: O Hallo2 usa um modelo chamado Wav2Vec2 como seus "ouvidos" para entender o áudio, convertendo a forma de onda bruta em uma representação compacta que captura tom, velocidade e conteúdo da fala.
Face Detector: Para ajudá-lo a focar na animação do rosto, o Hallo2 usa um modelo de detecção facial para localizar automaticamente o rosto do retrato na imagem de referência. Ele então sabe onde aplicar os movimentos labiais e de expressão.
Image Compressor: Para trabalhar eficientemente com imagens em alta resolução 4K, o Hallo2 usa um tipo especial de modelo autoencoder (VQ-VAE) para compactá-las em uma representação "latente" menor, e depois decodificá-las de volta para 4K no final. Isso é como os JPEGs reduzem o tamanho dos arquivos de imagem enquanto preservam a qualidade.
Augmentation Tricks: Para ajudar a manter a qualidade em vídeos longos, o Hallo2 aplica alguns "aumentos de dados" inteligentes aos quadros gerados anteriormente antes de usá-los para influenciar o próximo quadro. Isso inclui ocasionalmente apagar partes aleatórias ou adicionar ruído sutil. Isso ajuda a evitar erros acumulados que poderiam, de outra forma, se acumular e arruinar a consistência ao longo do tempo.

Em resumo - o Hallo2 recebe áudio e uma imagem de retrato, tem um "agente" de IA que esculpe os quadros de vídeo para correspondê-los enquanto permanece fiel ao retrato original, e emprega alguns truques extras para manter tudo sincronizado e coerente, mesmo em vídeos longos. Todas essas partes trabalham juntas em um pipeline de múltiplas etapas para produzir os resultados impressionantes que você vê.

3. Como Usar o ComfyUI Hallo2 Workflow

O Hallo2 foi integrado ao ComfyUI por meio de um fluxo de trabalho personalizado com vários nós especializados. Veja como usá-lo:

Carregue sua imagem de retrato de referência usando o nó LoadImage. Esta deve ser um retrato claro de frente. (Dicas: Quanto melhor enquadrada e iluminada sua imagem de referência, melhores serão os resultados. Evite perfis laterais, oclusões, fundos ocupados, etc.)
Carregue seu áudio de condução usando o nó LoadAudio. Deve corresponder ao humor que você deseja que o retrato expresse.
Conecte a imagem e o áudio ao nó HalloPreImgAndAudio. Isso pré-processa a imagem e o áudio em embeddings. Parâmetros chave:
- audio_separator: Modelo para separar fala de ruído de fundo. Geralmente deixe no padrão.
- face_expand_ratio: Quanto expandir a região do rosto detectada. Valores mais altos incluem mais cabelo/fundo.
- width/height: Resolução de geração. Valores mais altos são mais lentos, mas mais detalhados. 512-1024 quadrado é um bom equilíbrio.
- fps: FPS de vídeo alvo. 25 é um bom padrão.
Carregue o modelo principal Hallo2 usando o nó HalloLoader. Aponte para seu checkpoint Hallo2, VAE e arquivos do módulo de movimento.
Conecte os embeddings de imagem e áudio pré-processados, juntamente com o modelo carregado, ao nó HalloSampler. Isso realiza a geração real do vídeo. Parâmetros chave:
- seed: Semente aleatória que determina detalhes menores. Mude se você não gostar do primeiro resultado.
- pose_scale/face_scale/lip_scale: Quanto escalar a intensidade de pose, expressão facial e movimentos labiais. 1.0 = intensidade total, 0.0 = congelado.
- cfg: Escala de orientação sem classificador. Maior = segue mais de perto o condicionamento, mas é menos diverso.
- steps: Número de etapas de remoção de ruído. Mais etapas = melhor qualidade, mas mais lento.
Neste ponto, você pode visualizar o vídeo gerado. Para melhorar ainda mais a qualidade com super-resolução, adicione os nós HallosUpscaleloader e HallosVideoUpscale ao final da cadeia. O carregador de upscale lê um modelo de upscale pré-treinado, enquanto o nó de upscale realiza o upscale para 4K.

Deseja Mais Fluxos de Trabalho do ComfyUI?

Z-Depth Maps | Animações no estilo Houdini

Crie animações deslumbrantes no estilo Houdini com Z-Depth Maps usando apenas imagem 2D.

Outpainting | Expandir Imagem

Expanda facilmente imagens usando o nó de outpainting e o modelo de inpainting do ControlNet.

SUPIR + Foolhardy Remacri | Aumento de escala de imagem/vídeo 8K

Aumente a escala de imagens para 8K com o modelo SUPIR e 4x Foolhardy Remacri.

SVD + IPAdapter V1 | Imagem para Vídeo

Utilize IPAdapters para geração de imagem estática e Stable Video Diffusion para geração dinâmica de vídeo.

Epic CineFX | Workflow CogVideoX, ControlNet e Retrato ao Vivo

Transforme filmagens simples em cenas épicas de filme com CogVideoX, ControlNet e Retrato ao Vivo.

Treinamento FLUX LoRA

Guia você por todo o processo de treinamento de modelos FLUX LoRA usando seus conjuntos de dados personalizados.

Creative Software Soap

Combine IPAdapter e ControlNet para aplicação eficiente de texturas e visuais aprimorados.

BRIA AI RMBG 1.4 vs Segment Anything | Remoção de Fundo

Remove fundos de forma eficiente, comparando o RMBG 1.4 da BRIA AI com o Segment Anything.