ComfyUI  >  Fluxos de Trabalho  >  EchoMimic | Animações de Retratos Guiadas por Áudio

EchoMimic | Animações de Retratos Guiadas por Áudio

EchoMimic é uma ferramenta que permite criar cabeças falantes realistas e gestos corporais que se sincronizam perfeitamente com o áudio fornecido. Ao aproveitar técnicas avançadas de IA, o EchoMimic analisa o áudio de entrada e gera expressões faciais, movimentos labiais e linguagem corporal realistas que combinam perfeitamente com as palavras faladas e emoções. Com o EchoMimic, você pode dar vida aos seus personagens e criar conteúdo animado que cativa seu público.

ComfyUI EchoMimic Fluxo de Trabalho

EchoMimic | Audio-driven Portrait Animations
Deseja executar este fluxo de trabalho?
  • Fluxos de trabalho totalmente operacionais
  • Sem nós ou modelos ausentes
  • Nenhuma configuração manual necessária
  • Apresenta visuais impressionantes

ComfyUI EchoMimic Exemplos

ComfyUI EchoMimic Descrição

EchoMimic é uma ferramenta para gerar animações de retratos guiadas por áudio incrivelmente realistas. Utiliza técnicas de aprendizado profundo para analisar o áudio de entrada e gerar expressões faciais, movimentos labiais e gestos da cabeça correspondentes que combinam de perto com o conteúdo emocional e fonético do discurso.

EchoMimic V2 foi desenvolvido por uma equipe de pesquisadores do Departamento de Tecnologia Terminal da Alipay, Ant Group, incluindo Rang Meng, Xingyu Zhang, Yuming Li e Chenguang Ma. Para informações detalhadas, por favor visite /. O nó ComfyUI_EchoMimic foi desenvolvido por /. Todo o crédito vai para a significativa contribuição deles.

EchoMimic V1 e V2

  • EchoMimic V1: Animações de Retratos Guiadas por Áudio Realistas com Controle de Marco Personalizável
  • EchoMimic V2: Animações Humanas Semi-Corpo Expressivas e Simplificadas

A principal diferença é que o EchoMimic V2 visa alcançar uma animação humana meio corpo impressionante enquanto simplifica condições de controle desnecessárias em comparação com o EchoMimic V1. EchoMimic V2 utiliza uma estratégia inovadora de Harmonização Dinâmica Áudio-Postura para aprimorar expressões faciais e gestos corporais.

Pontos Fortes e Fracos do EchoMimic V2

Pontos Fortes:

  • EchoMimic V2 gera animações de retratos altamente realistas e expressivas guiadas por áudio
  • EchoMimic V2 estende a animação para a parte superior do corpo, não apenas para a região da cabeça
  • EchoMimic V2 reduz a complexidade das condições enquanto mantém a qualidade da animação em comparação com o EchoMimic V1
  • EchoMimic V2 incorpora perfeitamente dados de headshot para aprimorar expressões faciais

Pontos Fracos:

  • EchoMimic V2 requer uma fonte de áudio correspondente ao retrato para melhores resultados
  • EchoMimic V2 atualmente carece de código de sincronização de postura, usando um arquivo de postura padrão
  • Gerar animações de longa duração e alta qualidade com EchoMimic V2 pode ser computacionalmente intensivo
  • EchoMimic V2 funciona melhor em imagens de retratos cortadas em vez de fotos de corpo inteiro

Como Usar o Workflow ComfyUI EchoMimic

No nó "Echo_LoadModel", você tem a opção de selecionar entre EchoMimic v1 e EchoMimic v2:

  1. EchoMimic v1: Esta versão foca em gerar animações de retratos guiadas por áudio realistas com a capacidade de personalizar o controle de marcos. É bem adequado para criar animações faciais realistas que combinam de perto com o áudio de entrada.
  2. EchoMimic v2: Esta versão visa simplificar o processo de animação enquanto entrega animações humanas expressivas e semi-corpo. Estende a animação além apenas da região facial para incluir movimentos da parte superior do corpo. No entanto, por favor, note que o recurso de sincronização de postura para v2 ainda não está implementado na versão atual do workflow ComfyUI. Se você selecionar 'None' para o caminho da postura, o arquivo de postura oficial padrão será usado.

Aqui está um guia passo a passo sobre como usar o workflow ComfyUI fornecido:

Passo 1. Carregue sua imagem de retrato usando o nó LoadImage. Esta deve ser uma foto em close do rosto e ombros do sujeito.

EchoMimic

Passo 2. Carregue seu arquivo de áudio usando o nó LoadAudio. O discurso no áudio deve corresponder à identidade do sujeito do retrato.

EchoMimic

Passo 3. Use o nó Echo_LoadModel para carregar o modelo EchoMimic. Configurações principais:

  • Escolha a versão (V1 ou V2).
  • Selecione o modo de inferência, por exemplo, modo guiado por áudio.
EchoMimic

Passo 4. Conecte a imagem, o áudio e o modelo carregado ao nó Echo_Sampler. Configurações principais:

  • pose_dir: O caminho do diretório para os arquivos de sequência de postura usados em modos de animação guiados por postura. Se configurado como "none", nenhuma sequência de postura será usada.
  • seed: A semente aleatória para gerar resultados consistentes em execuções. Deve ser um número inteiro entre 0 e MAX_SEED.
  • cfg: A escala de orientação livre de classificação, controlando a força do condicionamento de áudio. Valores mais altos resultam em movimentos guiados por áudio mais pronunciados. O valor padrão é 2.5, e pode variar de 0.0 a 10.0.
  • steps: O número de passos de difusão para gerar cada quadro. Valores mais altos produzem animações mais suaves, mas demoram mais para gerar. O padrão é 30, e pode variar de 1 a 100.
  • fps: A taxa de quadros do vídeo de saída em quadros por segundo. O padrão é 25, e pode variar de 5 a 100.
  • sample_rate: A taxa de amostragem do áudio de entrada em Hz. O padrão é 16000, e pode variar de 8000 a 48000 em incrementos de 1000.
  • facemask_ratio: A proporção da área da máscara facial em relação à área total da imagem. Controla o tamanho da região ao redor do rosto que é animada. O padrão é 0.1, e pode variar de 0.0 a 1.0.
  • facecrop_ratio: A proporção da área de corte do rosto em relação à área total da imagem. Determina quanto da imagem é dedicada à região do rosto. O padrão é 0.8, e pode variar de 0.0 a 1.0.
  • context_frames: O número de quadros passados e futuros a serem usados como contexto para gerar cada quadro. O padrão é 12, e pode variar de 0 a 50.
  • context_overlap: O número de quadros sobrepostos entre janelas de contexto adjacentes. O padrão é 3, e pode variar de 0 a 10.
  • length: O comprimento do vídeo de saída em quadros. Deve ser baseado na duração do seu áudio de entrada e na configuração de fps. Por exemplo, se seu áudio tiver 6 segundos de duração e o fps estiver configurado para 25, o comprimento deve ser de 150 quadros. O comprimento pode variar de 50 a 5000 quadros.
  • width: A largura dos quadros do vídeo de saída em pixels. O padrão é 512, e pode variar de 128 a 1024 em incrementos de 64.
  • height: A altura dos quadros do vídeo de saída em pixels. O padrão é 512, e pode variar de 128 a 1024 em incrementos de 64.
EchoMimic

Por favor, note que a geração de vídeo pode levar algum tempo. Por exemplo, criar um vídeo a partir de um clipe de áudio de 6 segundos usando uma máquina 2XL no RunComfy leva cerca de 20 minutos.

Deseja Mais Fluxos de Trabalho do ComfyUI?

RunComfy

© Copyright 2024 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes.