ComfyUI  >  Fluxos de Trabalho  >  SVD (Stable Video Diffusion) + SD | Texto para Vídeo

SVD (Stable Video Diffusion) + SD | Texto para Vídeo

Neste fluxo de trabalho ComfyUI, integramos os processos de texto para imagem do Stable Diffusion com os processos de imagem para vídeo do Stable Video Diffusion. Isso permite que você insira texto para gerar uma imagem, que pode então ser convertida diretamente em um vídeo.

ComfyUI SVD Workflow

ComfyUI Stable Video Diffusion (SVD) Workflow
Deseja executar este fluxo de trabalho?
  • Fluxos de trabalho totalmente operacionais
  • Sem nós ou modelos ausentes
  • Nenhuma configuração manual necessária
  • Apresenta visuais impressionantes

ComfyUI SVD Exemplos

ComfyUI SVD Descrição

1. Fluxo de Trabalho ComfyUI Stable Video Diffusion (SVD)

O fluxo de trabalho ComfyUI integra perfeitamente as tecnologias de texto para imagem (Stable Diffusion) e imagem para vídeo (Stable Video Diffusion) para uma conversão eficiente de texto para vídeo. Este fluxo de trabalho permite gerar vídeos diretamente a partir de descrições de texto, começando com uma imagem base que evolui para uma sequência de vídeo dinâmica. Este fluxo de trabalho facilita a realização de animações ou vídeos de texto para vídeo.

2. Visão Geral do Stable Video Diffusion (SVD)

2.1. Introdução ao Stable Video Diffusion (SVD)

O Stable Video Diffusion (SVD) é uma tecnologia de ponta desenvolvida para converter imagens estáticas em conteúdo de vídeo dinâmico. Aproveitando o modelo de imagem Stable Diffusion fundamental, o SVD introduz movimento em imagens estáticas, facilitando a criação de clipes de vídeo curtos. Este avanço em modelos de difusão latente, inicialmente concebidos para síntese de imagens, agora incorpora dimensões temporais para animar elementos visuais estáticos, produzindo vídeos geralmente na faixa de 2 a 5 segundos.

O Stable Video Diffusion está disponível em duas variantes: o SVD padrão, capaz de gerar vídeos com resolução de 576×1024 pixels em 14 quadros, e o SVD-XT aprimorado, que pode produzir até 25 quadros. Ambas as variantes suportam taxas de quadros ajustáveis de 3 a 30 quadros por segundo, atendendo a diversos requisitos de criação de conteúdo digital.

O treinamento do modelo SVD envolve um processo de três etapas: começando com um modelo de imagem, passando para um modelo de vídeo pré-treinado com um extenso conjunto de dados de vídeo e refinando com uma seleção de clipes de vídeo de alta qualidade. Esse processo meticuloso destaca a importância da qualidade do conjunto de dados na otimização dos recursos de produção de vídeo do modelo.

No coração do modelo Stable Video Diffusion está o modelo de imagem Stable Diffusion 2.1, que atua como a espinha dorsal da imagem fundamental. A integração de camadas de convolução temporal e atenção ao estimador de ruído U-Net evolui isso para um poderoso modelo de vídeo, interpretando tensores latentes como sequências de vídeo. Este modelo emprega difusão reversa para desruído simultâneo de todos os quadros, semelhante ao modelo VideoLDM.

Equipado com 1,5 bilhão de parâmetros e treinado em um vasto conjunto de dados de vídeo, o modelo passa por um ajuste fino adicional com um conjunto de dados de vídeo de alta qualidade para desempenho máximo. Dois conjuntos de pesos do modelo SVD estão publicamente acessíveis, projetados para gerar vídeos de 14 quadros e 25 quadros com resolução de 576×1024, respectivamente.

2.2. Principais Recursos do Stable Video Diffusion (SVD)

Ao usar o Stable Video Diffusion no fluxo de trabalho ComfyUI, você pode ajustar os principais parâmetros para personalização da saída de vídeo, incluindo o bucket id de movimento, controlando a intensidade do movimento do vídeo; quadros por segundo (fps), determinando a taxa de quadros; e o nível de aumento, ajustando o nível de ruído da imagem inicial para vários graus de transformação.

2.2.1. Bucket ID de Movimento: Este recurso oferece aos usuários a capacidade de controlar a intensidade do movimento do vídeo. Ao ajustar este parâmetro, você pode ditar a quantidade de movimento observada no vídeo, variando de gestos sutis a ações mais pronunciadas, dependendo do efeito visual desejado.

2.2.2. Quadros por Segundo (fps): Este parâmetro é crucial para determinar a velocidade de reprodução do vídeo. Ajustar os quadros por segundo permite produzir vídeos que podem capturar a dinâmica rápida de uma cena ou apresentar um efeito de câmera lenta, aprimorando assim o aspecto narrativo do conteúdo do vídeo. Essa flexibilidade é particularmente benéfica para criar uma ampla gama de tipos de vídeo, desde anúncios de ritmo acelerado até peças mais contemplativas e orientadas por narrativa.

2.2.3. Parâmetro de Nível de Aumento: Isso ajusta o nível de ruído da imagem inicial, permitindo vários graus de transformação. Ao manipular este parâmetro, você pode controlar até que ponto a imagem original é alterada durante o processo de criação do vídeo. Ajustar o nível de aumento permite manter uma fidelidade mais próxima à imagem original ou aventurar-se em interpretações mais abstratas e artísticas, expandindo assim as possibilidades criativas.

Deseja Mais Fluxos de Trabalho do ComfyUI?

RunComfy

© Copyright 2024 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes.