ComfyUI  >  Fluxos de Trabalho  >  CCSR | Aumentador de Escala Consistente de Imagem/Vídeo

CCSR | Aumentador de Escala Consistente de Imagem/Vídeo

A integração do modelo CCSR (Content Consistent Super-Resolution) neste fluxo de trabalho de aumento de escala do ComfyUI aprimora significativamente o aumento de escala de imagens e vídeos. O CCSR combina modelos de difusão com GANs (Redes Adversárias Generativas) para refinar estruturas de imagem e melhorar detalhes finos, superando efetivamente as limitações dos métodos tradicionais de aumento de escala. Ao priorizar a consistência do conteúdo, o CCSR minimiza a variabilidade dos resultados, oferecendo um processo de super-resolução estável e eficiente. Além disso, o fluxo de trabalho de aumento de escala do ComfyUI incorpora uma etapa opcional após a aplicação do CCSR, que envolve um aumento de escala adicional adicionando ruído e usando o modelo ControlNet recolor. Este recurso experimental está disponível para você explorar.

ComfyUI CCSR Workflow

ComfyUI CCSR | ComfyUI Upscale Workflow
Deseja executar este fluxo de trabalho?
  • Fluxos de trabalho totalmente operacionais
  • Sem nós ou modelos ausentes
  • Nenhuma configuração manual necessária
  • Apresenta visuais impressionantes

ComfyUI CCSR Exemplos

ComfyUI CCSR Descrição

1. ComfyUI CCSR | Fluxo de Trabalho de Aumento de Escala do ComfyUI

Este fluxo de trabalho do ComfyUI incorpora o modelo CCSR (Content Consistent Super-Resolution), projetado para aprimorar a consistência do conteúdo em tarefas de super-resolução. Após a aplicação do modelo CCSR, há uma etapa opcional que envolve aumentar a escala mais uma vez, adicionando ruído e utilizando o modelo ControlNet recolor. Este é um recurso experimental para os usuários explorarem.

Por padrão, este fluxo de trabalho está configurado para aumento de escala de imagens. Para aumentar a escala de vídeos, basta substituir "load image" por "load video" e alterar "save image" para "combine video".

2. Introdução ao CCSR

Modelos de difusão latente pré-treinados têm sido reconhecidos por seu potencial em melhorar a qualidade perceptual dos resultados de super-resolução (SR) de imagens. No entanto, esses modelos frequentemente produzem resultados variáveis para imagens idênticas de baixa resolução sob diferentes condições de ruído. Essa variabilidade, embora vantajosa para a geração de imagem a partir de texto, apresenta desafios para tarefas de SR, que exigem consistência na preservação do conteúdo.

Para aprimorar a confiabilidade da SR baseada em prior de difusão, o CCSR (Content Consistent Super-Resolution) usa uma estratégia que combina modelos de difusão para refinar estruturas de imagem com redes adversárias generativas (GANs) para melhorar detalhes finos. Ele introduz uma estratégia de aprendizado de timestep não uniforme para treinar uma rede de difusão compacta. Essa rede reconstrói de forma eficiente e estável as estruturas principais de uma imagem, enquanto o decodificador pré-treinado de um auto-encoder variacional (VAE) é ajustado por meio de treinamento adversário para aprimoramento de detalhes. Essa abordagem ajuda o CCSR a reduzir significativamente a estocasticidade associada aos métodos de SR baseados em prior de difusão, melhorando assim a consistência do conteúdo nas saídas de SR e acelerando o processo de geração de imagens.

3. Como Usar o ComfyUI CCSR para Aumento de Escala de Imagens

3.1. Modelos CCSR

real-world_ccsr.ckpt: Modelo CCSR para restauração de imagens do mundo real.

bicubic_ccsr.ckpt: Modelo CCSR para restauração de imagens bicúbicas.

Prompt Schedule

3.2. Parâmetros-Chave no CCSR

-scale_by: Este parâmetro especifica a escala de super-resolução, determinando o quanto as imagens ou vídeos de entrada são ampliados.

-steps: Refere-se ao número de etapas no processo de difusão. Ele controla quantas iterações o modelo passa para refinar os detalhes e estruturas da imagem.

-t_max e -t_min: Esses parâmetros definem os limites máximo e mínimo para a estratégia de aprendizado de timestep não uniforme usada no modelo CCSR.

-sampling_method:

  • CCSR (Normal, Untiled): Esta abordagem utiliza um método de amostragem normal e não dividido em tiles. É direta e não divide a imagem em tiles para processamento. Embora isso possa ser eficaz para garantir a consistência do conteúdo em toda a imagem, também é pesado no uso de VRAM. Este método é mais adequado para cenários em que a VRAM é abundante e a maior consistência possível em toda a imagem é necessária.
  • CCSR_Tiled_MixDiff: Esta abordagem em tiles processa cada tile da imagem separadamente, o que ajuda a gerenciar o uso de VRAM com mais eficiência, não exigindo que a imagem inteira esteja na memória de uma vez. No entanto, uma desvantagem notável é o potencial para costuras visíveis onde os tiles se encontram, pois cada tile é processado independentemente, levando a possíveis inconsistências nas bordas dos tiles.
  • CCSR_Tiled_VAE_Gaussian_Weights: Este método visa corrigir o problema de costura observado na abordagem CCSR_Tiled_MixDiff usando pesos gaussianos para misturar os tiles de maneira mais suave. Isso pode reduzir significativamente a visibilidade das costuras, proporcionando uma aparência mais consistente nas bordas dos tiles. No entanto, essa mistura às vezes pode ser menos precisa e pode introduzir ruído extra na imagem super-resolvida, afetando a qualidade geral da imagem.

-tile_size e -tile_stride: Esses parâmetros fazem parte do recurso de difusão em tiles, que é integrado ao CCSR para economizar memória da GPU durante a inferência. O tiling refere-se ao processamento da imagem em patches em vez de inteira, o que pode ser mais eficiente em termos de memória. -tile_size especifica o tamanho de cada tile e -tile_diffusion_stride controla o stride ou sobreposição entre os tiles.

-color_fix_type: Este parâmetro indica o método usado para correção ou ajuste de cores no processo de super-resolução. adain é um dos métodos empregados para correção de cores para garantir que as cores na imagem super-resolvida correspondam à imagem original o mais próximo possível.

Prompt Schedule

4. Mais Detalhes sobre o CCSR

A super-resolução de imagens, que visa recuperar imagens de alta resolução (HR) a partir de contrapartes de baixa resolução (LR), aborda o desafio imposto pela degradação da qualidade durante a captura da imagem. Embora as técnicas existentes de SR baseadas em aprendizado profundo tenham se concentrado principalmente na otimização da arquitetura de redes neurais contra degradações simples e conhecidas, elas ficam aquém no tratamento das degradações complexas encontradas em cenários do mundo real. Avanços recentes incluíram o desenvolvimento de conjuntos de dados e métodos que simulam degradações de imagem mais complexas para aproximar esses desafios do mundo real.

O estudo também destaca as limitações das funções de perda tradicionais, como ℓ1 e MSE, que tendem a produzir detalhes excessivamente suaves nas saídas de SR. Embora a perda SSIM e a perda perceptual mitiguem esse problema até certo ponto, alcançar detalhes de imagem realistas continua sendo um desafio. Os GANs surgiram como uma abordagem bem-sucedida para aprimorar os detalhes da imagem, mas sua aplicação a imagens naturais muitas vezes resulta em artefatos visuais devido à natureza diversa das cenas naturais.

Os Modelos Probabilísticos de Difusão de Denoising (DDPMs) e suas variantes mostraram uma promessa significativa, superando os GANs na geração de priors diversos e de alta qualidade para restauração de imagens, incluindo SR. Esses modelos, no entanto, têm lutado para se adaptar às degradações complexas e variadas presentes em aplicações do mundo real.

A abordagem CCSR busca abordar esses desafios, garantindo resultados de super-resolução estáveis e consistentes. Ela aproveita os priors de difusão para gerar estruturas coerentes e emprega treinamento adversário generativo para aprimoramento de detalhes e texturas. Ao adotar uma estratégia de amostragem de timestep não uniforme e ajustar um decodificador VAE pré-treinado, o CCSR alcança resultados de SR estáveis e consistentes com o conteúdo de maneira mais eficiente do que os métodos existentes de SR baseados em prior de difusão.

Para mais informações, confira no github ou no artigo

Deseja Mais Fluxos de Trabalho do ComfyUI?

RunComfy

© Copyright 2024 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes.