Este fluxo de trabalho do ComfyUI incorpora o modelo CCSR (Content Consistent Super-Resolution), projetado para aprimorar a consistência do conteúdo em tarefas de super-resolução. Após a aplicação do modelo CCSR, há uma etapa opcional que envolve aumentar a escala mais uma vez, adicionando ruído e utilizando o modelo ControlNet recolor. Este é um recurso experimental para os usuários explorarem.
Por padrão, este fluxo de trabalho está configurado para aumento de escala de imagens. Para aumentar a escala de vídeos, basta substituir "load image" por "load video" e alterar "save image" para "combine video".
Modelos de difusão latente pré-treinados têm sido reconhecidos por seu potencial em melhorar a qualidade perceptual dos resultados de super-resolução (SR) de imagens. No entanto, esses modelos frequentemente produzem resultados variáveis para imagens idênticas de baixa resolução sob diferentes condições de ruído. Essa variabilidade, embora vantajosa para a geração de imagem a partir de texto, apresenta desafios para tarefas de SR, que exigem consistência na preservação do conteúdo.
Para aprimorar a confiabilidade da SR baseada em prior de difusão, o CCSR (Content Consistent Super-Resolution) usa uma estratégia que combina modelos de difusão para refinar estruturas de imagem com redes adversárias generativas (GANs) para melhorar detalhes finos. Ele introduz uma estratégia de aprendizado de timestep não uniforme para treinar uma rede de difusão compacta. Essa rede reconstrói de forma eficiente e estável as estruturas principais de uma imagem, enquanto o decodificador pré-treinado de um auto-encoder variacional (VAE) é ajustado por meio de treinamento adversário para aprimoramento de detalhes. Essa abordagem ajuda o CCSR a reduzir significativamente a estocasticidade associada aos métodos de SR baseados em prior de difusão, melhorando assim a consistência do conteúdo nas saídas de SR e acelerando o processo de geração de imagens.
real-world_ccsr.ckpt
: Modelo CCSR para restauração de imagens do mundo real.
bicubic_ccsr.ckpt
: Modelo CCSR para restauração de imagens bicúbicas.
-scale_by
: Este parâmetro especifica a escala de super-resolução, determinando o quanto as imagens ou vídeos de entrada são ampliados.
-steps
: Refere-se ao número de etapas no processo de difusão. Ele controla quantas iterações o modelo passa para refinar os detalhes e estruturas da imagem.
-t_max
e -t_min
: Esses parâmetros definem os limites máximo e mínimo para a estratégia de aprendizado de timestep não uniforme usada no modelo CCSR.
-sampling_method
:
CCSR (Normal, Untiled):
Esta abordagem utiliza um método de amostragem normal e não dividido em tiles. É direta e não divide a imagem em tiles para processamento. Embora isso possa ser eficaz para garantir a consistência do conteúdo em toda a imagem, também é pesado no uso de VRAM. Este método é mais adequado para cenários em que a VRAM é abundante e a maior consistência possível em toda a imagem é necessária.CCSR_Tiled_MixDiff:
Esta abordagem em tiles processa cada tile da imagem separadamente, o que ajuda a gerenciar o uso de VRAM com mais eficiência, não exigindo que a imagem inteira esteja na memória de uma vez. No entanto, uma desvantagem notável é o potencial para costuras visíveis onde os tiles se encontram, pois cada tile é processado independentemente, levando a possíveis inconsistências nas bordas dos tiles.CCSR_Tiled_VAE_Gaussian_Weights
: Este método visa corrigir o problema de costura observado na abordagem CCSR_Tiled_MixDiff usando pesos gaussianos para misturar os tiles de maneira mais suave. Isso pode reduzir significativamente a visibilidade das costuras, proporcionando uma aparência mais consistente nas bordas dos tiles. No entanto, essa mistura às vezes pode ser menos precisa e pode introduzir ruído extra na imagem super-resolvida, afetando a qualidade geral da imagem.-tile_size
e -tile_stride
: Esses parâmetros fazem parte do recurso de difusão em tiles, que é integrado ao CCSR para economizar memória da GPU durante a inferência. O tiling refere-se ao processamento da imagem em patches em vez de inteira, o que pode ser mais eficiente em termos de memória. -tile_size
especifica o tamanho de cada tile e -tile_diffusion_stride
controla o stride ou sobreposição entre os tiles.
-color_fix_type
: Este parâmetro indica o método usado para correção ou ajuste de cores no processo de super-resolução. adain
é um dos métodos empregados para correção de cores para garantir que as cores na imagem super-resolvida correspondam à imagem original o mais próximo possível.
A super-resolução de imagens, que visa recuperar imagens de alta resolução (HR) a partir de contrapartes de baixa resolução (LR), aborda o desafio imposto pela degradação da qualidade durante a captura da imagem. Embora as técnicas existentes de SR baseadas em aprendizado profundo tenham se concentrado principalmente na otimização da arquitetura de redes neurais contra degradações simples e conhecidas, elas ficam aquém no tratamento das degradações complexas encontradas em cenários do mundo real. Avanços recentes incluíram o desenvolvimento de conjuntos de dados e métodos que simulam degradações de imagem mais complexas para aproximar esses desafios do mundo real.
O estudo também destaca as limitações das funções de perda tradicionais, como ℓ1 e MSE, que tendem a produzir detalhes excessivamente suaves nas saídas de SR. Embora a perda SSIM e a perda perceptual mitiguem esse problema até certo ponto, alcançar detalhes de imagem realistas continua sendo um desafio. Os GANs surgiram como uma abordagem bem-sucedida para aprimorar os detalhes da imagem, mas sua aplicação a imagens naturais muitas vezes resulta em artefatos visuais devido à natureza diversa das cenas naturais.
Os Modelos Probabilísticos de Difusão de Denoising (DDPMs) e suas variantes mostraram uma promessa significativa, superando os GANs na geração de priors diversos e de alta qualidade para restauração de imagens, incluindo SR. Esses modelos, no entanto, têm lutado para se adaptar às degradações complexas e variadas presentes em aplicações do mundo real.
A abordagem CCSR busca abordar esses desafios, garantindo resultados de super-resolução estáveis e consistentes. Ela aproveita os priors de difusão para gerar estruturas coerentes e emprega treinamento adversário generativo para aprimoramento de detalhes e texturas. Ao adotar uma estratégia de amostragem de timestep não uniforme e ajustar um decodificador VAE pré-treinado, o CCSR alcança resultados de SR estáveis e consistentes com o conteúdo de maneira mais eficiente do que os métodos existentes de SR baseados em prior de difusão.
Para mais informações, confira no ou no
© Copyright 2024 RunComfy. Todos os Direitos Reservados.