Neste fluxo de trabalho do ComfyUI, aproveitamos o Stable Cascade, um modelo superior de texto para imagem conhecido por seu alinhamento de prompts e excelência estética. Ao contrário de outros modelos do Stable Diffusion, o Stable Cascade utiliza uma arquitetura de pipeline de três estágios (Estágios A, B e C). Esse design permite a compressão hierárquica de imagens em um espaço latente altamente eficiente, resultando em uma qualidade de imagem excepcional.
O Stable Cascade surge como um modelo inovador de texto para imagem, aproveitando a arquitetura inovadora . Esse modelo se distingue por suas imagens de maior qualidade, velocidades mais rápidas, custos mais baixos e personalização mais fácil.
Estágio A do Stable Cascade: O Estágio A do Stable Cascade utiliza uma Rede Adversária Generativa com Quantização Vetorial (VQGAN) para obter uma compressão de imagem por um fator de quatro. Esse estágio quantiza inovadoramente os valores em uma das 8.192 entradas exclusivas de um codebook aprendido, semelhante à seleção de cores de uma paleta. Essa quantização não apenas comprime espacialmente a imagem em 4:1, mas também reduz significativamente o tamanho dos dados, representando as imagens com tokens discretos. Esse método contrasta com o uso de valores de ponto flutuante do Stable Diffusion, oferecendo uma técnica de compressão mais compacta e eficiente.
Estágio B do Stable Cascade: Avançando para o Estágio B, o Stable Cascade mostra sua proeza no refinamento de dados de imagem. Aqui, os tokens discretos do Estágio A sofrem transformação por meio de um modelo de difusão latente, integrando engenhosamente os princípios de um IP Adapter com técnicas de difusão para orientar a criação de imagens de saída semelhantes. O Estágio B brilha em sua capacidade de transformar dados tokenizados de volta em valores de ponto flutuante ricos e detalhados, aprimorando a qualidade semântica da imagem. Esse estágio é projetado para eficiência, concentrando-se na criação de latentes sem ruído que correspondem perfeitamente à entrada, tornando assim o processo de treinamento mais simplificado e reduzindo as demandas computacionais.
Estágio C do Stable Cascade: O Estágio C introduz uma abordagem inovadora, adicionando ruído à saída semântica do Estágio B e, em seguida, removendo meticulosamente o ruído usando uma sequência de blocos ConvNeXt. O objetivo é replicar com precisão o conteúdo semântico, eliminando a necessidade de downsampling. Esse estágio desempenha um papel fundamental na transformação de um blob semântico em uma peça coerente que o Estágio B pode refinar ainda mais, culminando na geração de imagens de alta qualidade. O uso estratégico de blocos ConvNeXt do Estágio C destaca seu compromisso em fornecer desempenho de alto nível de forma eficiente, contornando os pesados custos computacionais normalmente envolvidos na obtenção de resultados tão avançados.
Qualidade Estética Superior: As avaliações revelam que o Stable Cascade supera significativamente o Stable Diffusion XL na entrega de imagens visualmente impressionantes. Ele atinge 2,5 vezes a qualidade estética do SDXL e surpreendentemente supera o SDXL Turbo em 5,5 vezes, demonstrando sua capacidade excepcional de produzir visuais de alta qualidade.
Velocidade de Inferência Aprimorada: Graças à sua arquitetura inovadora, o Stable Cascade oferece um processo de inferência mais eficiente, utilizando recursos de forma mais eficaz do que seus predecessores. Com um fator de compressão notável de 42, ele pode transformar imagens de 1024x1024 em dimensões compactas de 24x24. Essa eficiência não compromete a qualidade da imagem, mas sim acelera o processo de geração, tornando-o uma mudança de jogo para gerar imagens rapidamente.
Melhor Compreensão de Prompts: O Stable Cascade também brilha em sua capacidade de entender e alinhar-se aos prompts do usuário, sejam eles breves ou detalhados. Avaliações humanas demonstraram que ele supera outros modelos na interpretação precisa de prompts, garantindo que as imagens geradas correspondam de perto à visão do usuário.
© Copyright 2024 RunComfy. Todos os Direitos Reservados.