В этом рабочем процессе ComfyUI мы используем Stable Cascade, превосходную модель преобразования текста в изображение, известную своим соответствием запросам и эстетическим качеством. В отличие от других моделей Stable Diffusion, Stable Cascade использует архитектуру трехэтапного конвейера (Стадии A, B и C). Этот дизайн позволяет эффективно сжимать изображения в латентном пространстве, что приводит к исключительному качеству изображений.
Stable Cascade появляется как революционная модель преобразования текста в изображение, использующая инновационную архитектуру . Эта модель выделяется более высоким качеством изображений, большей скоростью, более низкими затратами и легкостью настройки.
Stable Cascade Stage A: На стадии A Stable Cascade использует Vector-Quantized Generative Adversarial Network (VQGAN) для сжатия изображения в четыре раза. На этом этапе значения квантуются в один из 8,192 уникальных записей из выученной кодовой книги, подобно выбору цветов из палитры. Эта квантизация не только сжимает изображение пространственно 4:1, но и значительно уменьшает размер данных, представляя изображения с помощью дискретных токенов. Этот метод контрастирует с использованием плавающих точек в Stable Diffusion, предлагая более компактную и эффективную технику сжатия.
Stable Cascade Stage B: На стадии B Stable Cascade демонстрирует свою мощь в улучшении данных изображения. Здесь дискретные токены из стадии A проходят трансформацию через латентную диффузионную модель, которая искусно интегрирует принципы IP Adapter с диффузионными техниками для создания аналогичных выходных изображений. Стадия B выделяется своей способностью преобразовывать токенизированные данные обратно в богатые, детализированные значения с плавающей точкой, улучшая семантическое качество изображения. Эта стадия разработана для эффективности, сосредоточиваясь на создании денойзированных латентов, которые идеально соответствуют входу, что упрощает процесс обучения и снижает вычислительные затраты.
Stable Cascade Stage C: Стадия C вводит новый подход, добавляя шум к семантическому выходу из стадии B, а затем тщательно убирая шум с помощью последовательности блоков ConvNeXt. Цель состоит в том, чтобы точно воспроизвести семантическое содержание, обходя необходимость в понижении разрешения. Эта стадия играет ключевую роль в преобразовании семантического блока в связное изображение, которое стадия B может дополнительно улучшить, что в результате приводит к созданию высококачественных изображений. Стратегическое использование блоков ConvNeXt на стадии C подчеркивает её стремление к эффективной работе, избегая при этом больших вычислительных затрат, обычно связанных с достижением таких продвинутых результатов.
Превосходное эстетическое качество: Оценки показывают, что Stable Cascade значительно превосходит Stable Diffusion XL в создании визуально впечатляющих изображений. Она достигает 2.5 раз лучшего эстетического качества по сравнению с SDXL и ошеломляюще превосходит SDXL Turbo в 5.5 раз, демонстрируя её исключительные способности в создании высококачественных визуалов.
Повышенная скорость вывода: Благодаря своей инновационной архитектуре, Stable Cascade предлагает более эффективный процесс вывода, используя ресурсы более эффективно, чем её предшественники. С замечательным коэффициентом сжатия 42, она может преобразовывать изображения размером 1024x1024 в компактные размеры 24x24. Эта эффективность не ухудшает качество изображения, а наоборот ускоряет процесс генерации, что делает её революционной для быстрого создания изображений.
Улучшенное понимание запросов: Stable Cascade также выделяется своей способностью понимать и соответствовать пользовательским запросам, будь они краткими или подробными. Оценки показывают, что она превосходит другие модели в точной интерпретации запросов, обеспечивая, чтобы созданные изображения точно соответствовали видению пользователя.
© Авторское право 2024 RunComfy. Все права защищены.