ComfyUI  >  Przepływy pracy  >  CCSR | Konsystentny skalowanie obrazu/wideo

CCSR | Konsystentny skalowanie obrazu/wideo

Integracja modelu CCSR (Content Consistent Super-Resolution) w ramach tego workflowu ComfyUI znacznie poprawia skalowanie obrazu i wideo. CCSR łączy modele dyfuzji z GANs (Generative Adversarial Networks), aby udoskonalić struktury obrazu i poprawić drobne szczegóły, skutecznie przezwyciężając ograniczenia tradycyjnych metod skalowania. Priorytetem modelu CCSR jest spójność treści, minimalizując zmienność wyników, oferując stabilny i efektywny proces super-rozdzielczości. Dodatkowo, workflow ComfyUI upscale zawiera opcjonalny krok po zastosowaniu CCSR, który polega na dalszym skalowaniu poprzez dodanie szumu i użycie modelu ControlNet recolor. Ta eksperymentalna funkcja jest dostępna do eksploracji.

ComfyUI CCSR Workflow

ComfyUI CCSR | ComfyUI Upscale Workflow
Chcesz uruchomić ten przepływ pracy?
  • W pełni funkcjonalne przepływy pracy
  • Brak brakujących węzłów lub modeli
  • Brak wymaganego ręcznego ustawiania
  • Cechuje się oszałamiającymi wizualizacjami

ComfyUI CCSR Przykłady

ComfyUI CCSR Opis

1. ComfyUI CCSR | ComfyUI Upscale Workflow

Ten workflow ComfyUI zawiera model CCSR (Content Consistent Super-Resolution), zaprojektowany w celu poprawy spójności treści w zadaniach super-rozdzielczości. Po zastosowaniu modelu CCSR jest opcjonalny krok polegający na ponownym skalowaniu poprzez dodanie szumu i wykorzystanie modelu ControlNet recolor. Jest to funkcja eksperymentalna dla użytkowników do eksploracji.

Domyślnie ten workflow jest skonfigurowany do skalowania obrazów. Aby skalować wideo, wystarczy zastąpić "load image" "load video" i zmienić "save image" na "combine video."

2. Wprowadzenie do CCSR

Przedtrenowane modele dyfuzji latentnej zostały rozpoznane za ich potencjał w poprawie jakości percepcyjnej wyników super-rozdzielczości obrazu (SR). Jednakże te modele często generują zmienne wyniki dla identycznych obrazów niskiej rozdzielczości w różnych warunkach szumu. Ta zmienność, choć korzystna dla generowania obrazów z tekstu, stanowi wyzwanie dla zadań SR, które wymagają spójności w zachowaniu treści.

Aby zwiększyć niezawodność SR opartej na dyfuzji, CCSR (Content Consistent Super-Resolution) używa strategii, która łączy modele dyfuzji do udoskonalania struktur obrazu z sieciami generatywnymi (GANs) do poprawy drobnych szczegółów. Wprowadza strategię uczenia się nieregularnego kroku czasowego do trenowania kompaktowej sieci dyfuzyjnej. Ta sieć efektywnie i stabilnie rekonstruuje główne struktury obrazu, podczas gdy przedtrenowany dekoder wariacyjnego autoenkodera (VAE) jest dostrojony poprzez trening generatywny dla poprawy szczegółów. To podejście pomaga CCSR znacznie zredukować stochastyczność związaną z metodami SR opartymi na dyfuzji, tym samym zwiększając spójność treści w wynikach SR i przyspieszając proces generowania obrazów.

3. Jak używać ComfyUI CCSR do skalowania obrazu

3.1. Modele CCSR

real-world_ccsr.ckpt: Model CCSR do przywracania obrazów rzeczywistych.

bicubic_ccsr.ckpt: Model CCSR do przywracania obrazów bicubic.

Prompt Schedule

3.2. Kluczowe parametry w CCSR

-scale_by: Ten parametr określa skalę super-rozdzielczości, określając, o ile powiększane są obrazy lub wideo wejściowe.

-steps: Odnosi się do liczby kroków w procesie dyfuzji. Kontroluje, ile iteracji model przechodzi, aby udoskonalić szczegóły i struktury obrazu.

-t_max i -t_min: Te parametry ustalają maksymalne i minimalne progi dla strategii uczenia się nieregularnego kroku czasowego używanej w modelu CCSR.

-sampling_method:

  • CCSR (Normal, Untiled): To podejście wykorzystuje normalną, niepodzieloną metodę próbkowania. Jest proste i nie dzieli obrazu na kafelki do przetwarzania. Chociaż może to być skuteczne w zapewnieniu spójności treści w całym obrazie, jest także wymagające pod względem użycia VRAM. Ta metoda jest najlepiej dostosowana do scenariuszy, w których VRAM jest obfity i wymagana jest najwyższa możliwa spójność w całym obrazie.
  • CCSR_Tiled_MixDiff: To podejście kafelkowe przetwarza każdy kafelek obrazu osobno, co pomaga efektywnie zarządzać użyciem VRAM, nie wymagając, aby cały obraz znajdował się w pamięci jednocześnie. Jednakże, zauważalną wadą jest możliwość widocznych szwów w miejscach, gdzie kafelki się spotykają, ponieważ każdy kafelek jest przetwarzany niezależnie, co prowadzi do możliwych niespójności na granicach kafelków.
  • CCSR_Tiled_VAE_Gaussian_Weights: Ta metoda ma na celu naprawienie problemu szwów obserwowanego w podejściu CCSR_Tiled_MixDiff poprzez użycie wag Gaussa do płynniejszego łączenia kafelków. Może to znacznie zredukować widoczność szwów, zapewniając bardziej spójny wygląd na granicach kafelków. Jednakże, to łączenie może czasami być mniej dokładne i może wprowadzać dodatkowy szum do obrazu o super-rozdzielczości, wpływając na ogólną jakość obrazu.

-tile_size, i -tile_stride: Te parametry są częścią funkcji dyfuzji kafelkowej, która jest zintegrowana z CCSR w celu oszczędzania pamięci GPU podczas inferencji. Kafelkowanie odnosi się do przetwarzania obrazu w fragmentach zamiast w całości, co może być bardziej efektywne pod względem pamięci. -tile_size określa rozmiar każdego kafelka, a -tile_diffusion_stride kontroluje krok lub nakładanie się między kafelkami.

-color_fix_type: Ten parametr wskazuje metodę używaną do korekcji lub regulacji kolorów w procesie super-rozdzielczości. adain jest jedną z metod stosowanych do korekcji kolorów, aby zapewnić, że kolory w obrazie o super-rozdzielczości odpowiadają oryginalnemu obrazowi tak wiernie, jak to możliwe.

Prompt Schedule

4. Więcej szczegółów o CCSR

Super-rozdzielczość obrazu, mająca na celu odzyskanie obrazów wysokiej rozdzielczości (HR) z odpowiedników niskiej rozdzielczości (LR), mierzy się z wyzwaniem, jakim jest degradacja jakości podczas rejestracji obrazu. Chociaż istniejące techniki SR oparte na głębokim uczeniu się głównie koncentrują się na optymalizacji architektury sieci neuronowych przeciwko prostym, znanym degradacjom, nie radzą sobie złożonymi degradacjami napotykanymi w rzeczywistych scenariuszach. Ostatnie osiągnięcia obejmowały rozwój zbiorów danych i metod symulujących bardziej złożone degradacje obrazu, aby przybliżyć te rzeczywiste wyzwania.

Badanie także podkreśla ograniczenia tradycyjnych funkcji strat, takich jak ℓ1 i MSE, które mają tendencję do generowania zbyt gładkich szczegółów w wynikach SR. Chociaż strata SSIM i strata percepcyjna częściowo łagodzą ten problem, osiągnięcie realistycznych szczegółów obrazu pozostaje wyzwaniem. GANs wyłoniły się jako skuteczne podejście do poprawy szczegółów obrazu, ale ich zastosowanie do obrazów naturalnych często skutkuje artefaktami wizualnymi ze względu na różnorodność scen naturalnych.

Modele Denoising Diffusion Probabilistic Models (DDPMs) i ich warianty wykazały znaczący potencjał, przewyższając GANs w generowaniu różnorodnych i wysokiej jakości priors do przywracania obrazu, w tym SR. Te modele jednak miały trudności z adaptacją do złożonych i zróżnicowanych degradacji obecnych w zastosowaniach rzeczywistych.

Podejście CCSR stara się rozwiązać te wyzwania, zapewniając stabilne i spójne wyniki super-rozdzielczości. Wykorzystuje priors dyfuzyjne do generowania spójnych struktur i stosuje trening generatywny do poprawy szczegółów i tekstur. Przyjmując strategię próbkowania nieregularnych kroków czasowych i dostrajając przedtrenowany dekoder VAE, CCSR osiąga stabilne, spójne treściowo wyniki SR bardziej efektywnie niż istniejące metody SR oparte na priors dyfuzyjnych.

Więcej informacji można znaleźć na github lub paper

Chcesz więcej przepływów pracy ComfyUI?

RunComfy

© Prawa autorskie 2024 RunComfy. Wszelkie prawa zastrzeżone.

RunComfy jest wiodącą ComfyUI platformą, oferującą ComfyUI online środowisko i usługi, wraz z przepływami pracy ComfyUI cechującymi się oszałamiającymi wizualizacjami.