이 ComfyUI 워크플로우는 초해상도 작업에서 콘텐츠 일관성을 향상시키도록 설계된 CCSR(Content Consistent Super-Resolution) 모델을 통합합니다. CCSR 모델을 적용한 후에는 노이즈를 추가하고 ControlNet 리컬러 모델을 활용하여 한 번 더 업스케일링하는 선택적 단계가 있습니다. 이는 사용자가 탐색할 수 있는 실험적 기능입니다.
기본적으로 이 워크플로우는 이미지 업스케일링을 위해 설정되어 있습니다. 비디오를 업스케일링하려면 "load image"를 "load video"로 바꾸고 "save image"를 "combine video"로 변경하면 됩니다.
사전 학습된 latent diffusion 모델은 이미지 초해상도(SR) 결과의 지각적 품질을 개선할 수 있는 잠재력으로 인정받고 있습니다. 그러나 이러한 모델은 종종 동일한 저해상도 이미지에 대해 다른 노이즈 조건에서 가변적인 결과를 생성합니다. 이러한 가변성은 text-to-image 생성에는 유리하지만, 콘텐츠 보존의 일관성을 요구하는 SR 작업에는 어려움을 야기합니다.
CCSR(Content Consistent Super-Resolution)은 diffusion 모델을 사용하여 이미지 구조를 개선하고 GAN(Generative Adversarial Network)을 사용하여 미세한 디테일을 향상시키는 전략을 통해 diffusion prior 기반 SR의 신뢰성을 높입니다. 또한 비균일 timestep 학습 전략을 도입하여 컴팩트한 diffusion 네트워크를 학습시킵니다. 이 네트워크는 이미지의 주요 구조를 효율적이고 안정적으로 재구성하는 한편, variational auto-encoder(VAE)의 사전 학습된 디코더는 적대적 학습을 통해 디테일 향상을 위해 미세 조정됩니다. 이러한 접근 방식은 CCSR이 diffusion prior 기반 SR 방법과 관련된 확률성을 크게 줄이고, 이를 통해 SR 출력에서 콘텐츠 일관성을 향상시키고 이미지 생성 프로세스를 가속화하는 데 도움이 됩니다.
real-world_ccsr.ckpt
: 실제 이미지 복원을 위한 CCSR 모델입니다.
bicubic_ccsr.ckpt
: bicubic 이미지 복원을 위한 CCSR 모델입니다.
-scale_by
: 이 매개변수는 초해상도 스케일을 지정하여 입력 이미지 또는 비디오가 얼마나 확대되는지 결정합니다.
-steps
: diffusion 프로세스의 단계 수를 나타냅니다. 이미지 디테일과 구조를 개선하기 위해 모델이 몇 번의 반복을 거치는지 제어합니다.
-t_max
및 -t_min
: 이 매개변수는 CCSR 모델에 사용되는 비균일 timestep 학습 전략의 최대 및 최소 임계값을 설정합니다.
-sampling_method
:
CCSR (Normal, Untiled):
이 접근 방식은 일반적인 untiled 샘플링 방법을 사용합니다. 직관적이며 처리를 위해 이미지를 타일로 나누지 않습니다. 이는 전체 이미지에 걸쳐 콘텐츠 일관성을 보장하는 데 효과적일 수 있지만, VRAM 사용량이 많습니다. 이 방법은 VRAM이 풍부하고 전체 이미지에서 가능한 한 가장 높은 일관성이 필요한 시나리오에 가장 적합합니다.CCSR_Tiled_MixDiff:
이 타일드 접근 방식은 이미지의 각 타일을 개별적으로 처리하므로 전체 이미지를 한 번에 메모리에 저장할 필요가 없어 VRAM 사용량을 더 효율적으로 관리할 수 있습니다. 그러나 각 타일이 독립적으로 처리되므로 타일이 만나는 곳에 눈에 띄는 이음새가 생길 수 있다는 것이 주목할 만한 단점입니다. 이로 인해 타일 경계에서 일관성이 떨어질 수 있습니다.CCSR_Tiled_VAE_Gaussian_Weights
: 이 방법은 가우시안 가중치를 사용하여 타일을 더 부드럽게 혼합함으로써 CCSR_Tiled_MixDiff 접근 방식에서 발생하는 이음새 문제를 해결하는 것을 목표로 합니다. 이는 타일 경계에 걸쳐 더 일관된 모양을 제공하여 이음새의 가시성을 크게 줄일 수 있습니다. 그러나 이 블렌딩은 때로는 정확도가 떨어질 수 있으며 초해상도 이미지에 추가 노이즈를 도입하여 전반적인 이미지 품질에 영향을 줄 수 있습니다.-tile_size
및 -tile_stride
: 이 매개변수는 추론 중 GPU 메모리를 절약하기 위해 CCSR에 통합된 타일드 diffusion 기능의 일부입니다. 타일링은 이미지를 전체가 아닌 패치로 처리하는 것을 의미하며, 이는 메모리 효율성을 높일 수 있습니다. -tile_size
는 각 타일의 크기를 지정하고 -tile_diffusion_stride
는 타일 간의 스트라이드 또는 오버랩을 제어합니다.
-color_fix_type
: 이 매개변수는 초해상도 프로세스에서 사용되는 색상 보정 또는 조정 방법을 나타냅니다. adain
은 초해상도 이미지의 색상이 원본 이미지와 최대한 일치하도록 하기 위해 사용되는 색상 보정 방법 중 하나입니다.
저해상도(LR) 이미지에서 고해상도(HR) 이미지를 복원하는 것을 목표로 하는 이미지 초해상도는 이미지 캡처 중 발생하는 품질 저하 문제를 해결합니다. 기존의 딥러닝 기반 SR 기술은 주로 단순하고 알려진 저하에 대한 신경망 아키텍처 최적화에 초점을 맞추었지만, 실제 시나리오에서 발생하는 복잡한 저하를 처리하는 데 한계가 있습니다. 최근의 발전에는 이러한 실제 문제에 근접하기 위해 더 복잡한 이미지 저하를 시뮬레이션하는 데이터셋과 방법의 개발이 포함되어 있습니다.
이 연구는 또한 ℓ1 및 MSE와 같은 전통적인 손실 함수의 한계점을 강조합니다. 이러한 함수는 SR 출력에서 과도하게 부드러운 디테일을 생성하는 경향이 있습니다. SSIM 손실과 지각적 손실이 이 문제를 어느 정도 완화하지만, 사실적인 이미지 디테일을 달성하는 것은 여전히 어렵습니다. GAN은 이미지 디테일을 향상시키는 데 성공적인 접근 방식으로 부상했지만, 자연 이미지에 적용하면 자연 장면의 다양한 특성으로 인해 시각적 아티팩트가 발생하는 경우가 많습니다.
Denoising Diffusion Probabilistic Models(DDPM)과 그 변형은 SR을 포함한 이미지 복원을 위해 다양하고 고품질의 사전 정보를 생성하는 데 GAN을 능가하는 상당한 가능성을 보여주었습니다. 그러나 이러한 모델은 실제 응용 분야에 존재하는 복잡하고 다양한 저하에 적응하는 데 어려움을 겪어 왔습니다.
CCSR 접근 방식은 안정적이고 일관된 초해상도 결과를 보장함으로써 이러한 과제를 해결하고자 합니다. 일관된 구조를 생성하기 위해 diffusion prior를 활용하고 디테일과 텍스처 향상을 위해 생성적 적대 학습을 사용합니다. 비균일 timestep 샘플링 전략을 채택하고 사전 학습된 VAE 디코더를 미세 조정함으로써 CCSR은 기존의 diffusion prior 기반 SR 방법보다 더 효율적으로 안정적이고 콘텐츠 일관성 있는 SR 결과를 달성합니다.
더 자세한 내용은 또는 에서 확인하세요.
© 저작권 2024 RunComfy. All Rights Reserved.