ComfyUI  >  เวิร์กโฟลว์  >  CCSR | ตัวขยายภาพ/วิดีโอที่สม่ำเสมอ

CCSR | ตัวขยายภาพ/วิดีโอที่สม่ำเสมอ

การผสานรวมโมเดล CCSR (Content Consistent Super-Resolution) ภายในเวิร์กโฟลว์การเพิ่มขนาดของ ComfyUI นี้ช่วยเพิ่มการขยายภาพและวิดีโออย่างมีนัยสำคัญ CCSR ผสมผสานโมเดล diffusion กับ GANs (Generative Adversarial Networks) เพื่อปรับปรุงโครงสร้างภาพและปรับปรุงรายละเอียดที่ละเอียด ช่วยเอาชนะข้อจำกัดของวิธีการขยายขนาดแบบดั้งเดิมได้อย่างมีประสิทธิภาพ โดยการให้ความสำคัญกับความสม่ำเสมอของเนื้อหา CCSR ลดความแปรปรวนของผลลัพธ์ให้น้อยที่สุด นำเสนอกระบวนการซูเปอร์เรโซลูชันที่เสถียรและมีประสิทธิภาพ นอกจากนี้เวิร์กโฟลว์การขยายขนาดของ ComfyUI ยังรวมขั้นตอนเสริมหลังการใช้ CCSR ซึ่งเกี่ยวข้องกับการขยายขนาดเพิ่มเติมโดยการเพิ่มเสียงรบกวนและใช้โมเดล ControlNet recolor ฟีเจอร์ทดลองนี้พร้อมให้คุณสำรวจ

ComfyUI CCSR Workflow

ComfyUI CCSR | ComfyUI Upscale Workflow
ต้องการเรียกใช้เวิร์กโฟลว์นี้หรือไม่?
  • เวิร์กโฟลว์ที่ทำงานได้เต็มที่
  • ไม่มีโหนดหรือโมเดลที่ขาดหายไป
  • ไม่จำเป็นต้องตั้งค่าด้วยตนเอง
  • มีภาพที่น่าทึ่ง

ComfyUI CCSR Examples

คำอธิบาย ComfyUI CCSR

1. ComfyUI CCSR | ComfyUI Upscale Workflow

เวิร์กโฟลว์ ComfyUI นี้ผสานรวมโมเดล CCSR (Content Consistent Super-Resolution) ซึ่งออกแบบมาเพื่อเพิ่มความสม่ำเสมอของเนื้อหาในงานซูเปอร์เรโซลูชัน หลังการใช้โมเดล CCSR จะมีขั้นตอนเสริมที่เกี่ยวข้องกับการขยายขนาดอีกครั้งโดยการเพิ่มเสียงรบกวนและใช้โมเดล ControlNet recolor นี่เป็นฟีเจอร์ทดลองสำหรับผู้ใช้ในการสำรวจ

ตามค่าเริ่มต้น เวิร์กโฟลว์นี้ถูกตั้งค่าสำหรับการขยายขนาดภาพ หากต้องการขยายขนาดวิดีโอ เพียงแค่แทนที่ "load image" ด้วย "load video" และเปลี่ยน "save image" เป็น "combine video"

2. Introduction to CCSR

โมเดลการแพร่กระจายแฝงที่ผ่านการฝึกอบรมล่วงหน้าได้รับการยอมรับว่ามีศักยภาพในการปรับปรุงคุณภาพการรับรู้ของผลลัพธ์การซูเปอร์เรโซลูชัน (SR) ของภาพ อย่างไรก็ตาม โมเดลเหล่านี้มักจะให้ผลลัพธ์ที่แตกต่างกันสำหรับภาพที่มีความละเอียดต่ำเหมือนกันภายใต้เงื่อนไขเสียงรบกวนที่แตกต่างกัน ความแปรปรวนนี้แม้ว่าจะเป็นประโยชน์สำหรับการสร้างภาพจากข้อความ แต่ก็เป็นปัญหาสำหรับงาน SR ซึ่งต้องการความสม่ำเสมอในการรักษาเนื้อหา

เพื่อเพิ่มความน่าเชื่อถือของ SR ที่ใช้การแพร่กระจายล่วงหน้า CCSR (Content Consistent Super-Resolution) ใช้กลยุทธ์ที่ผสานรวมโมเดลการแพร่กระจายเพื่อปรับปรุงโครงสร้างภาพกับเครือข่ายปฏิปักษ์สร้างสรรค์ (GANs) เพื่อปรับปรุงรายละเอียดที่ละเอียด มันแนะนำกลยุทธ์การเรียนรู้ช่วงเวลาไม่สม่ำเสมอเพื่อฝึกอบรมเครือข่ายการแพร่กระจายที่กะทัดรัด เครือข่ายนี้สร้างโครงสร้างหลักของภาพได้อย่างมีประสิทธิภาพและเสถียร ขณะที่ตัวถอดรหัสที่ผ่านการฝึกอบรมล่วงหน้าของตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE) ได้รับการปรับแต่งผ่านการฝึกอบรมปฏิปักษ์เพื่อเพิ่มรายละเอียด วิธีการนี้ช่วยให้ CCSR ลดความสุ่มเสี่ยงที่เกี่ยวข้องกับวิธีการ SR ที่ใช้การแพร่กระจายล่วงหน้าได้อย่างมีนัยสำคัญ จึงเพิ่มความสม่ำเสมอของเนื้อหาในผลลัพธ์ SR และเร่งกระบวนการสร้างภาพ

3. How to Use ComfyUI CCSR for image Upscaling

3.1. CCSR Models

real-world_ccsr.ckpt: โมเดล CCSR สำหรับการฟื้นฟูภาพในโลกจริง

bicubic_ccsr.ckpt: โมเดล CCSR สำหรับการฟื้นฟูภาพแบบ bicubic

Prompt Schedule

3.2. Key Parameters in CCSR

-scale_by: พารามิเตอร์นี้ระบุขนาดการซูเปอร์เรโซลูชัน กำหนดว่าภาพหรือวิดีโอที่ป้อนเข้ามาถูกขยายขนาดมากน้อยเพียงใด

-steps: หมายถึงจำนวนขั้นตอนในกระบวนการแพร่กระจาย ควบคุมจำนวนการวนซ้ำที่โมเดลผ่านเพื่อปรับปรุงรายละเอียดและโครงสร้างของภาพ

-t_max และ -t_min: พารามิเตอร์เหล่านี้กำหนดเกณฑ์สูงสุดและต่ำสุดสำหรับกลยุทธ์การเรียนรู้ช่วงเวลาไม่สม่ำเสมอที่ใช้ในโมเดล CCSR

-sampling_method:

  • CCSR (Normal, Untiled): วิธีการนี้ใช้วิธีการสุ่มตัวอย่างแบบปกติที่ไม่แบ่งเป็นกระเบื้อง มันตรงไปตรงมาและไม่แบ่งภาพออกเป็นส่วน ๆ เพื่อประมวลผล แม้ว่าสิ่งนี้จะมีประสิทธิภาพในการรักษาความสม่ำเสมอของเนื้อหาทั่วทั้งภาพ แต่ก็ใช้ VRAM มาก วิธีนี้เหมาะสำหรับสถานการณ์ที่มี VRAM เพียงพอและต้องการความสม่ำเสมอสูงสุดทั่วทั้งภาพ
  • CCSR_Tiled_MixDiff: วิธีการแบบกระเบื้องนี้ประมวลผลแต่ละกระเบื้องของภาพแยกกัน ซึ่งช่วยจัดการการใช้ VRAM อย่างมีประสิทธิภาพโดยไม่ต้องใช้ภาพทั้งภาพในหน่วยความจำพร้อมกัน อย่างไรก็ตาม ข้อเสียที่สำคัญคือมีโอกาสที่เห็นรอยต่อที่กระเบื้องเชื่อมต่อกัน เนื่องจากแต่ละกระเบื้องถูกประมวลผลแยกกัน ทำให้เกิดความไม่สม่ำเสมอที่ขอบกระเบื้อง
  • CCSR_Tiled_VAE_Gaussian_Weights: วิธีการนี้พยายามแก้ปัญหารอยต่อที่เห็นในวิธีการ CCSR_Tiled_MixDiff โดยใช้ Gaussian weights เพื่อผสมผสานกระเบื้องอย่างราบรื่นขึ้น วิธีนี้สามารถลดการมองเห็นของรอยต่อได้อย่างมีนัยสำคัญ ทำให้ภาพมีความสม่ำเสมอมากขึ้นทั่วขอบกระเบื้อง อย่างไรก็ตาม การผสมผสานนี้อาจไม่แม่นยำเสมอไปและอาจเพิ่มเสียงรบกวนเพิ่มเติมในภาพที่ซูเปอร์เรโซลูชัน ส่งผลต่อคุณภาพของภาพโดยรวม

-tile_size, และ -tile_stride: พารามิเตอร์เหล่านี้เป็นส่วนหนึ่งของฟีเจอร์การแพร่กระจายแบบกระเบื้อง ซึ่งถูกรวมเข้ากับ CCSR เพื่อประหยัดหน่วยความจำ GPU ในระหว่างการสรุปผล การแบ่งเป็นกระเบื้องหมายถึงการประมวลผลภาพเป็นส่วน ๆ แทนที่จะเป็นทั้งภาพ ซึ่งสามารถมีประสิทธิภาพมากขึ้นในการใช้หน่วยความจำ -tile_size ระบุขนาดของแต่ละกระเบื้อง และ -tile_diffusion_stride ควบคุมการก้าวหรือการทับซ้อนระหว่างกระเบื้อง

-color_fix_type: พารามิเตอร์นี้ระบุวิธีการที่ใช้สำหรับการแก้ไขหรือปรับสีในกระบวนการซูเปอร์เรโซลูชัน adain เป็นหนึ่งในวิธีการที่ใช้สำหรับการแก้ไขสีเพื่อให้แน่ใจว่าสีในภาพที่ซูเปอร์เรโซลูชันตรงกับภาพต้นฉบับให้มากที่สุด

Prompt Schedule

4. More Details about CCSR

การซูเปอร์เรโซลูชันของภาพ มุ่งเน้นไปที่การกู้คืนภาพความละเอียดสูง (HR) จากคู่ที่มีความละเอียดต่ำ (LR) แก้ไขความท้าทายที่เกิดจากการเสื่อมคุณภาพของภาพในระหว่างการจับภาพ ขณะที่เทคนิค SR ที่ใช้การเรียนรู้เชิงลึกที่มีอยู่ส่วนใหญ่เน้นไปที่การปรับแต่งสถาปัตยกรรมของเครือข่ายประสาทเทียมกับการเสื่อมคุณภาพที่ง่ายและเป็นที่รู้จัก พวกมันไม่สามารถจัดการกับการเสื่อมคุณภาพที่ซับซ้อนที่พบในสถานการณ์จริงได้ ความก้าวหน้าเมื่อเร็ว ๆ นี้ได้รวมถึงการพัฒนาชุดข้อมูลและวิธีการจำลองการเสื่อมคุณภาพของภาพที่ซับซ้อนมากขึ้นเพื่อให้ใกล้เคียงกับความท้าทายในโลกจริง

การศึกษาเน้นถึงข้อจำกัดของฟังก์ชันการสูญเสียแบบดั้งเดิม เช่น ℓ1 และ MSE ซึ่งมักจะผลิตรายละเอียดที่เรียบเกินไปในผลลัพธ์ SR แม้ว่าการสูญเสีย SSIM และการสูญเสียการรับรู้จะบรรเทาปัญหานี้ได้บ้าง แต่การบรรลุรายละเอียดภาพที่สมจริงยังคงเป็นความท้าทาย GANs ได้กลายเป็นวิธีการที่ประสบความสำเร็จในการเพิ่มรายละเอียดของภาพ แต่การประยุกต์ใช้กับภาพธรรมชาติมักส่งผลให้เกิดสิ่งประดิษฐ์ที่มองเห็นได้เนื่องจากความหลากหลายของฉากธรรมชาติ

โมเดล Denoising Diffusion Probabilistic Models (DDPMs) และรูปแบบต่าง ๆ ของพวกมันได้แสดงสัญญาณที่สำคัญในการสร้าง priors ที่หลากหลายและมีคุณภาพสูงสำหรับการฟื้นฟูภาพ รวมถึง SR อย่างไรก็ตาม โมเดลเหล่านี้ยังคงประสบปัญหาในการปรับตัวให้เข้ากับการเสื่อมคุณภาพที่ซับซ้อนและหลากหลายที่พบในแอปพลิเคชันในโลกจริง

วิธีการ CCSR พยายามแก้ไขความท้าทายเหล่านี้โดยการสร้างผลลัพธ์ซูเปอร์เรโซลูชันที่เสถียรและสม่ำเสมอ มันใช้การแพร่กระจาย priors สำหรับการสร้างโครงสร้างที่สอดคล้องกันและใช้การฝึกอบรมปฏิปักษ์สร้างสรรค์เพื่อเพิ่มรายละเอียดและพื้นผิว โดยการใช้กลยุทธ์การสุ่มตัวอย่างช่วงเวลาไม่สม่ำเสมอและการปรับแต่งตัวถอดรหัส VAE ที่ผ่านการฝึกอบรมล่วงหน้า CCSR บรรลุผลลัพธ์ SR ที่เสถียรและสม่ำเสมอมากขึ้นอย่างมีประสิทธิภาพมากกว่าวิธีการ SR ที่ใช้การแพร่กระจายล่วงหน้าในปัจจุบัน

สำหรับข้อมูลเพิ่มเติม โปรดตรวจสอบที่ github หรือ paper

ต้องการเวิร์กโฟลว์ ComfyUI เพิ่มเติมหรือไม่?

RunComfy

© ลิขสิทธิ์ 2024 RunComfy. สงวนลิขสิทธิ์

RunComfy เป็นผู้นำ ComfyUI แพลตฟอร์มที่นำเสนอ ComfyUI ออนไลน์ สภาพแวดล้อมและบริการ พร้อมด้วย เวิร์กโฟลว์ ComfyUI ที่มีภาพที่น่าทึ่ง