เวิร์กโฟลว์ ComfyUI นี้ผสานรวมโมเดล CCSR (Content Consistent Super-Resolution) ซึ่งออกแบบมาเพื่อเพิ่มความสม่ำเสมอของเนื้อหาในงานซูเปอร์เรโซลูชัน หลังการใช้โมเดล CCSR จะมีขั้นตอนเสริมที่เกี่ยวข้องกับการขยายขนาดอีกครั้งโดยการเพิ่มเสียงรบกวนและใช้โมเดล ControlNet recolor นี่เป็นฟีเจอร์ทดลองสำหรับผู้ใช้ในการสำรวจ
ตามค่าเริ่มต้น เวิร์กโฟลว์นี้ถูกตั้งค่าสำหรับการขยายขนาดภาพ หากต้องการขยายขนาดวิดีโอ เพียงแค่แทนที่ "load image" ด้วย "load video" และเปลี่ยน "save image" เป็น "combine video"
โมเดลการแพร่กระจายแฝงที่ผ่านการฝึกอบรมล่วงหน้าได้รับการยอมรับว่ามีศักยภาพในการปรับปรุงคุณภาพการรับรู้ของผลลัพธ์การซูเปอร์เรโซลูชัน (SR) ของภาพ อย่างไรก็ตาม โมเดลเหล่านี้มักจะให้ผลลัพธ์ที่แตกต่างกันสำหรับภาพที่มีความละเอียดต่ำเหมือนกันภายใต้เงื่อนไขเสียงรบกวนที่แตกต่างกัน ความแปรปรวนนี้แม้ว่าจะเป็นประโยชน์สำหรับการสร้างภาพจากข้อความ แต่ก็เป็นปัญหาสำหรับงาน SR ซึ่งต้องการความสม่ำเสมอในการรักษาเนื้อหา
เพื่อเพิ่มความน่าเชื่อถือของ SR ที่ใช้การแพร่กระจายล่วงหน้า CCSR (Content Consistent Super-Resolution) ใช้กลยุทธ์ที่ผสานรวมโมเดลการแพร่กระจายเพื่อปรับปรุงโครงสร้างภาพกับเครือข่ายปฏิปักษ์สร้างสรรค์ (GANs) เพื่อปรับปรุงรายละเอียดที่ละเอียด มันแนะนำกลยุทธ์การเรียนรู้ช่วงเวลาไม่สม่ำเสมอเพื่อฝึกอบรมเครือข่ายการแพร่กระจายที่กะทัดรัด เครือข่ายนี้สร้างโครงสร้างหลักของภาพได้อย่างมีประสิทธิภาพและเสถียร ขณะที่ตัวถอดรหัสที่ผ่านการฝึกอบรมล่วงหน้าของตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE) ได้รับการปรับแต่งผ่านการฝึกอบรมปฏิปักษ์เพื่อเพิ่มรายละเอียด วิธีการนี้ช่วยให้ CCSR ลดความสุ่มเสี่ยงที่เกี่ยวข้องกับวิธีการ SR ที่ใช้การแพร่กระจายล่วงหน้าได้อย่างมีนัยสำคัญ จึงเพิ่มความสม่ำเสมอของเนื้อหาในผลลัพธ์ SR และเร่งกระบวนการสร้างภาพ
real-world_ccsr.ckpt
: โมเดล CCSR สำหรับการฟื้นฟูภาพในโลกจริง
bicubic_ccsr.ckpt
: โมเดล CCSR สำหรับการฟื้นฟูภาพแบบ bicubic
-scale_by
: พารามิเตอร์นี้ระบุขนาดการซูเปอร์เรโซลูชัน กำหนดว่าภาพหรือวิดีโอที่ป้อนเข้ามาถูกขยายขนาดมากน้อยเพียงใด
-steps
: หมายถึงจำนวนขั้นตอนในกระบวนการแพร่กระจาย ควบคุมจำนวนการวนซ้ำที่โมเดลผ่านเพื่อปรับปรุงรายละเอียดและโครงสร้างของภาพ
-t_max
และ -t_min
: พารามิเตอร์เหล่านี้กำหนดเกณฑ์สูงสุดและต่ำสุดสำหรับกลยุทธ์การเรียนรู้ช่วงเวลาไม่สม่ำเสมอที่ใช้ในโมเดล CCSR
-sampling_method
:
CCSR (Normal, Untiled):
วิธีการนี้ใช้วิธีการสุ่มตัวอย่างแบบปกติที่ไม่แบ่งเป็นกระเบื้อง มันตรงไปตรงมาและไม่แบ่งภาพออกเป็นส่วน ๆ เพื่อประมวลผล แม้ว่าสิ่งนี้จะมีประสิทธิภาพในการรักษาความสม่ำเสมอของเนื้อหาทั่วทั้งภาพ แต่ก็ใช้ VRAM มาก วิธีนี้เหมาะสำหรับสถานการณ์ที่มี VRAM เพียงพอและต้องการความสม่ำเสมอสูงสุดทั่วทั้งภาพCCSR_Tiled_MixDiff:
วิธีการแบบกระเบื้องนี้ประมวลผลแต่ละกระเบื้องของภาพแยกกัน ซึ่งช่วยจัดการการใช้ VRAM อย่างมีประสิทธิภาพโดยไม่ต้องใช้ภาพทั้งภาพในหน่วยความจำพร้อมกัน อย่างไรก็ตาม ข้อเสียที่สำคัญคือมีโอกาสที่เห็นรอยต่อที่กระเบื้องเชื่อมต่อกัน เนื่องจากแต่ละกระเบื้องถูกประมวลผลแยกกัน ทำให้เกิดความไม่สม่ำเสมอที่ขอบกระเบื้องCCSR_Tiled_VAE_Gaussian_Weights
: วิธีการนี้พยายามแก้ปัญหารอยต่อที่เห็นในวิธีการ CCSR_Tiled_MixDiff โดยใช้ Gaussian weights เพื่อผสมผสานกระเบื้องอย่างราบรื่นขึ้น วิธีนี้สามารถลดการมองเห็นของรอยต่อได้อย่างมีนัยสำคัญ ทำให้ภาพมีความสม่ำเสมอมากขึ้นทั่วขอบกระเบื้อง อย่างไรก็ตาม การผสมผสานนี้อาจไม่แม่นยำเสมอไปและอาจเพิ่มเสียงรบกวนเพิ่มเติมในภาพที่ซูเปอร์เรโซลูชัน ส่งผลต่อคุณภาพของภาพโดยรวม-tile_size
, และ -tile_stride
: พารามิเตอร์เหล่านี้เป็นส่วนหนึ่งของฟีเจอร์การแพร่กระจายแบบกระเบื้อง ซึ่งถูกรวมเข้ากับ CCSR เพื่อประหยัดหน่วยความจำ GPU ในระหว่างการสรุปผล การแบ่งเป็นกระเบื้องหมายถึงการประมวลผลภาพเป็นส่วน ๆ แทนที่จะเป็นทั้งภาพ ซึ่งสามารถมีประสิทธิภาพมากขึ้นในการใช้หน่วยความจำ -tile_size
ระบุขนาดของแต่ละกระเบื้อง และ -tile_diffusion_stride
ควบคุมการก้าวหรือการทับซ้อนระหว่างกระเบื้อง
-color_fix_type
: พารามิเตอร์นี้ระบุวิธีการที่ใช้สำหรับการแก้ไขหรือปรับสีในกระบวนการซูเปอร์เรโซลูชัน adain
เป็นหนึ่งในวิธีการที่ใช้สำหรับการแก้ไขสีเพื่อให้แน่ใจว่าสีในภาพที่ซูเปอร์เรโซลูชันตรงกับภาพต้นฉบับให้มากที่สุด
การซูเปอร์เรโซลูชันของภาพ มุ่งเน้นไปที่การกู้คืนภาพความละเอียดสูง (HR) จากคู่ที่มีความละเอียดต่ำ (LR) แก้ไขความท้าทายที่เกิดจากการเสื่อมคุณภาพของภาพในระหว่างการจับภาพ ขณะที่เทคนิค SR ที่ใช้การเรียนรู้เชิงลึกที่มีอยู่ส่วนใหญ่เน้นไปที่การปรับแต่งสถาปัตยกรรมของเครือข่ายประสาทเทียมกับการเสื่อมคุณภาพที่ง่ายและเป็นที่รู้จัก พวกมันไม่สามารถจัดการกับการเสื่อมคุณภาพที่ซับซ้อนที่พบในสถานการณ์จริงได้ ความก้าวหน้าเมื่อเร็ว ๆ นี้ได้รวมถึงการพัฒนาชุดข้อมูลและวิธีการจำลองการเสื่อมคุณภาพของภาพที่ซับซ้อนมากขึ้นเพื่อให้ใกล้เคียงกับความท้าทายในโลกจริง
การศึกษาเน้นถึงข้อจำกัดของฟังก์ชันการสูญเสียแบบดั้งเดิม เช่น ℓ1 และ MSE ซึ่งมักจะผลิตรายละเอียดที่เรียบเกินไปในผลลัพธ์ SR แม้ว่าการสูญเสีย SSIM และการสูญเสียการรับรู้จะบรรเทาปัญหานี้ได้บ้าง แต่การบรรลุรายละเอียดภาพที่สมจริงยังคงเป็นความท้าทาย GANs ได้กลายเป็นวิธีการที่ประสบความสำเร็จในการเพิ่มรายละเอียดของภาพ แต่การประยุกต์ใช้กับภาพธรรมชาติมักส่งผลให้เกิดสิ่งประดิษฐ์ที่มองเห็นได้เนื่องจากความหลากหลายของฉากธรรมชาติ
โมเดล Denoising Diffusion Probabilistic Models (DDPMs) และรูปแบบต่าง ๆ ของพวกมันได้แสดงสัญญาณที่สำคัญในการสร้าง priors ที่หลากหลายและมีคุณภาพสูงสำหรับการฟื้นฟูภาพ รวมถึง SR อย่างไรก็ตาม โมเดลเหล่านี้ยังคงประสบปัญหาในการปรับตัวให้เข้ากับการเสื่อมคุณภาพที่ซับซ้อนและหลากหลายที่พบในแอปพลิเคชันในโลกจริง
วิธีการ CCSR พยายามแก้ไขความท้าทายเหล่านี้โดยการสร้างผลลัพธ์ซูเปอร์เรโซลูชันที่เสถียรและสม่ำเสมอ มันใช้การแพร่กระจาย priors สำหรับการสร้างโครงสร้างที่สอดคล้องกันและใช้การฝึกอบรมปฏิปักษ์สร้างสรรค์เพื่อเพิ่มรายละเอียดและพื้นผิว โดยการใช้กลยุทธ์การสุ่มตัวอย่างช่วงเวลาไม่สม่ำเสมอและการปรับแต่งตัวถอดรหัส VAE ที่ผ่านการฝึกอบรมล่วงหน้า CCSR บรรลุผลลัพธ์ SR ที่เสถียรและสม่ำเสมอมากขึ้นอย่างมีประสิทธิภาพมากกว่าวิธีการ SR ที่ใช้การแพร่กระจายล่วงหน้าในปัจจุบัน
© ลิขสิทธิ์ 2024 RunComfy. สงวนลิขสิทธิ์