ComfyUI  >  เวิร์กโฟลว์  >  AnimateDiff + ControlNet + AutoMask | Comic Style

AnimateDiff + ControlNet + AutoMask | Comic Style

ใน ComfyUI workflow นี้ เราใช้โหนดที่กำหนดเองเช่น Animatediff, ControlNet (รวมถึง Depth และ OpenPose) และ Auto Mask เพื่อเปลี่ยนแปลงวิดีโออย่างไร้รอยต่อ กระบวนการนี้จะแปลงตัวละครที่เป็นจริงให้เป็นอะนิเมะในขณะที่รักษาภูมิหลังดั้งเดิมไว้อย่างละเอียดถี่ถ้วน

ComfyUI Vid2Vid Workflow

ComfyUI AnimateDiff, ControlNet and Auto Mask Workflow
ต้องการเรียกใช้เวิร์กโฟลว์นี้หรือไม่?
  • เวิร์กโฟลว์ที่ทำงานได้เต็มที่
  • ไม่มีโหนดหรือโมเดลที่ขาดหายไป
  • ไม่จำเป็นต้องตั้งค่าด้วยตนเอง
  • มีภาพที่น่าทึ่ง

ComfyUI Vid2Vid Examples

คำอธิบาย ComfyUI Vid2Vid

1. ComfyUI AnimateDiff, ControlNet และ Auto Mask Workflow

ComfyUI workflow นี้แนะนำวิธีการที่มีประสิทธิภาพในการเปลี่ยนรูปแบบวิดีโอ โดยเฉพาะการแปลงตัวละครให้เป็นสไตล์อะนิเมะในขณะที่รักษาภูมิหลังดั้งเดิม การเปลี่ยนแปลงนี้สนับสนุนโดยส่วนประกอบหลักหลายประการ ได้แก่ AnimateDiff, ControlNet, และ Auto Mask

AnimateDiff ถูกออกแบบมาเพื่อเทคนิคการแอนิเมชันแบบแตกต่าง ทำให้สามารถรักษาบริบทที่สอดคล้องในแอนิเมชันได้ ส่วนประกอบนี้เน้นการทำให้การเปลี่ยนผ่านราบรื่นและเพิ่มความลื่นไหลของการเคลื่อนไหวในเนื้อหาวิดีโอที่เปลี่ยนรูปแบบ

ControlNet มีบทบาทสำคัญในการจำลองและควบคุมท่าทางของมนุษย์อย่างแม่นยำ มันใช้การประเมินท่าทางขั้นสูงเพื่อจับภาพและควบคุมรายละเอียดการเคลื่อนไหวของมนุษย์อย่างแม่นยำ ช่วยให้การแปลงตัวละครให้เป็นอะนิเมะในขณะที่รักษาท่าทางดั้งเดิมไว้

Auto Mask เกี่ยวข้องกับการแบ่งส่วนอัตโนมัติ มีความชำนาญในการแยกตัวละครออกจากภูมิหลัง ซึ่งเทคโนโลยีนี้ช่วยให้สามารถเปลี่ยนรูปแบบของวิดีโอได้อย่างเลือกสรร ทำให้การแปลงตัวละครดำเนินไปโดยไม่เปลี่ยนแปลงสภาพแวดล้อมรอบข้าง รักษาความสมบูรณ์ของภูมิหลังดั้งเดิม

ComfyUI workflow นี้ทำให้การแปลงเนื้อหาวิดีโอมาตรฐานเป็นแอนิเมชันที่มีสไตล์มุ่งเน้นไปที่ประสิทธิภาพและคุณภาพของการสร้างตัวละครสไตล์อะนิเมะ

2. ภาพรวมของ AnimateDiff

2.1. บทนำสู่ AnimateDiff

AnimateDiff ปรากฏเป็นเครื่องมือ AI ที่ออกแบบมาเพื่อแปลงภาพนิ่งและข้อความให้เป็นวิดีโอเคลื่อนไหว โดยใช้โมเดล Stable Diffusion และโมดูลการเคลื่อนไหวเฉพาะทาง เทคโนโลยีนี้ทำให้กระบวนการแอนิเมชันเป็นไปโดยอัตโนมัติ โดยทำนายการเปลี่ยนแปลงที่ราบรื่นระหว่างเฟรม ทำให้ผู้ใช้สามารถเข้าถึงได้โดยไม่ต้องใช้ทักษะการเขียนโค้ดหรือทรัพยากรคอมพิวเตอร์ ผ่านแพลตฟอร์มออนไลน์ฟรี

2.2. คุณสมบัติหลักของ AnimateDiff

2.2.1. รองรับโมเดลอย่างครอบคลุม: AnimateDiff เข้ากันได้กับเวอร์ชันต่างๆ รวมถึง AnimateDiff v1, v2, v3 สำหรับ Stable Diffusion V1.5 และ AnimateDiff sdxl สำหรับ Stable Diffusion SDXL มันอนุญาตให้ใช้โมเดลการเคลื่อนไหวหลายตัวพร้อมกัน ช่วยให้สามารถสร้างแอนิเมชันที่ซับซ้อนและมีหลายชั้น

2.2.2. ขนาดการประมวลผลบริบทกำหนดความยาวของแอนิเมชัน: AnimateDiff ช่วยให้สามารถสร้างแอนิเมชันได้ไม่มีที่สิ้นสุดโดยการปรับขนาดการประมวลผลบริบท คุณสมบัตินี้ช่วยให้ผู้ใช้สามารถปรับแต่งความยาวและการเปลี่ยนแปลงของแอนิเมชันให้เหมาะกับความต้องการเฉพาะของพวกเขา ให้กระบวนการแอนิเมชันที่ปรับตัวได้สูง

2.2.3. ความยาวบริบทสำหรับการเปลี่ยนแปลงอย่างราบรื่น: จุดประสงค์ของความยาวบริบทที่สม่ำเสมอใน AnimateDiff คือการทำให้การเปลี่ยนแปลงระหว่างส่วนต่างๆ ของแอนิเมชันเป็นไปอย่างราบรื่น โดยการปรับความยาวบริบทที่สม่ำเสมอ ผู้ใช้สามารถควบคุมพลวัตการเปลี่ยนแปลงระหว่างฉากได้—ความยาวที่ยาวขึ้นสำหรับการเปลี่ยนแปลงที่ราบรื่นและสม่ำเสมอมากขึ้น และความยาวที่สั้นลงสำหรับการเปลี่ยนแปลงที่รวดเร็วและชัดเจนมากขึ้น

2.2.4. พลวัตการเคลื่อนไหว: ใน AnimateDiff v2 มี LoRAs การเคลื่อนไหวเฉพาะทางสำหรับการเพิ่มการเคลื่อนไหวของกล้องในแบบภาพยนตร์ให้กับแอนิเมชัน คุณสมบัตินี้แนะนำชั้นพิเศษให้กับแอนิเมชัน เพิ่มความน่าสนใจทางสายตาอย่างมีนัยสำคัญ

2.2.5. คุณสมบัติการสนับสนุนขั้นสูง: AnimateDiff ถูกออกแบบมาให้ทำงานร่วมกับเครื่องมือต่างๆ เช่น ControlNet, SparseCtrl และ IPAdapter ซึ่งมีข้อได้เปรียบอย่างมากสำหรับผู้ใช้ที่ต้องการขยายความเป็นไปได้ในการสร้างสรรค์ของโครงการของพวกเขา

3. ภาพรวมของ ControlNet

3.1. บทนำสู่ ControlNet

ControlNet แนะนำกรอบการทำงานสำหรับการเพิ่มโมเดลการแพร่กระจายภาพด้วยข้อมูลเงื่อนไข มีเป้าหมายเพื่อปรับแต่งและนำทางกระบวนการสังเคราะห์ภาพ มันทำได้โดยการคัดลอกบล็อกเครือข่ายประสาทภายในโมเดลการแพร่กระจายที่กำหนดเป็นสองชุด: ชุดหนึ่งยังคง "ล็อค" เพื่อรักษาฟังก์ชันการทำงานเดิม และอีกชุดหนึ่งกลายเป็น "ฝึกได้" ปรับตัวให้เข้ากับเงื่อนไขเฉพาะที่ให้มา โครงสร้างคู่นี้ช่วยให้นักพัฒนาสามารถรวมข้อมูลเงื่อนไขที่หลากหลายได้โดยใช้โมเดลเช่น OpenPose, Tile, IP-Adapter, Canny, Depth, LineArt, MLSD, Normal Map, Scribbles, Segmentation, Shuffle, และ T2I Adapter ทำให้สามารถมีอิทธิพลโดยตรงต่อผลลัพธ์ที่สร้างขึ้น ด้วยกลไกนี้ ControlNet มอบเครื่องมือที่ทรงพลังให้กับนักพัฒนาในการควบคุมและจัดการกระบวนการสร้างภาพ เพิ่มความยืดหยุ่นของโมเดลการแพร่กระจายและการใช้งานในงานสร้างสรรค์ที่หลากหลาย

การตั้งค่าล่วงหน้าและการรวมโมเดล

3.1.1. การตั้งค่าล่วงหน้า: การเริ่มต้นใช้งาน ControlNet เกี่ยวข้องกับการเลือกตัวตั้งค่าล่วงหน้าที่เหมาะสม การเปิดใช้งานตัวเลือกพรีวิวเป็นสิ่งที่แนะนำสำหรับความเข้าใจทางสายตาของผลกระทบจากการตั้งค่าล่วงหน้า หลังจากการตั้งค่าล่วงหน้าแล้ว workflow จะเปลี่ยนไปใช้ภาพที่ตั้งค่าล่วงหน้าแล้วสำหรับขั้นตอนการประมวลผลเพิ่มเติม

3.1.2. การจับคู่โมเดล: การทำให้กระบวนการเลือกโมเดลง่ายขึ้น ControlNet รับประกันความเข้ากันได้โดยการจัดแนวโมเดลกับตัวตั้งค่าล่วงหน้าที่ตรงกันตามคำหลักที่ใช้ร่วมกัน ทำให้กระบวนการรวมเป็นไปอย่างราบรื่น

3.2. คุณสมบัติหลักของ ControlNet

การสำรวจลึกซึ้งของโมเดล ControlNet

3.2.1. ชุด OpenPose: ออกแบบมาเพื่อการตรวจจับท่าทางของมนุษย์อย่างแม่นยำ ชุด OpenPose ครอบคลุมโมเดลสำหรับการตรวจจับท่าทางของร่างกาย การแสดงออกทางใบหน้า และการเคลื่อนไหวของมือด้วยความแม่นยำที่ยอดเยี่ยม ตัวตั้งค่าล่วงหน้า OpenPose ที่หลากหลายถูกปรับแต่งให้ตรงกับข้อกำหนดการตรวจจับเฉพาะ จากการวิเคราะห์ท่าทางพื้นฐานไปจนถึงการจับภาพรายละเอียดของใบหน้าและมือ

3.2.2. โมเดล Tile Resample: เพิ่มความละเอียดและรายละเอียดของภาพ โมเดล Tile Resample ถูกใช้งานอย่างเหมาะสมควบคู่กับเครื่องมือขยายขนาด โดยมีเป้าหมายเพื่อเพิ่มคุณภาพของภาพโดยไม่ลดทอนความสมบูรณ์ทางสายตา

3.2.3. โมเดล IP-Adapter: อำนวยความสะดวกในการใช้ภาพเป็นคำสั่ง โมเดล IP-Adapter รวมองค์ประกอบภาพจากภาพอ้างอิงเข้ากับผลลัพธ์ที่สร้างขึ้น รวมความสามารถในการแพร่กระจายจากข้อความเป็นภาพเพื่อเนื้อหาภาพที่สมบูรณ์ยิ่งขึ้น

3.2.4. เครื่องตรวจจับขอบ Canny: โดดเด่นในความสามารถในการตรวจจับขอบ โมเดล Canny เน้นที่สาระสำคัญของโครงสร้างของภาพ ช่วยให้การตีความทางสายตาใหม่ๆ ในขณะที่รักษาองค์ประกอบหลัก

3.2.5. โมเดลการรับรู้ความลึก: ผ่านตัวตั้งค่าล่วงหน้าความลึกหลายแบบ ControlNet มีความชำนาญในการดึงและใช้เบาะแสความลึกจากภาพ เสนอการรับรู้ความลึกแบบชั้นในภาพที่สร้างขึ้น

3.2.6. โมเดล LineArt: แปลงภาพเป็นภาพวาดเส้นศิลปะด้วยตัวตั้งค่าล่วงหน้า LineArt ตอบสนองต่อความชอบทางศิลปะที่หลากหลายตั้งแต่การ์ตูนไปจนถึงสเก็ตช์จริง ControlNet รองรับความต้องการทางสไตล์ที่หลากหลาย

3.2.7. การประมวลผล Scribbles: ด้วยตัวตั้งค่าล่วงหน้าเช่น Scribble HED, Pidinet และ xDoG ControlNet แปลงภาพเป็นศิลปะขีดเขียนที่ไม่ซ้ำใคร เสนอรูปแบบที่หลากหลายสำหรับการตรวจจับขอบและการตีความทางศิลปะ

3.2.8. เทคนิคการแบ่งส่วน: ความสามารถในการแบ่งส่วนของ ControlNet จัดประเภทองค์ประกอบของภาพอย่างแม่นยำ ทำให้สามารถจัดการได้อย่างแม่นยำตามการจัดหมวดหมู่วัตถุ เหมาะสำหรับการสร้างฉากที่ซับซ้อน

3.2.9. โมเดล Shuffle: แนะนำวิธีการใหม่สำหรับการสร้างสรรค์สี โมเดล Shuffle สุ่มภาพอินพุตเพื่อสร้างรูปแบบสีใหม่ เปลี่ยนแปลงต้นฉบับอย่างสร้างสรรค์ในขณะที่รักษาสาระสำคัญ

3.2.10. นวัตกรรม T2I Adapter: โมเดล T2I Adapter รวมถึง Color Grid และ CLIP Vision Style ผลักดัน ControlNet เข้าสู่โดเมนสร้างสรรค์ใหม่ ผสมผสานและปรับสีและสไตล์เพื่อสร้างผลลัพธ์ที่น่าดึงดูดทางสายตาที่เคารพต่อโทนสีหรือคุณลักษณะสไตล์ของต้นฉบับ

3.2.11. MLSD (การตรวจจับเส้นตรงบนมือถือ): เชี่ยวชาญในการตรวจจับเส้นตรง MLSD มีคุณค่าอย่างมากสำหรับโครงการที่มุ่งเน้นการออกแบบสถาปัตยกรรมและภายใน ให้ความสำคัญกับความชัดเจนและความแม่นยำของโครงสร้าง

3.2.12. การประมวลผล Normal Map: ใช้ข้อมูลการวางแนวพื้นผิว ตัวตั้งค่าล่วงหน้า Normal Map จำลองโครงสร้าง 3 มิติของภาพอ้างอิง เพิ่มความสมจริงของเนื้อหาที่สร้างขึ้นผ่านการวิเคราะห์พื้นผิวที่ละเอียด

บทเรียน ComfyUI เพิ่มเติม

ต้องการเวิร์กโฟลว์ ComfyUI เพิ่มเติมหรือไม่?

RunComfy

© ลิขสิทธิ์ 2024 RunComfy. สงวนลิขสิทธิ์

RunComfy เป็นผู้นำ ComfyUI แพลตฟอร์มที่นำเสนอ ComfyUI ออนไลน์ สภาพแวดล้อมและบริการ พร้อมด้วย เวิร์กโฟลว์ ComfyUI ที่มีภาพที่น่าทึ่ง