MimicMotion คืออะไร
MimicMotion เป็นกรอบการสร้างวิดีโอที่ควบคุมได้ซึ่งพัฒนาโดยนักวิจัยที่ Tencent และมหาวิทยาลัย Shanghai Jiao Tong มันสามารถสร้างวิดีโอคุณภาพสูงที่มีความยาวตามที่กำหนดตามคำแนะนำการเคลื่อนไหวที่ให้ไว้ เมื่อเทียบกับวิธีการก่อนหน้า MimicMotion โดดเด่นในการสร้างวิดีโอที่มีรายละเอียดสมบูรณ์ ความราบรื่นเชิงเวลา และความสามารถในการสร้างลำดับที่ยาว
วิธีการทำงานของ MimicMotion
MimicMotion ใช้ภาพอ้างอิงและคำแนะนำท่าทางเป็นข้อมูลนำเข้า จากนั้นสร้างวิดีโอที่ตรงกับลักษณะของภาพอ้างอิงในขณะที่ปฏิบัติตามลำดับการเคลื่อนไหวที่ให้ไว้
นวัตกรรมสำคัญบางอย่างที่ทำให้ MimicMotion มีประสิทธิภาพสูง:
- คำแนะนำท่าทางที่ตระหนักถึงความมั่นใจ: โดยการรวมข้อมูลความมั่นใจของท่าทางเข้าไป MimicMotion สามารถบรรลุความราบรื่นเชิงเวลาที่ดีขึ้นและสามารถทนต่อข้อมูลการฝึกฝนที่มีเสียงดังได้ดีขึ้น ซึ่งช่วยให้มันสามารถทั่วไปได้ดี
- การขยายการสูญเสียในพื้นที่: การเน้นการสูญเสียให้หนักขึ้นในพื้นที่ท่าทางที่มีความมั่นใจสูง โดยเฉพาะอย่างยิ่งมือ ช่วยลดการบิดเบือนของภาพในวิดีโอที่สร้างขึ้นได้อย่างมาก
- การผสมผสานลาตันแบบก้าวหน้า: เพื่อสร้างวิดีโอที่ราบรื่นและยาวอย่างมีประสิทธิภาพ MimicMotion สร้างส่วนของวิดีโอที่มีเฟรมซ้อนทับกันและผสมผสานการแสดงลาตันของพวกมันอย่างก้าวหน้า ซึ่งช่วยให้สามารถสร้างวิดีโอที่มีความยาวตามที่ต้องการด้วยต้นทุนการคำนวณที่ควบคุมได้
โมเดลถูกฝึกฝนล่วงหน้าบนชุดข้อมูลวิดีโอขนาดใหญ่ จากนั้นปรับแต่งเพิ่มเติมสำหรับงานเลียนแบบการเคลื่อนไหว กระบวนการฝึกฝนที่มีประสิทธิภาพนี้ไม่ต้องการข้อมูลเฉพาะทางจำนวนมาก
วิธีใช้ ComfyUI MimicMotion (ComfyUI-MimicMotionWrapper)
หลังจากทดสอบโหนด MimicMotion ต่างๆ ที่มีอยู่ใน ComfyUI เราขอแนะนำให้ใช้ เพื่อผลลัพธ์ที่ดีที่สุด
ขั้นตอนที่ 1: การเตรียมข้อมูลนำเข้าของคุณสำหรับ MimicMotion
ในการเริ่มเคลื่อนไหวด้วย ComfyUI MimicMotion คุณจะต้องมีส่วนประกอบสำคัญสองอย่าง:
- ภาพอ้างอิง: นี่คือเฟรมเริ่มต้นที่ใช้เป็นจุดเริ่มต้นสำหรับการเคลื่อนไหวของคุณ เลือกภาพที่แสดงเรื่องที่คุณต้องการเคลื่อนไหวอย่างชัดเจน
- ภาพท่าทาง: นี่คือภาพที่กำหนดลำดับการเคลื่อนไหว แต่ละภาพท่าทางควรแสดงตำแหน่งหรือท่าทางของเรื่องของคุณในจุดที่เฉพาะเจาะจงในการเคลื่อนไหว คุณสามารถสร้างภาพท่าทางเหล่านี้ด้วยตนเองหรือใช้เครื่องมือประเมินท่าทางในการดึงท่าทางจากวิดีโอ
🌟ให้แน่ใจว่าภาพอ้างอิงและภาพท่าทางของคุณมีความละเอียดและอัตราส่วนภาพเดียวกันเพื่อผลลัพธ์ที่ดีที่สุด🌟
ขั้นตอนที่ 2: การโหลดโมเดล MimicMotion
ComfyUI MimicMotion ต้องการโมเดล MimicMotion เพื่อทำงานอย่างถูกต้อง ใน RunComfy โมเดลถูกโหลดล่วงหน้าเพื่อความสะดวกของคุณ ในการกำหนดค่าโหนด "DownLoadMimicMotionModel" ให้ทำตามขั้นตอนเหล่านี้:
- ตั้งค่าพารามิเตอร์ "model" เป็น "MimicMotion-fp16.safetensors" (หรือชื่อไฟล์โมเดลที่เหมาะสม หากแตกต่างกัน)
- เลือกความละเอียดที่ต้องการ (fp32, fp16, หรือ bf16) ตามความสามารถของ GPU ของคุณ การเลือกนี้สามารถมีผลต่อประสิทธิภาพและความเข้ากันได้
- ปล่อยให้พารามิเตอร์ "lcm" ตั้งค่าเป็น False เว้นแต่ว่าคุณต้องการใช้ตัวแปร LCM (Latent Conditional Motion) ของโมเดล
เมื่อคุณได้กำหนดค่าการตั้งค่าโหนดแล้ว เชื่อมต่อผลลัพธ์ของโหนด "DownloadAndLoadMimicMotionModel" กับข้อมูลนำเข้าของโหนดถัดไปในกระบวนการทำงานของ ComfyUI ของคุณ นี่จะทำให้มั่นใจว่าโมเดล MimicMotion ที่โหลดแล้วถูกใช้อย่างถูกต้องในขั้นตอนถัดไปของ ComfyUI ของคุณ
ขั้นตอนที่ 3: การกำหนดค่า MimicMotion Sampler
โหนด "MimicMotionSampler" รับผิดชอบการสร้างเฟรมเคลื่อนไหวตามข้อมูลนำเข้าของคุณ นี่คือวิธีการตั้งค่า:
- เพิ่มโหนด "MimicMotionSampler" และเชื่อมต่อกับผลลัพธ์ของโหนด "DownloadAndLoadMimicMotionModel"
- ตั้งค่าพารามิเตอร์ "ref_image" เป็นภาพอ้างอิงของคุณและพารามิเตอร์ "pose_images" เป็นลำดับภาพท่าทางของคุณ
- ปรับการตั้งค่าการสุ่มตัวอย่างตามความต้องการของคุณ:
- "steps" กำหนดจำนวนขั้นตอนการกระจาย (ค่าที่สูงขึ้นนำไปสู่ผลลัพธ์ที่ราบรื่นขึ้นแต่ใช้เวลาการประมวลผลนานขึ้น)
- "cfg_min" และ "cfg_max" ควบคุมความแข็งแรงของการแนะนำตามเงื่อนไข (ค่าที่สูงขึ้นจะทำให้ปฏิบัติตามภาพท่าทางมากขึ้น)
- "seed" ตั้งค่าการสุ่มตัวอย่างเพื่อความสามารถในการทำซ้ำ
- "fps" ระบุเฟรมต่อวินาทีของการเคลื่อนไหวที่สร้างขึ้น
- ปรับพารามิเตอร์เพิ่มเติมเช่น "noise_aug_strength", "context_size", และ "context_overlap" เพื่อทดลองกับสไตล์และความสอดคล้องเชิงเวลา
ขั้นตอนที่ 4: การถอดรหัสตัวอย่างลาตัน
โหนด "MimicMotionSampler" ส่งออกการแสดงลาตันของเฟรมเคลื่อนไหว เพื่อแปลงลาตันเหล่านี้เป็นภาพจริง คุณต้องใช้โหนด "MimicMotionDecode":
- เพิ่มโหนด "MimicMotionDecode" และเชื่อมต่อกับผลลัพธ์ของโหนด "MimicMotionSampler"
- ตั้งค่าพารามิเตอร์ "decode_chunk_size" เพื่อควบคุมจำนวนเฟรมที่ถอดรหัสพร้อมกัน (ค่าที่สูงขึ้นอาจใช้หน่วยความจำ GPU มากขึ้น)
ผลลัพธ์ของโหนด "MimicMotionDecode" จะเป็นเฟรมเคลื่อนไหวสุดท้ายในรูปแบบภาพ
ขั้นตอนที่ 5: การเพิ่มท่าทางด้วย MimicMotionGetPoses
หากคุณต้องการแสดงท่าทางที่ดึงออกมาควบคู่กับภาพอ้างอิงของคุณ คุณสามารถใช้โหนด "MimicMotionGetPoses":
- เชื่อมต่อ "ref_image" และ "pose_images" กับโหนด "MimicMotionGetPoses"
- ตั้งค่าพารามิเตอร์ "include_body", "include_hand", และ "include_face" เพื่อควบคุมว่าจะแสดงจุดสำคัญของท่าทางใด
ผลลัพธ์จะรวมถึงภาพอ้างอิงที่มีท่าทางที่ดึงออกมาและภาพท่าทางแต่ละภาพ
เคล็ดลับและแนวทางปฏิบัติที่ดีที่สุด
นี่คือเคล็ดลับที่จะช่วยให้คุณได้รับประโยชน์สูงสุดจาก ComfyUI MimicMotion:
- ทดลองกับภาพอ้างอิงและลำดับท่าทางที่แตกต่างกันเพื่อสร้างการเคลื่อนไหวที่หลากหลาย
- ปรับการตั้งค่าการสุ่มตัวอย่างเพื่อสมดุลคุณภาพและเวลาการประมวลผลตามความต้องการของคุณ
- ใช้ภาพท่าทางที่มีคุณภาพสูงและสม่ำเสมอเพื่อผลลัพธ์ที่ดีที่สุด หลีกเลี่ยงการเปลี่ยนแปลงมุมมองหรือแสงที่มากเกินไประหว่างท่าทาง
- ติดตามการใช้หน่วยความจำ GPU ของคุณ โดยเฉพาะเมื่อทำงานกับภาพความละเอียดสูงหรือการเคลื่อนไหวที่ยาวนาน
- ใช้โหนด "DiffusersScheduler" เพื่อปรับแต่งการกำหนดเวลาของเสียงเพื่อสร้างเอฟเฟกต์ที่ไม่ซ้ำกัน
ComfyUI MimicMotion เป็นเครื่องมือที่ทรงพลังและหลากหลายที่ช่วยให้คุณสร้างการเคลื่อนไหวที่น่าทึ่งได้อย่างง่ายดาย โดยการเข้าใจกระบวนการทำงานและสำรวจพารามิเตอร์ต่างๆ คุณจะสามารถเคลื่อนไหวใครก็ได้อย่างง่ายดาย เมื่อคุณเข้าสู่โลกของการเคลื่อนไหว อย่าลืมทดลอง ปรับปรุง และสนุกสนานไปกับกระบวนการ ด้วย ComfyUI MimicMotion ความเป็นไปได้ไม่มีที่สิ้นสุด ดังนั้นสนุกกับการนำวิสัยทัศน์สร้างสรรค์ของคุณมาสู่ชีวิต!