ComfyUI  >  เวิร์กโฟลว์  >  CogVideoX-5B | โมเดล Text-to-Video ขั้นสูง

CogVideoX-5B | โมเดล Text-to-Video ขั้นสูง

CogVideoX-5B ที่พัฒนาโดย Zhipu AI เป็นโมเดล text-to-video ที่ล้ำสมัยซึ่งสร้างวิดีโอคุณภาพสูงจากข้อความที่ป้อน โดยใช้โครงสร้าง 3D Causal VAE และ Expert Transformer โมเดลนี้รับประกันความสม่ำเสมอของเวลาและความราบรื่นของลำดับวิดีโอ ทำให้เหมาะสำหรับการสร้างการเคลื่อนไหวที่ซับซ้อนและรายละเอียดเชิงความหมาย

ComfyUI CogVideoX-5B เวิร์กโฟลว์

ComfyUI CogVideoX-5B
ต้องการเรียกใช้เวิร์กโฟลว์นี้หรือไม่?
  • เวิร์กโฟลว์ที่ทำงานได้เต็มที่
  • ไม่มีโหนดหรือโมเดลที่ขาดหายไป
  • ไม่จำเป็นต้องตั้งค่าด้วยตนเอง
  • มีภาพที่น่าทึ่ง

ComfyUI CogVideoX-5B ตัวอย่าง

ComfyUI CogVideoX-5B คำอธิบาย

1. เกี่ยวกับ CogVideoX-5B

CogVideoX-5B เป็นโมเดล text-to-video diffusion ที่ล้ำสมัยพัฒนาโดย Zhipu AI ที่มหาวิทยาลัย Tsinghua เป็นส่วนหนึ่งของซีรีส์ CogVideoX โมเดลนี้สร้างวิดีโอโดยตรงจากข้อความที่ป้อนโดยใช้เทคนิค AI ขั้นสูง เช่น 3D Variational Autoencoder (VAE) และ Expert Transformer CogVideoX-5B สร้างผลลัพธ์ที่มีคุณภาพสูงและสม่ำเสมอในเชิงเวลา ซึ่งจับการเคลื่อนไหวที่ซับซ้อนและรายละเอียดเชิงความหมายได้อย่างแม่นยำ

ด้วย CogVideoX-5B คุณจะได้ภาพที่ชัดเจนและลื่นไหล โมเดลนี้รับประกันการไหลที่ไม่มีสะดุด จับรายละเอียดที่ซับซ้อนและองค์ประกอบที่มีพลวัตได้อย่างแม่นยำ การใช้ CogVideoX-5B ช่วยลดความไม่สม่ำเสมอและสิ่งประดิษฐ์ ทำให้การนำเสนอมีความประณีตและน่าสนใจ ผลลัพธ์ที่มีความเที่ยงตรงสูงของ CogVideoX-5B ช่วยให้สามารถสร้างฉากที่มีรายละเอียดและสอดคล้องกันจากข้อความที่ป้อน ทำให้เป็นเครื่องมือที่จำเป็นสำหรับคุณภาพชั้นนำและผลกระทบทางภาพ

2. เทคนิคของ CogVideoX-5B

2.1 3D Causal Variational Autoencoder (VAE) ของ CogVideoX-5B

3D Causal VAE เป็นส่วนสำคัญของ CogVideoX-5B ช่วยในการสร้างวิดีโออย่างมีประสิทธิภาพโดยการบีบอัดข้อมูลวิดีโอทั้งเชิงพื้นที่และเชิงเวลา แตกต่างจากโมเดลดั้งเดิมที่ใช้ 2D VAE เพื่อประมวลผลแต่ละเฟรมแยกกัน ซึ่งมักจะส่งผลให้เกิดการกระพริบระหว่างเฟรม CogVideoX-5B ใช้การคอนโวลูชัน 3D เพื่อจับข้อมูลทั้งเชิงพื้นที่และเชิงเวลาในคราวเดียว วิธีการนี้รับประกันการเปลี่ยนผ่านที่ราบรื่นและสอดคล้องกันระหว่างเฟรม

สถาปัตยกรรมของ 3D Causal VAE ประกอบด้วยตัวเข้ารหัส ตัวถอดรหัส และตัวควบคุมพื้นที่แฝง ตัวเข้ารหัสบีบอัดข้อมูลวิดีโอเป็นตัวแทนแฝง ซึ่งตัวถอดรหัสจะใช้เพื่อสร้างวิดีโอใหม่ ตัวควบคุม Kullback-Leibler (KL) จำกัดพื้นที่แฝง เพื่อให้แน่ใจว่าวิดีโอที่เข้ารหัสจะยังคงอยู่ภายในการแจกแจงแบบ Gaussian ซึ่งช่วยรักษาคุณภาพของวิดีโอในระหว่างการสร้างใหม่

คุณสมบัติหลักของ 3D Causal VAE

  • การบีบอัดเชิงพื้นที่และเชิงเวลา: VAE บีบอัดข้อมูลวิดีโอโดยปัจจัย 4x ในมิติของเวลาและ 8x8 ในมิติของพื้นที่ โดยได้อัตราการบีบอัดทั้งหมด 4x8x8 ซึ่งลดความต้องการในการคำนวณ ทำให้โมเดลสามารถประมวลผลวิดีโอที่ยาวขึ้นด้วยทรัพยากรที่น้อยลง
  • การคอนโวลูชันเชิงสาเหตุ: เพื่อรักษาลำดับของเฟรมในวิดีโอ โมเดลใช้การคอนโวลูชันเชิงสาเหตุในเชิงเวลา ซึ่งทำให้เฟรมในอนาคตไม่ส่งผลต่อการทำนายของเฟรมปัจจุบันหรือเฟรมที่ผ่านมา และรักษาความสมบูรณ์ของลำดับในระหว่างการสร้าง
  • การขนานแบบบริบท: เพื่อจัดการกับภาระในการคำนวณสูงของการประมวลผลวิดีโอที่ยาว โมเดลใช้การขนานแบบบริบทในมิติเวลา โดยกระจายภาระงานไปยังอุปกรณ์หลายตัว วิธีนี้ช่วยเพิ่มประสิทธิภาพกระบวนการฝึกอบรมและลดการใช้งานหน่วยความจำ

2.2 สถาปัตยกรรม Expert Transformer ของ CogVideoX-5B

สถาปัตยกรรม Expert Transformer ของ CogVideoX-5B ได้รับการออกแบบมาเพื่อจัดการกับการโต้ตอบที่ซับซ้อนระหว่างข้อมูลข้อความและวิดีโออย่างมีประสิทธิภาพ โดยใช้เทคนิค Adaptive LayerNorm ในการประมวลผลพื้นที่คุณลักษณะเฉพาะของข้อความและวิดีโอ

คุณสมบัติหลักของ Expert Transformer

  • การแบ่งแยก: หลังจากที่ 3D Causal VAE เข้ารหัสข้อมูลวิดีโอ มันจะถูกแบ่งออกเป็นส่วนเล็ก ๆ ตามมิติของพื้นที่ กระบวนการนี้เรียกว่าการแบ่งแยก ซึ่งแปลงวิดีโอเป็นลำดับของส่วนเล็ก ๆ ทำให้ Transformer สามารถประมวลผลและจัดเรียงข้อมูลกับข้อมูลข้อความที่เกี่ยวข้องได้ง่ายขึ้น
  • การฝังตำแหน่งแบบ 3D Rotary Positional Embedding (RoPE): เพื่อจับความสัมพันธ์เชิงพื้นที่และเชิงเวลาภายในวิดีโอ CogVideoX-5B ขยาย RoPE แบบ 2D แบบดั้งเดิมเป็น 3D เทคนิคการฝังนี้ใช้การเข้ารหัสตำแหน่งกับมิติ x, y และ t ของวิดีโอ ช่วยให้ Transformer สามารถสร้างแบบจำลองลำดับวิดีโอที่ยาวและรักษาความสม่ำเสมอระหว่างเฟรมได้อย่างมีประสิทธิภาพ
  • Expert Adaptive LayerNorm (AdaLN): Transformer ใช้ Expert Adaptive LayerNorm เพื่อประมวลผลการฝังข้อความและวิดีโอแยกกัน วิธีนี้ช่วยให้โมเดลจัดเรียงพื้นที่คุณลักษณะต่าง ๆ ของข้อความและวิดีโอได้อย่างราบรื่น ทำให้สามารถรวมสองโมดาลิตี้นี้เข้าด้วยกันได้อย่างราบรื่น

2.3 เทคนิคการฝึกอบรมแบบก้าวหน้าของ CogVideoX-5B

CogVideoX-5B ใช้เทคนิคการฝึกอบรมแบบก้าวหน้าหลายอย่างเพื่อปรับปรุงประสิทธิภาพและความเสถียรในระหว่างการสร้างวิดีโอ

กลยุทธ์การฝึกอบรมแบบก้าวหน้าหลัก

  • การฝึกอบรมแบบผสมระยะเวลา: โมเดลได้รับการฝึกอบรมบนวิดีโอที่มีความยาวต่างกันภายในแบทช์เดียวกัน เทคนิคนี้ช่วยเพิ่มความสามารถของโมเดลในการทั่วไป ทำให้สามารถสร้างวิดีโอที่มีระยะเวลาต่างกันในขณะที่ยังคงรักษาคุณภาพที่สม่ำเสมอ
  • การฝึกอบรมแบบก้าวหน้าตามความละเอียด: โมเดลได้รับการฝึกอบรมบนวิดีโอที่มีความละเอียดต่ำก่อน และจากนั้นจึงปรับแต่งเพิ่มเติมบนวิดีโอที่มีความละเอียดสูงขึ้น วิธีนี้ช่วยให้โมเดลเรียนรู้โครงสร้างและเนื้อหาพื้นฐานของวิดีโอก่อนที่จะปรับปรุงความเข้าใจในความละเอียดที่สูงขึ้น
  • การสุ่มตัวอย่างแบบสม่ำเสมอโดยชัดแจ้ง: เพื่อรักษาเสถียรภาพของกระบวนการฝึกอบรม CogVideoX-5B ใช้การสุ่มตัวอย่างแบบสม่ำเสมอโดยชัดแจ้ง โดยตั้งค่าช่วงเวลาการสุ่มตัวอย่างตามช่วงเวลาที่แตกต่างกันสำหรับแต่ละตำแหน่งข้อมูลขนาน วิธีนี้ช่วยเร่งการรวมตัวและทำให้มั่นใจได้ว่าโมเดลเรียนรู้ได้อย่างมีประสิทธิภาพตลอดลำดับวิดีโอทั้งหมด

3. วิธีการใช้เวิร์กโฟลว์ ComfyUI CogVideoX-5B

ขั้นตอนที่ 1: โหลดโมเดล CogVideoX-5B

เริ่มต้นด้วยการโหลดโมเดล CogVideoX-5B เข้าสู่เวิร์กโฟลว์ ComfyUI โมเดล CogVideoX-5B ได้รับการโหลดล่วงหน้าในแพลตฟอร์ม RunComfy

ขั้นตอนที่ 2: ป้อนข้อความที่ต้องการ

ใส่ข้อความที่ต้องการในโหนดที่กำหนดเพื่อเป็นแนวทางในการสร้างวิดีโอของ CogVideoX-5B CogVideoX-5B เหมาะสมในการตีความและแปลงข้อความที่ป้อนเป็นเนื้อหาวิดีโอที่มีชีวิตชีวา

4. ข้อตกลงใบอนุญาต

โค้ดของโมเดล CogVideoX ถูกปล่อยภายใต้ .

โมเดล CogVideoX-2B (รวมถึงโมดูล Transformers และโมดูล VAE) ถูกปล่อยภายใต้ .

โมเดล CogVideoX-5B (โมดูล Transformers) ถูกปล่อยภายใต้ .

ต้องการเวิร์กโฟลว์ ComfyUI เพิ่มเติมหรือไม่?

RunComfy

© ลิขสิทธิ์ 2024 RunComfy. สงวนลิขสิทธิ์

RunComfy เป็นผู้นำ ComfyUI แพลตฟอร์มที่นำเสนอ ComfyUI ออนไลน์ สภาพแวดล้อมและบริการ พร้อมด้วย เวิร์กโฟลว์ ComfyUI ที่มีภาพที่น่าทึ่ง