1. เกี่ยวกับ CogVideoX-5B
CogVideoX-5B เป็นโมเดล text-to-video diffusion ที่ล้ำสมัยพัฒนาโดย Zhipu AI ที่มหาวิทยาลัย Tsinghua เป็นส่วนหนึ่งของซีรีส์ CogVideoX โมเดลนี้สร้างวิดีโอโดยตรงจากข้อความที่ป้อนโดยใช้เทคนิค AI ขั้นสูง เช่น 3D Variational Autoencoder (VAE) และ Expert Transformer CogVideoX-5B สร้างผลลัพธ์ที่มีคุณภาพสูงและสม่ำเสมอในเชิงเวลา ซึ่งจับการเคลื่อนไหวที่ซับซ้อนและรายละเอียดเชิงความหมายได้อย่างแม่นยำ
ด้วย CogVideoX-5B คุณจะได้ภาพที่ชัดเจนและลื่นไหล โมเดลนี้รับประกันการไหลที่ไม่มีสะดุด จับรายละเอียดที่ซับซ้อนและองค์ประกอบที่มีพลวัตได้อย่างแม่นยำ การใช้ CogVideoX-5B ช่วยลดความไม่สม่ำเสมอและสิ่งประดิษฐ์ ทำให้การนำเสนอมีความประณีตและน่าสนใจ ผลลัพธ์ที่มีความเที่ยงตรงสูงของ CogVideoX-5B ช่วยให้สามารถสร้างฉากที่มีรายละเอียดและสอดคล้องกันจากข้อความที่ป้อน ทำให้เป็นเครื่องมือที่จำเป็นสำหรับคุณภาพชั้นนำและผลกระทบทางภาพ
2. เทคนิคของ CogVideoX-5B
2.1 3D Causal Variational Autoencoder (VAE) ของ CogVideoX-5B
3D Causal VAE เป็นส่วนสำคัญของ CogVideoX-5B ช่วยในการสร้างวิดีโออย่างมีประสิทธิภาพโดยการบีบอัดข้อมูลวิดีโอทั้งเชิงพื้นที่และเชิงเวลา แตกต่างจากโมเดลดั้งเดิมที่ใช้ 2D VAE เพื่อประมวลผลแต่ละเฟรมแยกกัน ซึ่งมักจะส่งผลให้เกิดการกระพริบระหว่างเฟรม CogVideoX-5B ใช้การคอนโวลูชัน 3D เพื่อจับข้อมูลทั้งเชิงพื้นที่และเชิงเวลาในคราวเดียว วิธีการนี้รับประกันการเปลี่ยนผ่านที่ราบรื่นและสอดคล้องกันระหว่างเฟรม
สถาปัตยกรรมของ 3D Causal VAE ประกอบด้วยตัวเข้ารหัส ตัวถอดรหัส และตัวควบคุมพื้นที่แฝง ตัวเข้ารหัสบีบอัดข้อมูลวิดีโอเป็นตัวแทนแฝง ซึ่งตัวถอดรหัสจะใช้เพื่อสร้างวิดีโอใหม่ ตัวควบคุม Kullback-Leibler (KL) จำกัดพื้นที่แฝง เพื่อให้แน่ใจว่าวิดีโอที่เข้ารหัสจะยังคงอยู่ภายในการแจกแจงแบบ Gaussian ซึ่งช่วยรักษาคุณภาพของวิดีโอในระหว่างการสร้างใหม่
คุณสมบัติหลักของ 3D Causal VAE
- การบีบอัดเชิงพื้นที่และเชิงเวลา: VAE บีบอัดข้อมูลวิดีโอโดยปัจจัย 4x ในมิติของเวลาและ 8x8 ในมิติของพื้นที่ โดยได้อัตราการบีบอัดทั้งหมด 4x8x8 ซึ่งลดความต้องการในการคำนวณ ทำให้โมเดลสามารถประมวลผลวิดีโอที่ยาวขึ้นด้วยทรัพยากรที่น้อยลง
- การคอนโวลูชันเชิงสาเหตุ: เพื่อรักษาลำดับของเฟรมในวิดีโอ โมเดลใช้การคอนโวลูชันเชิงสาเหตุในเชิงเวลา ซึ่งทำให้เฟรมในอนาคตไม่ส่งผลต่อการทำนายของเฟรมปัจจุบันหรือเฟรมที่ผ่านมา และรักษาความสมบูรณ์ของลำดับในระหว่างการสร้าง
- การขนานแบบบริบท: เพื่อจัดการกับภาระในการคำนวณสูงของการประมวลผลวิดีโอที่ยาว โมเดลใช้การขนานแบบบริบทในมิติเวลา โดยกระจายภาระงานไปยังอุปกรณ์หลายตัว วิธีนี้ช่วยเพิ่มประสิทธิภาพกระบวนการฝึกอบรมและลดการใช้งานหน่วยความจำ
สถาปัตยกรรม Expert Transformer ของ CogVideoX-5B ได้รับการออกแบบมาเพื่อจัดการกับการโต้ตอบที่ซับซ้อนระหว่างข้อมูลข้อความและวิดีโออย่างมีประสิทธิภาพ โดยใช้เทคนิค Adaptive LayerNorm ในการประมวลผลพื้นที่คุณลักษณะเฉพาะของข้อความและวิดีโอ
คุณสมบัติหลักของ Expert Transformer
- การแบ่งแยก: หลังจากที่ 3D Causal VAE เข้ารหัสข้อมูลวิดีโอ มันจะถูกแบ่งออกเป็นส่วนเล็ก ๆ ตามมิติของพื้นที่ กระบวนการนี้เรียกว่าการแบ่งแยก ซึ่งแปลงวิดีโอเป็นลำดับของส่วนเล็ก ๆ ทำให้ Transformer สามารถประมวลผลและจัดเรียงข้อมูลกับข้อมูลข้อความที่เกี่ยวข้องได้ง่ายขึ้น
- การฝังตำแหน่งแบบ 3D Rotary Positional Embedding (RoPE): เพื่อจับความสัมพันธ์เชิงพื้นที่และเชิงเวลาภายในวิดีโอ CogVideoX-5B ขยาย RoPE แบบ 2D แบบดั้งเดิมเป็น 3D เทคนิคการฝังนี้ใช้การเข้ารหัสตำแหน่งกับมิติ x, y และ t ของวิดีโอ ช่วยให้ Transformer สามารถสร้างแบบจำลองลำดับวิดีโอที่ยาวและรักษาความสม่ำเสมอระหว่างเฟรมได้อย่างมีประสิทธิภาพ
- Expert Adaptive LayerNorm (AdaLN): Transformer ใช้ Expert Adaptive LayerNorm เพื่อประมวลผลการฝังข้อความและวิดีโอแยกกัน วิธีนี้ช่วยให้โมเดลจัดเรียงพื้นที่คุณลักษณะต่าง ๆ ของข้อความและวิดีโอได้อย่างราบรื่น ทำให้สามารถรวมสองโมดาลิตี้นี้เข้าด้วยกันได้อย่างราบรื่น
2.3 เทคนิคการฝึกอบรมแบบก้าวหน้าของ CogVideoX-5B
CogVideoX-5B ใช้เทคนิคการฝึกอบรมแบบก้าวหน้าหลายอย่างเพื่อปรับปรุงประสิทธิภาพและความเสถียรในระหว่างการสร้างวิดีโอ
กลยุทธ์การฝึกอบรมแบบก้าวหน้าหลัก
- การฝึกอบรมแบบผสมระยะเวลา: โมเดลได้รับการฝึกอบรมบนวิดีโอที่มีความยาวต่างกันภายในแบทช์เดียวกัน เทคนิคนี้ช่วยเพิ่มความสามารถของโมเดลในการทั่วไป ทำให้สามารถสร้างวิดีโอที่มีระยะเวลาต่างกันในขณะที่ยังคงรักษาคุณภาพที่สม่ำเสมอ
- การฝึกอบรมแบบก้าวหน้าตามความละเอียด: โมเดลได้รับการฝึกอบรมบนวิดีโอที่มีความละเอียดต่ำก่อน และจากนั้นจึงปรับแต่งเพิ่มเติมบนวิดีโอที่มีความละเอียดสูงขึ้น วิธีนี้ช่วยให้โมเดลเรียนรู้โครงสร้างและเนื้อหาพื้นฐานของวิดีโอก่อนที่จะปรับปรุงความเข้าใจในความละเอียดที่สูงขึ้น
- การสุ่มตัวอย่างแบบสม่ำเสมอโดยชัดแจ้ง: เพื่อรักษาเสถียรภาพของกระบวนการฝึกอบรม CogVideoX-5B ใช้การสุ่มตัวอย่างแบบสม่ำเสมอโดยชัดแจ้ง โดยตั้งค่าช่วงเวลาการสุ่มตัวอย่างตามช่วงเวลาที่แตกต่างกันสำหรับแต่ละตำแหน่งข้อมูลขนาน วิธีนี้ช่วยเร่งการรวมตัวและทำให้มั่นใจได้ว่าโมเดลเรียนรู้ได้อย่างมีประสิทธิภาพตลอดลำดับวิดีโอทั้งหมด
3. วิธีการใช้เวิร์กโฟลว์ ComfyUI CogVideoX-5B
ขั้นตอนที่ 1: โหลดโมเดล CogVideoX-5B
เริ่มต้นด้วยการโหลดโมเดล CogVideoX-5B เข้าสู่เวิร์กโฟลว์ ComfyUI โมเดล CogVideoX-5B ได้รับการโหลดล่วงหน้าในแพลตฟอร์ม RunComfy
ขั้นตอนที่ 2: ป้อนข้อความที่ต้องการ
ใส่ข้อความที่ต้องการในโหนดที่กำหนดเพื่อเป็นแนวทางในการสร้างวิดีโอของ CogVideoX-5B CogVideoX-5B เหมาะสมในการตีความและแปลงข้อความที่ป้อนเป็นเนื้อหาวิดีโอที่มีชีวิตชีวา
4. ข้อตกลงใบอนุญาต
โค้ดของโมเดล CogVideoX ถูกปล่อยภายใต้ .
โมเดล CogVideoX-2B (รวมถึงโมดูล Transformers และโมดูล VAE) ถูกปล่อยภายใต้ .
โมเดล CogVideoX-5B (โมดูล Transformers) ถูกปล่อยภายใต้ .