1. การเพิ่มประสิทธิภาพกระบวนการสร้างสรรค์ของคุณด้วย ComfyUI Stable Diffusion 3
🌟🌟🌟**โมเดล Stable Diffusion 3 Medium และโนดที่เกี่ยวข้องถูกโหลดล่วงหน้าในเวอร์ชันเบต้าของ RunComfy ComfyUI (เวอร์ชัน 24.06.13.0)!!!**🌟🌟🌟 คุณสามารถใช้ Stable Diffusion 3 Medium ได้โดยตรงในเวิร์กโฟลว์ ComfyUI นี้หรือผสานเข้ากับเวิร์กโฟลว์ ComfyUI ที่มีอยู่ของคุณได้อย่างราบรื่น
เวิร์กโฟลว์ ComfyUI Stable Diffusion 3 มาพร้อมกับโมเดล Stable Diffusion 3 Medium ที่จำเป็นทั้งหมด เพียงทดลองใช้พรอมต์หรือพารามิเตอร์ต่าง ๆ เพื่อสัมผัสประสบการณ์!
1.1. โมเดล Stable Diffusion 3 Medium ที่โหลดล่วงหน้าใน ComfyUI
sd3_medium.safetensors
: รวมถึงน้ำหนัก MMDiT และ VAE แต่ไม่รวมถึงตัวเข้ารหัสข้อความใด ๆ
sd3_medium_incl_clips_t5xxlfp16.safetensors
: ประกอบด้วยน้ำหนักทั้งหมดที่จำเป็น รวมถึงเวอร์ชัน fp16 ของตัวเข้ารหัสข้อความ T5XXL
sd3_medium_incl_clips_t5xxlfp8.safetensors
: ประกอบด้วยน้ำหนักทั้งหมดที่จำเป็น รวมถึงเวอร์ชัน fp8 ของตัวเข้ารหัสข้อความ T5XXL ซึ่งให้ความสมดุลระหว่างคุณภาพและความต้องการทรัพยากร
sd3_medium_incl_clips.safetensors
: รวมถึงน้ำหนักทั้งหมดที่จำเป็นยกเว้นตัวเข้ารหัสข้อความ T5XXL เวอร์ชันนี้ต้องการทรัพยากรน้อยที่สุด แต่ประสิทธิภาพของโมเดลจะแตกต่างกันโดยไม่มีตัวเข้ารหัสข้อความ T5XXL
- โฟลเดอร์
text_encoders
มีตัวเข้ารหัสข้อความสามตัวและลิงก์การ์ดโมเดลต้นฉบับเพื่อความสะดวกของผู้ใช้ ส่วนประกอบทั้งหมดในโฟลเดอร์นี้ (และเทียบเท่าที่ฝังในแพ็กเกจอื่น ๆ) อยู่ภายใต้ใบอนุญาตดั้งเดิมของตนเอง
1.2 คุณภาพโดยรวมและความสมจริงของ Stable Diffusion 3 Medium
Stable Diffusion 3 Medium ตั้งมาตรฐานใหม่สำหรับคุณภาพของภาพในชุมชนศิลปะ AI โมเดลนี้สร้างภาพที่มีรายละเอียดที่ยอดเยี่ยม ความถูกต้องของสี และแสงที่สมจริง นี่คือสิ่งที่คุณสามารถคาดหวังได้:
- รายละเอียด & ความละเอียด: ความสามารถที่เพิ่มขึ้นในการสร้างรายละเอียดที่ซับซ้อน ทำให้เหมาะสำหรับการถ่ายภาพระยะใกล้และองค์ประกอบที่ซับซ้อน
- สี & แสง: อัลกอริธึมที่ปรับปรุงแล้วทำให้สีสดใสและสมจริง พร้อมเอฟเฟกต์แสงที่เพิ่มความลึกและความสมจริงให้กับภาพของคุณ
- ความสมจริงในใบหน้าและมือ: ข้อผิดพลาดทั่วไปเช่นมือและใบหน้าที่บิดเบี้ยวลดลงอย่างมากด้วยนวัตกรรมเช่น Variational Autoencoder (VAE) 16 ช่อง
1.3 ความเข้าใจพรอมต์ของ Stable Diffusion 3 Medium
หนึ่งในคุณสมบัติที่โดดเด่นของ SD3 Medium คือความเข้าใจพรอมต์ที่ซับซ้อน โมเดลนี้สามารถตีความพรอมต์ที่ยาวและซับซ้อนที่เกี่ยวข้องกับการทำความเข้าใจเชิงพื้นที่ องค์ประกอบ การกระทำ และสไตล์ นี่คือไฮไลท์บางประการ:
- ตัวเข้ารหัสข้อความ: ใช้ตัวเข้ารหัสข้อความสามตัวเพื่อสร้างสมดุลระหว่างประสิทธิภาพและประสิทธิผล ทำให้สามารถเข้าใจและดำเนินการพรอมต์ที่ละเอียดได้
- การรับรู้เชิงองค์ประกอบ: รักษาความสัมพันธ์เชิงพื้นที่และแสดงฉากตามที่อธิบายไว้อย่างแม่นยำ ทำให้เหมาะสำหรับการเล่าเรื่องผ่านภาพ
1.4 การพิมพ์ตัวอักษรของ Stable Diffusion 3 Medium
การพิมพ์ตัวอักษรเป็นความท้าทายเสมอในการสร้างภาพจากข้อความ SD3 Medium จัดการกับสิ่งนี้ได้อย่างประสบความสำเร็จ:
- คุณภาพของข้อความ: บรรลุความถูกต้องที่ไม่เคยมีมาก่อนในการสะกดคำ การจัดตัวอักษร การสร้างตัวอักษร และการเว้นวรรค
- สถาปัตยกรรม Diffusion Transformer: สถาปัตยกรรมขั้นสูงนี้ช่วยให้การแสดงข้อความในภาพมีความแม่นยำมากขึ้น ลดข้อผิดพลาดและปรับปรุงความสอดคล้องของภาพ
1.5 ประสิทธิภาพการใช้ทรัพยากรของ Stable Diffusion 3 Medium
แม้จะมีความสามารถขั้นสูง แต่ SD3 Medium ถูกออกแบบมาให้ใช้ทรัพยากรอย่างมีประสิทธิภาพ:
- การใช้ VRAM ต่ำ: สามารถทำงานบน GPU สำหรับผู้บริโภคทั่วไปโดยไม่ลดประสิทธิภาพ ทำให้งานศิลปะ AI คุณภาพสูงเข้าถึงได้กว้างขึ้น
- ปรับให้เหมาะสมสำหรับประสิทธิภาพ: สมดุลระหว่างความต้องการในการคำนวณกับคุณภาพของผลลัพธ์ ทำให้การทำงานราบรื่นแม้บนฮาร์ดแวร์ที่มีประสิทธิภาพน้อยกว่า
1.6 การปรับแต่งของ Stable Diffusion 3 Medium
การปรับแต่งเป็นสิ่งสำคัญสำหรับศิลปิน AI และ SD3 Medium ทำได้ดีในด้านนี้:
- การดูดซับรายละเอียดที่ซับซ้อน: สามารถปรับแต่งด้วยชุดข้อมูลขนาดเล็ก ทำให้ศิลปินสามารถพิมพ์สไตล์เฉพาะตัวหรือให้ตรงกับความต้องการของโครงการได้
- ความหลากหลาย: ไม่ว่าคุณจะทำงานในธีม สไตล์ หรือรายละเอียดที่ซับซ้อน SD3 Medium ให้ความยืดหยุ่นที่จำเป็นสำหรับงานศิลปะที่ปรับแต่งได้
2. Stable Diffusion 3 คืออะไร
Stable Diffusion 3 เป็นโมเดล AI ที่ล้ำสมัยที่ออกแบบมาเพื่อสร้างภาพจากพรอมต์ มันเป็นการพัฒนาครั้งที่สามในซีรีส์ Stable Diffusion และมุ่งมั่นที่จะให้ความแม่นยำที่ดีขึ้น ความเข้าใจในรายละเอียดของพรอมต์ที่ดีขึ้น และความสวยงามของภาพที่เหนือกว่ารุ่นก่อนหน้าและโมเดลอื่น ๆ เช่น DALL·E 3, Midjourney v6 และ Ideogram v1
3. โมเดล Stable Diffusion 3
Stable Diffusion 3 มีสามโมเดลที่แตกต่างกัน แต่ละโมเดลออกแบบมาเพื่อตอบสนองความต้องการและความสามารถในการคำนวณที่แตกต่างกัน:
3.1. Stable Diffusion 3 Medium
🌟🌟🌟 ผสานเข้ากับเวิร์กโฟลว์นี้โดยตรง 🌟🌟🌟
- พารามิเตอร์: 2 พันล้าน
- คุณสมบัติหลัก:
- ภาพคุณภาพสูง สมจริง
- ความเข้าใจในพรอมต์ที่ซับซ้อน
- ความสามารถในการพิมพ์ตัวอักษรที่เหนือกว่า
- ประหยัดทรัพยากร เหมาะสำหรับ GPU ของผู้บริโภคทั่วไป
- เหมาะสำหรับการปรับแต่งด้วยชุดข้อมูลขนาดเล็ก
3.2. Stable Diffusion 3 Large
มีให้ผ่าน Stability AI Developer Platform API
- พารามิเตอร์: 8 พันล้าน
- คุณสมบัติหลัก:
- คุณภาพและรายละเอียดของภาพที่ดีขึ้น
- ความสามารถในการจัดการกับพรอมต์และสไตล์ที่ซับซ้อนมากขึ้น
- เหมาะสำหรับโครงการระดับมืออาชีพที่ต้องการความละเอียดและความละเอียดสูง
3.3. Stable Diffusion 3 Large Turbo
มีให้ผ่าน Stability AI Developer Platform API
- พารามิเตอร์: 8 พันล้าน (พร้อมเวลาการสรุปผลที่ปรับให้เหมาะสม)
- คุณสมบัติหลัก:
- ประสิทธิภาพสูงเช่นเดียวกับ SD3 Large
- การสรุปผลที่เร็วขึ้น ทำให้เหมาะสำหรับการใช้งานแบบเรียลไทม์และการสร้างต้นแบบอย่างรวดเร็ว
4. สถาปัตยกรรมทางเทคนิคของ Stable Diffusion 3
ที่แกนกลางของ Stable Diffusion 3 คือสถาปัตยกรรม Multimodal Diffusion Transformer (MMDiT) กรอบนวัตกรรมนี้ช่วยเพิ่มประสิทธิภาพการประมวลผลและการผสานข้อมูลข้อความและภาพ ไม่เหมือนกับรุ่นก่อนหน้าที่ใช้ชุดน้ำหนักเครือข่ายประสาทเดียวกันสำหรับการประมวลผลภาพและข้อความ Stable Diffusion 3 ใช้ชุดน้ำหนักแยกสำหรับแต่ละโหมดการทำงาน การแยกนี้ช่วยให้การจัดการข้อความและข้อมูลภาพมีความเชี่ยวชาญมากขึ้น นำไปสู่การเข้าใจข้อความและการสะกดคำที่ดีขึ้นในภาพที่สร้างขึ้น
4.1. ส่วนประกอบของสถาปัตยกรรม MMDiT
- ตัวฝังข้อความ: Stable Diffusion 3 ใช้การรวมกันของโมเดลการฝังข้อความสามตัว รวมถึงโมเดล CLIP สองตัวและ T5 เพื่อแปลงข้อความให้อยู่ในรูปแบบที่ AI สามารถเข้าใจและประมวลผลได้
- ตัวเข้ารหัสภาพ: ใช้โมเดลการเข้ารหัสอัตโนมัติที่ปรับปรุงแล้วเพื่อแปลงภาพให้อยู่ในรูปแบบที่เหมาะสมสำหรับ AI ในการจัดการและสร้างเนื้อหาภาพใหม่
- แนวทาง Dual Transformer: สถาปัตยกรรมมีตัวแปลงแยกสำหรับข้อความและภาพสองตัว ซึ่งทำงานอย่างอิสระแต่เชื่อมโยงกันสำหรับการดำเนินการความสนใจ การตั้งค่านี้ช่วยให้ทั้งสองรูปแบบมีอิทธิพลต่อกันโดยตรง เพิ่มความสอดคล้องระหว่างข้อมูลข้อความและภาพที่สร้างขึ้น
5. อะไรใหม่และปรับปรุงใน Stable Diffusion 3?
- การปฏิบัติตามพรอมต์: SD3 เก่งในการปฏิบัติตามรายละเอียดของพรอมต์ของผู้ใช้ โดยเฉพาะอย่างยิ่งพรอมต์ที่เกี่ยวข้องกับฉากที่ซับซ้อนหรือหลายเรื่อง ความแม่นยำในการเข้าใจและแสดงผลพรอมต์ที่ละเอียดนี้ทำให้มันเหนือกว่ารุ่นชั้นนำอื่น ๆ เช่น DALL·E 3, Midjourney v6 และ Ideogram v1 ทำให้มันน่าเชื่อถือมากสำหรับโครงการที่ต้องการการปฏิบัติตามคำแนะนำที่เคร่งครัด
- ข้อความในภาพ: ด้วยสถาปัตยกรรม Multimodal Diffusion Transformer (MMDiT) ที่ล้ำสมัย SD3 ช่วยเพิ่มความชัดเจนและความอ่านง่ายของข้อความในภาพได้อย่างมาก โดยการใช้ชุดน้ำหนักแยกสำหรับการประมวลผลข้อมูลภาพและภาษา โมเดลนี้บรรลุความเข้าใจข้อความและความถูกต้องในการสะกดคำที่เหนือกว่า นี่เป็นการปรับปรุงที่สำคัญจากรุ่นก่อนหน้าของ Stable Diffusion ซึ่งแก้ไขหนึ่งในความท้าทายทั่วไปในการใช้งาน AI ที่แปลงข้อความเป็นภาพ
- คุณภาพของภาพ: SD3 ไม่เพียงแต่เทียบเท่าแต่ในหลายกรณียังเหนือกว่าคุณภาพของภาพที่สร้างโดยคู่แข่ง ภาพที่ผลิตมีความสวยงามและรักษาความถูกต้องสูงต่อพรอมต์ด้วยความสามารถที่ปรับปรุงแล้วในการตีความและแสดงผลคำอธิบายข้อความอย่างละเอียด สิ่งนี้ทำให้ SD3 เป็นตัวเลือกยอดนิยมสำหรับผู้ใช้ที่ต้องการความสวยงามของภาพที่ยอดเยี่ยมในภาพที่สร้างขึ้น
สำหรับข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับโมเดลนี้ โปรดเยี่ยมชม เอกสารวิจัยของ Stable Diffusion 3