ComfyUI  >  เวิร์กโฟลว์  >  Stable Diffusion 3 (SD3) | แปลงข้อความเป็นภาพ

Stable Diffusion 3 (SD3) | แปลงข้อความเป็นภาพ

Stable Diffusion 3 (SD3) medium พร้อมใช้งานแล้วใน RunComfy Beta Version ทำให้เข้าถึงได้ง่ายสำหรับโครงการของคุณ คุณสามารถใช้ Stable Diffusion 3 medium ได้โดยตรงในเวิร์กโฟลว์นี้หรือผสาน Stable Diffusion 3 เข้ากับเวิร์กโฟลว์ที่มีอยู่ของคุณได้

ComfyUI Stable Diffusion 3 (SD3) Playground

ComfyUI Stable Diffusion 3 (SD3) Workflow

ComfyUI Stable Diffusion 3
ต้องการเรียกใช้เวิร์กโฟลว์นี้หรือไม่?
  • เวิร์กโฟลว์ที่ทำงานได้เต็มที่
  • ไม่มีโหนดหรือโมเดลที่ขาดหายไป
  • ไม่จำเป็นต้องตั้งค่าด้วยตนเอง
  • มีภาพที่น่าทึ่ง

ComfyUI Stable Diffusion 3 (SD3) Examples

leverage-stable-diffusion-3-for-advanced-visuals-1089
leverage-stable-diffusion-3-for-advanced-visuals-1089-example_1.webp
leverage-stable-diffusion-3-for-advanced-visuals-1089-example_2.webp

คำอธิบาย ComfyUI Stable Diffusion 3 (SD3)

1. การเพิ่มประสิทธิภาพกระบวนการสร้างสรรค์ของคุณด้วย ComfyUI Stable Diffusion 3

🌟🌟🌟**โมเดล Stable Diffusion 3 Medium และโนดที่เกี่ยวข้องถูกโหลดล่วงหน้าในเวอร์ชันเบต้าของ RunComfy ComfyUI (เวอร์ชัน 24.06.13.0)!!!**🌟🌟🌟 คุณสามารถใช้ Stable Diffusion 3 Medium ได้โดยตรงในเวิร์กโฟลว์ ComfyUI นี้หรือผสานเข้ากับเวิร์กโฟลว์ ComfyUI ที่มีอยู่ของคุณได้อย่างราบรื่น

เวิร์กโฟลว์ ComfyUI Stable Diffusion 3 มาพร้อมกับโมเดล Stable Diffusion 3 Medium ที่จำเป็นทั้งหมด เพียงทดลองใช้พรอมต์หรือพารามิเตอร์ต่าง ๆ เพื่อสัมผัสประสบการณ์!

1.1. โมเดล Stable Diffusion 3 Medium ที่โหลดล่วงหน้าใน ComfyUI

  • sd3_medium.safetensors: รวมถึงน้ำหนัก MMDiT และ VAE แต่ไม่รวมถึงตัวเข้ารหัสข้อความใด ๆ
  • sd3_medium_incl_clips_t5xxlfp16.safetensors: ประกอบด้วยน้ำหนักทั้งหมดที่จำเป็น รวมถึงเวอร์ชัน fp16 ของตัวเข้ารหัสข้อความ T5XXL
  • sd3_medium_incl_clips_t5xxlfp8.safetensors: ประกอบด้วยน้ำหนักทั้งหมดที่จำเป็น รวมถึงเวอร์ชัน fp8 ของตัวเข้ารหัสข้อความ T5XXL ซึ่งให้ความสมดุลระหว่างคุณภาพและความต้องการทรัพยากร
  • sd3_medium_incl_clips.safetensors: รวมถึงน้ำหนักทั้งหมดที่จำเป็นยกเว้นตัวเข้ารหัสข้อความ T5XXL เวอร์ชันนี้ต้องการทรัพยากรน้อยที่สุด แต่ประสิทธิภาพของโมเดลจะแตกต่างกันโดยไม่มีตัวเข้ารหัสข้อความ T5XXL
  • โฟลเดอร์ text_encoders มีตัวเข้ารหัสข้อความสามตัวและลิงก์การ์ดโมเดลต้นฉบับเพื่อความสะดวกของผู้ใช้ ส่วนประกอบทั้งหมดในโฟลเดอร์นี้ (และเทียบเท่าที่ฝังในแพ็กเกจอื่น ๆ) อยู่ภายใต้ใบอนุญาตดั้งเดิมของตนเอง

1.2 คุณภาพโดยรวมและความสมจริงของ Stable Diffusion 3 Medium

Stable Diffusion 3 Medium ตั้งมาตรฐานใหม่สำหรับคุณภาพของภาพในชุมชนศิลปะ AI โมเดลนี้สร้างภาพที่มีรายละเอียดที่ยอดเยี่ยม ความถูกต้องของสี และแสงที่สมจริง นี่คือสิ่งที่คุณสามารถคาดหวังได้:

  • รายละเอียด & ความละเอียด: ความสามารถที่เพิ่มขึ้นในการสร้างรายละเอียดที่ซับซ้อน ทำให้เหมาะสำหรับการถ่ายภาพระยะใกล้และองค์ประกอบที่ซับซ้อน
  • สี & แสง: อัลกอริธึมที่ปรับปรุงแล้วทำให้สีสดใสและสมจริง พร้อมเอฟเฟกต์แสงที่เพิ่มความลึกและความสมจริงให้กับภาพของคุณ
  • ความสมจริงในใบหน้าและมือ: ข้อผิดพลาดทั่วไปเช่นมือและใบหน้าที่บิดเบี้ยวลดลงอย่างมากด้วยนวัตกรรมเช่น Variational Autoencoder (VAE) 16 ช่อง

1.3 ความเข้าใจพรอมต์ของ Stable Diffusion 3 Medium

หนึ่งในคุณสมบัติที่โดดเด่นของ SD3 Medium คือความเข้าใจพรอมต์ที่ซับซ้อน โมเดลนี้สามารถตีความพรอมต์ที่ยาวและซับซ้อนที่เกี่ยวข้องกับการทำความเข้าใจเชิงพื้นที่ องค์ประกอบ การกระทำ และสไตล์ นี่คือไฮไลท์บางประการ:

  • ตัวเข้ารหัสข้อความ: ใช้ตัวเข้ารหัสข้อความสามตัวเพื่อสร้างสมดุลระหว่างประสิทธิภาพและประสิทธิผล ทำให้สามารถเข้าใจและดำเนินการพรอมต์ที่ละเอียดได้
  • การรับรู้เชิงองค์ประกอบ: รักษาความสัมพันธ์เชิงพื้นที่และแสดงฉากตามที่อธิบายไว้อย่างแม่นยำ ทำให้เหมาะสำหรับการเล่าเรื่องผ่านภาพ

1.4 การพิมพ์ตัวอักษรของ Stable Diffusion 3 Medium

การพิมพ์ตัวอักษรเป็นความท้าทายเสมอในการสร้างภาพจากข้อความ SD3 Medium จัดการกับสิ่งนี้ได้อย่างประสบความสำเร็จ:

  • คุณภาพของข้อความ: บรรลุความถูกต้องที่ไม่เคยมีมาก่อนในการสะกดคำ การจัดตัวอักษร การสร้างตัวอักษร และการเว้นวรรค
  • สถาปัตยกรรม Diffusion Transformer: สถาปัตยกรรมขั้นสูงนี้ช่วยให้การแสดงข้อความในภาพมีความแม่นยำมากขึ้น ลดข้อผิดพลาดและปรับปรุงความสอดคล้องของภาพ

1.5 ประสิทธิภาพการใช้ทรัพยากรของ Stable Diffusion 3 Medium

แม้จะมีความสามารถขั้นสูง แต่ SD3 Medium ถูกออกแบบมาให้ใช้ทรัพยากรอย่างมีประสิทธิภาพ:

  • การใช้ VRAM ต่ำ: สามารถทำงานบน GPU สำหรับผู้บริโภคทั่วไปโดยไม่ลดประสิทธิภาพ ทำให้งานศิลปะ AI คุณภาพสูงเข้าถึงได้กว้างขึ้น
  • ปรับให้เหมาะสมสำหรับประสิทธิภาพ: สมดุลระหว่างความต้องการในการคำนวณกับคุณภาพของผลลัพธ์ ทำให้การทำงานราบรื่นแม้บนฮาร์ดแวร์ที่มีประสิทธิภาพน้อยกว่า

1.6 การปรับแต่งของ Stable Diffusion 3 Medium

การปรับแต่งเป็นสิ่งสำคัญสำหรับศิลปิน AI และ SD3 Medium ทำได้ดีในด้านนี้:

  • การดูดซับรายละเอียดที่ซับซ้อน: สามารถปรับแต่งด้วยชุดข้อมูลขนาดเล็ก ทำให้ศิลปินสามารถพิมพ์สไตล์เฉพาะตัวหรือให้ตรงกับความต้องการของโครงการได้
  • ความหลากหลาย: ไม่ว่าคุณจะทำงานในธีม สไตล์ หรือรายละเอียดที่ซับซ้อน SD3 Medium ให้ความยืดหยุ่นที่จำเป็นสำหรับงานศิลปะที่ปรับแต่งได้

2. Stable Diffusion 3 คืออะไร

Stable Diffusion 3 เป็นโมเดล AI ที่ล้ำสมัยที่ออกแบบมาเพื่อสร้างภาพจากพรอมต์ มันเป็นการพัฒนาครั้งที่สามในซีรีส์ Stable Diffusion และมุ่งมั่นที่จะให้ความแม่นยำที่ดีขึ้น ความเข้าใจในรายละเอียดของพรอมต์ที่ดีขึ้น และความสวยงามของภาพที่เหนือกว่ารุ่นก่อนหน้าและโมเดลอื่น ๆ เช่น DALL·E 3, Midjourney v6 และ Ideogram v1

3. โมเดล Stable Diffusion 3

Stable Diffusion 3 มีสามโมเดลที่แตกต่างกัน แต่ละโมเดลออกแบบมาเพื่อตอบสนองความต้องการและความสามารถในการคำนวณที่แตกต่างกัน:

3.1. Stable Diffusion 3 Medium

🌟🌟🌟 ผสานเข้ากับเวิร์กโฟลว์นี้โดยตรง 🌟🌟🌟

  • พารามิเตอร์: 2 พันล้าน
  • คุณสมบัติหลัก:
    • ภาพคุณภาพสูง สมจริง
    • ความเข้าใจในพรอมต์ที่ซับซ้อน
    • ความสามารถในการพิมพ์ตัวอักษรที่เหนือกว่า
    • ประหยัดทรัพยากร เหมาะสำหรับ GPU ของผู้บริโภคทั่วไป
    • เหมาะสำหรับการปรับแต่งด้วยชุดข้อมูลขนาดเล็ก

3.2. Stable Diffusion 3 Large

มีให้ผ่าน Stability AI Developer Platform API

  • พารามิเตอร์: 8 พันล้าน
  • คุณสมบัติหลัก:
    • คุณภาพและรายละเอียดของภาพที่ดีขึ้น
    • ความสามารถในการจัดการกับพรอมต์และสไตล์ที่ซับซ้อนมากขึ้น
    • เหมาะสำหรับโครงการระดับมืออาชีพที่ต้องการความละเอียดและความละเอียดสูง

3.3. Stable Diffusion 3 Large Turbo

มีให้ผ่าน Stability AI Developer Platform API

  • พารามิเตอร์: 8 พันล้าน (พร้อมเวลาการสรุปผลที่ปรับให้เหมาะสม)
  • คุณสมบัติหลัก:
    • ประสิทธิภาพสูงเช่นเดียวกับ SD3 Large
    • การสรุปผลที่เร็วขึ้น ทำให้เหมาะสำหรับการใช้งานแบบเรียลไทม์และการสร้างต้นแบบอย่างรวดเร็ว

4. สถาปัตยกรรมทางเทคนิคของ Stable Diffusion 3

ที่แกนกลางของ Stable Diffusion 3 คือสถาปัตยกรรม Multimodal Diffusion Transformer (MMDiT) กรอบนวัตกรรมนี้ช่วยเพิ่มประสิทธิภาพการประมวลผลและการผสานข้อมูลข้อความและภาพ ไม่เหมือนกับรุ่นก่อนหน้าที่ใช้ชุดน้ำหนักเครือข่ายประสาทเดียวกันสำหรับการประมวลผลภาพและข้อความ Stable Diffusion 3 ใช้ชุดน้ำหนักแยกสำหรับแต่ละโหมดการทำงาน การแยกนี้ช่วยให้การจัดการข้อความและข้อมูลภาพมีความเชี่ยวชาญมากขึ้น นำไปสู่การเข้าใจข้อความและการสะกดคำที่ดีขึ้นในภาพที่สร้างขึ้น

4.1. ส่วนประกอบของสถาปัตยกรรม MMDiT

  • ตัวฝังข้อความ: Stable Diffusion 3 ใช้การรวมกันของโมเดลการฝังข้อความสามตัว รวมถึงโมเดล CLIP สองตัวและ T5 เพื่อแปลงข้อความให้อยู่ในรูปแบบที่ AI สามารถเข้าใจและประมวลผลได้
  • ตัวเข้ารหัสภาพ: ใช้โมเดลการเข้ารหัสอัตโนมัติที่ปรับปรุงแล้วเพื่อแปลงภาพให้อยู่ในรูปแบบที่เหมาะสมสำหรับ AI ในการจัดการและสร้างเนื้อหาภาพใหม่
  • แนวทาง Dual Transformer: สถาปัตยกรรมมีตัวแปลงแยกสำหรับข้อความและภาพสองตัว ซึ่งทำงานอย่างอิสระแต่เชื่อมโยงกันสำหรับการดำเนินการความสนใจ การตั้งค่านี้ช่วยให้ทั้งสองรูปแบบมีอิทธิพลต่อกันโดยตรง เพิ่มความสอดคล้องระหว่างข้อมูลข้อความและภาพที่สร้างขึ้น

5. อะไรใหม่และปรับปรุงใน Stable Diffusion 3?

  • การปฏิบัติตามพรอมต์: SD3 เก่งในการปฏิบัติตามรายละเอียดของพรอมต์ของผู้ใช้ โดยเฉพาะอย่างยิ่งพรอมต์ที่เกี่ยวข้องกับฉากที่ซับซ้อนหรือหลายเรื่อง ความแม่นยำในการเข้าใจและแสดงผลพรอมต์ที่ละเอียดนี้ทำให้มันเหนือกว่ารุ่นชั้นนำอื่น ๆ เช่น DALL·E 3, Midjourney v6 และ Ideogram v1 ทำให้มันน่าเชื่อถือมากสำหรับโครงการที่ต้องการการปฏิบัติตามคำแนะนำที่เคร่งครัด
  • ข้อความในภาพ: ด้วยสถาปัตยกรรม Multimodal Diffusion Transformer (MMDiT) ที่ล้ำสมัย SD3 ช่วยเพิ่มความชัดเจนและความอ่านง่ายของข้อความในภาพได้อย่างมาก โดยการใช้ชุดน้ำหนักแยกสำหรับการประมวลผลข้อมูลภาพและภาษา โมเดลนี้บรรลุความเข้าใจข้อความและความถูกต้องในการสะกดคำที่เหนือกว่า นี่เป็นการปรับปรุงที่สำคัญจากรุ่นก่อนหน้าของ Stable Diffusion ซึ่งแก้ไขหนึ่งในความท้าทายทั่วไปในการใช้งาน AI ที่แปลงข้อความเป็นภาพ
  • คุณภาพของภาพ: SD3 ไม่เพียงแต่เทียบเท่าแต่ในหลายกรณียังเหนือกว่าคุณภาพของภาพที่สร้างโดยคู่แข่ง ภาพที่ผลิตมีความสวยงามและรักษาความถูกต้องสูงต่อพรอมต์ด้วยความสามารถที่ปรับปรุงแล้วในการตีความและแสดงผลคำอธิบายข้อความอย่างละเอียด สิ่งนี้ทำให้ SD3 เป็นตัวเลือกยอดนิยมสำหรับผู้ใช้ที่ต้องการความสวยงามของภาพที่ยอดเยี่ยมในภาพที่สร้างขึ้น
ComfyUI Stable Diffusion 3

สำหรับข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับโมเดลนี้ โปรดเยี่ยมชม เอกสารวิจัยของ Stable Diffusion 3

ต้องการเวิร์กโฟลว์ ComfyUI เพิ่มเติมหรือไม่?

RunComfy

© ลิขสิทธิ์ 2024 RunComfy. สงวนลิขสิทธิ์

RunComfy เป็นผู้นำ ComfyUI แพลตฟอร์มที่นำเสนอ ComfyUI ออนไลน์ สภาพแวดล้อมและบริการ พร้อมด้วย เวิร์กโฟลว์ ComfyUI ที่มีภาพที่น่าทึ่ง