ComfyUI  >  Workflow  >  Stable Diffusion 3 (SD3) | Teks ke Gambar

Stable Diffusion 3 (SD3) | Teks ke Gambar

Stable Diffusion 3 (SD3) medium sekarang tersedia di RunComfy Beta Version, membuatnya mudah diakses untuk proyek Anda. Anda dapat menggunakan medium Stable Diffusion 3 langsung dalam alur kerja ini atau mengintegrasikan Stable Diffusion 3 ke dalam alur kerja yang sudah ada.

ComfyUI Stable Diffusion 3 (SD3) Playground

ComfyUI Stable Diffusion 3 (SD3) Workflow

ComfyUI Stable Diffusion 3
Ingin menjalankan workflow ini?
  • Workflow yang sepenuhnya operasional
  • Tidak ada node atau model yang hilang
  • Tidak perlu pengaturan manual
  • Menampilkan visual yang menakjubkan

Contoh ComfyUI Stable Diffusion 3 (SD3)

leverage-stable-diffusion-3-for-advanced-visuals-1089
leverage-stable-diffusion-3-for-advanced-visuals-1089-example_1.webp
leverage-stable-diffusion-3-for-advanced-visuals-1089-example_2.webp

Deskripsi ComfyUI Stable Diffusion 3 (SD3)

1. Meningkatkan Proses Kreatif Anda dengan ComfyUI Stable Diffusion 3

🌟🌟🌟**Model Stable Diffusion 3 Medium dan node terkaitnya sekarang sudah dimuat sebelumnya di RunComfy's ComfyUI Beta Version (Versi 24.06.13.0)!!!**🌟🌟🌟 Anda dapat menggunakan Stable Diffusion 3 Medium langsung dalam alur kerja ComfyUI ini atau mengintegrasikannya dengan mulus ke dalam alur kerja ComfyUI yang sudah ada.

Alur kerja ComfyUI Stable Diffusion 3 dilengkapi dengan semua model Stable Diffusion 3 Medium yang diperlukan. Cukup bereksperimen dengan berbagai prompt atau parameter untuk mengalaminya!

1.1. Model Stable Diffusion 3 Medium yang Dimuat Sebelumnya di ComfyUI

  • sd3_medium.safetensors: Termasuk bobot MMDiT dan VAE tetapi tidak termasuk encoder teks.
  • sd3_medium_incl_clips_t5xxlfp16.safetensors: Berisi semua bobot yang diperlukan, termasuk versi fp16 dari encoder teks T5XXL.
  • sd3_medium_incl_clips_t5xxlfp8.safetensors: Berisi semua bobot yang diperlukan, termasuk versi fp8 dari encoder teks T5XXL, menawarkan keseimbangan antara kualitas dan kebutuhan sumber daya.
  • sd3_medium_incl_clips.safetensors: Termasuk semua bobot yang diperlukan kecuali encoder teks T5XXL. Versi ini memerlukan sumber daya minimal, tetapi kinerja model akan berbeda tanpa encoder teks T5XXL.
  • Folder text_encoders berisi tiga encoder teks dan tautan kartu model asli mereka untuk kenyamanan pengguna. Semua komponen dalam folder ini (dan yang setara yang tertanam dalam paket lain) tunduk pada lisensi asli masing-masing.

1.2 Kualitas Keseluruhan dan Fotorealisme dari Stable Diffusion 3 Medium

Stable Diffusion 3 Medium menetapkan standar baru untuk kualitas gambar dalam komunitas seni AI. Model ini menghasilkan gambar dengan detail luar biasa, akurasi warna, dan pencahayaan realistis. Berikut adalah beberapa yang dapat Anda harapkan:

  • Detail & Resolusi: Kemampuan yang ditingkatkan untuk merender detail rumit, membuatnya sempurna untuk close-up dan komposisi kompleks.
  • Warna & Pencahayaan: Algoritma yang ditingkatkan memastikan warna yang hidup dan nyata, dengan efek pencahayaan dinamis yang menambah kedalaman dan realisme pada gambar Anda.
  • Realisme pada Wajah dan Tangan: Kekurangan umum seperti tangan dan wajah yang terdistorsi secara signifikan berkurang, berkat inovasi seperti Variational Autoencoder (VAE) 16 saluran.

1.3 Pemahaman Prompt dari Stable Diffusion 3 Medium

Salah satu fitur menonjol dari SD3 Medium adalah pemahaman prompt yang canggih. Model ini dapat menafsirkan prompt panjang dan kompleks yang melibatkan penalaran spasial, elemen komposisi, tindakan, dan gaya. Berikut adalah beberapa sorotan:

  • Encoder Teks: Menggunakan tiga encoder teks untuk menyeimbangkan kinerja dan efisiensi. Ini memungkinkan pemahaman dan eksekusi yang mendetail dari prompt yang rumit.
  • Kesadaran Komposisi: Mampu mempertahankan hubungan spasial dan menggambarkan adegan dengan akurat seperti yang dijelaskan, membuatnya ideal untuk bercerita melalui visual.

1.4 Tipografi dari Stable Diffusion 3 Medium

Tipografi selalu menjadi tantangan dalam generasi teks-ke-gambar. SD3 Medium mengatasi ini dengan keberhasilan yang luar biasa:

  • Kualitas Teks: Mencapai akurasi yang belum pernah terjadi sebelumnya dalam ejaan, kerning, pembentukan huruf, dan spasi.
  • Arsitektur Diffusion Transformer: Arsitektur canggih ini memungkinkan rendering teks yang lebih tepat dalam gambar, mengurangi kesalahan dan meningkatkan koherensi visual.

1.5 Efisiensi Sumber Daya dari Stable Diffusion 3 Medium

Meskipun memiliki kemampuan canggih, SD3 Medium dirancang untuk efisien dalam penggunaan sumber daya:

  • Jejak VRAM Rendah: Dapat berjalan pada GPU konsumen standar tanpa degradasi kinerja, membuat seni AI berkualitas tinggi dapat diakses oleh lebih banyak orang.
  • Dioptimalkan untuk Efisiensi: Menyeimbangkan tuntutan komputasi dengan kualitas output, memastikan operasi yang lancar bahkan pada perangkat keras yang kurang kuat.

1.6 Penyetelan Halus dari Stable Diffusion 3 Medium

Kustomisasi adalah aspek penting bagi seniman AI, dan SD3 Medium unggul dalam area ini:

  • Menyerap Detail Halus: Mampu disetel dengan dataset kecil, memungkinkan seniman untuk mencetak gaya unik mereka atau memenuhi persyaratan proyek tertentu.
  • Serbaguna: Apakah Anda bekerja pada tema, gaya, atau detail rumit tertentu, SD3 Medium menyediakan fleksibilitas yang diperlukan untuk karya seni yang dipersonalisasi.

2. Apa itu Stable Diffusion 3

Stable Diffusion 3 adalah model AI mutakhir yang dirancang khusus untuk menghasilkan gambar dari prompt. Ini mewakili iterasi ketiga dalam seri Stable Diffusion dan bertujuan untuk memberikan akurasi yang lebih baik, kepatuhan yang lebih baik terhadap nuansa prompt, dan estetika visual yang lebih unggul dibandingkan dengan versi sebelumnya dan model lain seperti DALL·E 3, Midjourney v6, dan Ideogram v1.

3. Model Stable Diffusion 3

Stable Diffusion 3 menawarkan tiga model yang berbeda, masing-masing dirancang untuk memenuhi kebutuhan dan kemampuan komputasi yang berbeda:

3.1. Stable Diffusion 3 Medium

🌟🌟🌟 Terintegrasi langsung ke dalam alur kerja ini 🌟🌟🌟

  • Parameter: 2 miliar
  • Fitur Utama:
    • Gambar berkualitas tinggi, fotorealistik
    • Pemahaman lanjutan tentang prompt yang kompleks
    • Kemampuan tipografi yang unggul
    • Efisien dalam penggunaan sumber daya, cocok untuk GPU konsumen
    • Sangat baik untuk penyetelan halus dengan dataset kecil

3.2. Stable Diffusion 3 Large

Tersedia melalui Stability AI Developer Platform API

  • Parameter: 8 miliar
  • Fitur Utama:
    • Kualitas gambar dan detail yang ditingkatkan
    • Kapasitas lebih besar untuk menangani prompt dan gaya yang kompleks
    • Ideal untuk proyek profesional yang memerlukan resolusi dan ketelitian tinggi

3.3. Stable Diffusion 3 Large Turbo

Tersedia melalui Stability AI Developer Platform API

  • Parameter: 8 miliar (dengan waktu inferensi yang dioptimalkan)
  • Fitur Utama:
    • Performa tinggi yang sama seperti SD3 Large
    • Inferensi lebih cepat, membuatnya cocok untuk aplikasi real-time dan prototipe cepat

4. Arsitektur Teknis dari Stable Diffusion 3

Di inti Stable Diffusion 3 terdapat arsitektur Multimodal Diffusion Transformer (MMDiT). Kerangka inovatif ini meningkatkan cara model memproses dan mengintegrasikan informasi tekstual dan visual. Tidak seperti pendahulunya yang menggunakan satu set bobot jaringan saraf untuk pemrosesan gambar dan teks, Stable Diffusion 3 menggunakan set bobot terpisah untuk setiap modalitas. Pemisahan ini memungkinkan penanganan yang lebih khusus untuk data teks dan gambar, yang mengarah pada pemahaman teks yang lebih baik dan akurasi ejaan dalam gambar yang dihasilkan.

4.1. Komponen Arsitektur MMDiT

  • Text Embedders: Stable Diffusion 3 menggunakan kombinasi tiga model embedding teks, termasuk dua model CLIP dan T5, untuk mengonversi teks ke dalam format yang dapat dipahami dan diproses oleh AI.
  • Image Encoder: Model autoencoding yang ditingkatkan digunakan untuk mengonversi gambar ke dalam bentuk yang sesuai untuk dimanipulasi dan menghasilkan konten visual baru oleh AI.
  • Pendekatan Dual Transformer: Arsitektur ini memiliki dua transformer yang berbeda untuk teks dan gambar, yang beroperasi secara independen tetapi saling terhubung untuk operasi perhatian. Pengaturan ini memungkinkan kedua modalitas saling mempengaruhi secara langsung, meningkatkan koherensi antara input teks dan output gambar.

5. Apa yang Baru dan Ditingkatkan di Stable Diffusion 3?

  • Kepatuhan pada Prompt: SD3 unggul dalam mengikuti spesifik prompt pengguna dengan cermat, terutama yang melibatkan adegan kompleks atau beberapa subjek. Ketelitian dalam memahami dan merender prompt yang mendetail ini memungkinkannya untuk mengungguli model terkemuka lainnya seperti DALL·E 3, Midjourney v6, dan Ideogram v1, menjadikannya sangat dapat diandalkan untuk proyek yang memerlukan kepatuhan ketat pada instruksi yang diberikan.
  • Teks dalam Gambar: Dengan arsitektur Multimodal Diffusion Transformer (MMDiT) yang canggih, SD3 secara signifikan meningkatkan kejelasan dan keterbacaan teks dalam gambar. Dengan menggunakan set bobot terpisah untuk memproses data gambar dan bahasa, model ini mencapai pemahaman teks yang unggul dan akurasi ejaan. Ini adalah peningkatan substansial dibandingkan versi sebelumnya dari Stable Diffusion, mengatasi salah satu tantangan umum dalam aplikasi AI teks-ke-gambar.
  • Kualitas Visual: SD3 tidak hanya menyamai tetapi dalam banyak kasus melampaui kualitas visual gambar yang dihasilkan oleh pesaingnya. Gambar yang dihasilkan tidak hanya estetis tetapi juga mempertahankan kesetiaan tinggi terhadap prompt, berkat kemampuan model yang disempurnakan untuk menafsirkan dan memvisualisasikan deskripsi tekstual. Ini menjadikan SD3 pilihan utama bagi pengguna yang mencari estetika visual luar biasa dalam gambar yang dihasilkan.
ComfyUI Stable Diffusion 3

Untuk wawasan lebih mendalam tentang model ini, silakan kunjungi makalah penelitian Stable Diffusion 3, Github

Ingin Lebih Banyak Workflow ComfyUI?

RunComfy

© Hak Cipta 2024 RunComfy. Seluruh Hak Cipta Dilindungi.

RunComfy adalah yang terdepan ComfyUI platform, menawarkan ComfyUI online lingkungan dan layanan, bersama dengan workflow ComfyUI menampilkan visual yang menakjubkan.