Panduan Unsampling ini, yang ditulis oleh Inner-Reflections, sangat berkontribusi dalam mengeksplorasi metode Unsampling untuk mencapai transfer gaya video yang sangat konsisten.
Noise Laten adalah dasar dari semua yang kita lakukan dengan Stable Diffusion. Sangat menakjubkan untuk mundur sejenak dan memikirkan apa yang bisa kita capai dengan ini. Namun secara umum kita terpaksa menggunakan angka acak untuk menghasilkan noise. Bagaimana jika kita bisa mengendalikannya?
Saya bukan yang pertama menggunakan Unsampling. Ini telah ada sejak lama dan digunakan dalam berbagai cara. Namun hingga saat ini saya umumnya tidak puas dengan hasilnya. Saya telah menghabiskan beberapa bulan mencari pengaturan terbaik dan saya harap Anda menikmati panduan ini.
Dengan menggunakan proses sampling dengan AnimateDiff/Hotshot, kita dapat menemukan noise yang mewakili video asli kita dan karenanya membuat transfer gaya menjadi lebih mudah. Ini sangat membantu untuk menjaga konsistensi Hotshot mengingat jendela konteks 8 frame-nya.
Proses unsampling ini pada dasarnya mengubah video input kita menjadi noise laten yang mempertahankan gerakan dan komposisi asli. Kita kemudian dapat menggunakan noise representasional ini sebagai titik awal untuk proses difusi daripada noise acak. Ini memungkinkan AI untuk menerapkan gaya target sambil menjaga konsistensi temporal.
Panduan ini mengasumsikan Anda telah menginstal AnimateDiff dan/atau Hotshot. Jika belum, panduannya tersedia di sini:
AnimateDiff: https://civitai.com/articles/2379
Panduan Hotshot XL: https://civitai.com/articles/2601/
Tautan ke sumber daya - Jika Anda ingin memposting video di Civitai menggunakan alur kerja ini. https://civitai.com/models/544534
Komputer Windows dengan kartu grafis NVIDIA yang memiliki setidaknya 12GB VRAM direkomendasikan. Pada platform RunComfy, gunakan mesin Medium (16GB VRAM) atau yang lebih tinggi. Proses ini tidak memerlukan lebih banyak VRAM daripada alur kerja AnimateDiff atau Hotshot standar, tetapi memerlukan waktu hampir dua kali lebih lama, karena pada dasarnya menjalankan proses difusi dua kali—sekali untuk upsampling dan sekali untuk resampling dengan gaya target.
Bagian utama dari ini adalah menggunakan Custom Sampler yang membagi semua pengaturan yang biasanya Anda lihat di KSampler biasa menjadi beberapa bagian:
Ini adalah node KSampler utama - untuk unsampling menambahkan noise/seed tidak memiliki efek (yang saya ketahui). CFG penting - secara umum semakin tinggi CFG pada langkah ini semakin mirip video dengan aslinya. CFG yang lebih tinggi memaksa unsampler untuk lebih sesuai dengan input.
Yang paling penting adalah menggunakan sampler yang konvergen! Inilah mengapa kita menggunakan euler daripada euler a karena yang terakhir menghasilkan lebih banyak keacakan/ketidakstabilan. Samplers Ancestral yang menambahkan noise pada setiap langkah mencegah unsampling dari konvergen dengan bersih. Jika Anda ingin membaca lebih lanjut tentang ini saya selalu menemukan berguna. @spacepxl di reddit menyarankan bahwa DPM++ 2M Karras mungkin sampler yang lebih akurat tergantung pada kasus penggunaan.
Scheduler apa pun akan berfungsi dengan baik di sini - Align Your Steps (AYS) bagaimanapun mendapatkan hasil yang baik dengan 16 langkah sehingga saya memilih untuk menggunakan itu untuk mengurangi waktu komputasi. Lebih banyak langkah akan konvergen lebih penuh tetapi dengan hasil yang semakin berkurang.
Flip Sigma adalah node ajaib yang menyebabkan unsampling terjadi! Dengan membalikkan jadwal sigma, kita membalikkan proses difusi untuk pergi dari gambar input yang bersih ke noise representasional.
Prompting sangat penting dalam metode ini untuk beberapa alasan. Prompt yang baik dapat sangat meningkatkan koherensi video terutama semakin Anda ingin mendorong transformasi. Untuk contoh ini saya telah memberi makan kondisi yang sama untuk unsampler dan resampler. Ini tampaknya bekerja dengan baik secara umum - tidak ada yang menghentikan Anda dari menempatkan kondisi kosong di unsampler - saya menemukan ini membantu meningkatkan transfer gaya, mungkin dengan sedikit kehilangan konsistensi.
Untuk resampling penting untuk mematikan penambahan noise (meskipun memiliki noise kosong dalam pengaturan sampel AnimateDiff memiliki efek yang sama - saya telah melakukan keduanya untuk alur kerja saya). Jika Anda menambahkan noise selama resampling Anda akan mendapatkan hasil yang tidak konsisten dan berisik, setidaknya dengan pengaturan default. Jika tidak saya sarankan memulai dengan CFG yang cukup rendah dikombinasikan dengan pengaturan ControlNet yang lemah karena itu tampaknya memberikan hasil yang paling konsisten sambil tetap memungkinkan prompt untuk mempengaruhi gaya.
Sisa pengaturan saya adalah preferensi pribadi. Saya telah menyederhanakan alur kerja ini sebanyak mungkin sambil tetap menyertakan komponen dan pengaturan kunci.
Alur kerja default menggunakan model SD1.5. Namun, Anda dapat beralih ke SDXL dengan hanya mengubah checkpoint, VAE, model AnimateDiff, model ControlNet, dan model jadwal langkah ke SDXL.
Ini terasa seperti cara baru untuk mengendalikan konsistensi video, jadi ada banyak hal yang bisa dieksplorasi. Jika Anda ingin saran saya:
Inner-Reflections
© Hak Cipta 2024 RunComfy. Seluruh Hak Cipta Dilindungi.