Inner-Reflections tarafından yazılan bu Unsampling rehberi, dramatik olarak tutarlı video stil transferi elde etmek için Unsampling yöntemini keşfetmeye büyük katkı sağlar.
Gizli Gürültü, Stable Diffusion ile yaptığımız her şeyin temelidir. Geriye dönüp baktığımızda, bununla neler başarabileceğimizi düşünmek inanılmaz. Ancak genel olarak, gürültü üretmek için rastgele bir sayı kullanmak zorundayız. Peki ya bunu kontrol edebilseydik?
Unsampling'i ilk kullanan ben değilim. Çok uzun zamandır ve çeşitli şekillerde kullanılıyor. Ancak şimdiye kadar sonuçlardan genel olarak memnun kalmadım. En iyi ayarları bulmak için birkaç ay harcadım ve umarım bu rehberden keyif alırsınız.
AnimateDiff/Hotshot ile örnekleme sürecini kullanarak, orijinal videomuzu temsil eden gürültüyü bulabiliriz ve bu da herhangi bir tür stil transferini kolaylaştırır. Özellikle Hotshot'un 8 karelik bağlam penceresi göz önüne alındığında tutarlılığı korumak çok yardımcı olur.
Bu unsampling süreci, girdimizi temsil eden gürültüye dönüştürerek orijinal hareket ve kompozisyonu korur. Daha sonra bu temsil gürültüsünü, rastgele gürültü yerine difüzyon sürecinin başlangıç noktası olarak kullanabiliriz. Bu, AI'nin hedef stili uygularken zaman içinde tutarlılığı korumasını sağlar.
Bu rehber, AnimateDiff ve/veya Hotshot'u kurduğunuzu varsayar. Henüz yapmadıysanız, rehberler burada mevcuttur:
AnimateDiff: https://civitai.com/articles/2379
Hotshot XL rehberi: https://civitai.com/articles/2601/
Kaynağa bağlantı - Bu iş akışını kullanarak Civitai'de video yayınlamak isterseniz. https://civitai.com/models/544534
En az 12GB VRAM'e sahip bir NVIDIA grafik kartına sahip bir Windows bilgisayar önerilir. RunComfy platformunda, Orta (16GB VRAM) veya daha yüksek bir makine kullanın. Bu süreç, standart AnimateDiff veya Hotshot iş akışlarından daha fazla VRAM gerektirmez, ancak neredeyse iki kat daha uzun sürer, çünkü difüzyon süreci bir kez upsampling ve bir kez hedef stil ile yeniden örnekleme için çalışır.
Bunun ana kısmı, genellikle KSampler'da gördüğünüz tüm ayarları parçalara ayıran Custom Sampler kullanmaktır:
Bu ana KSampler düğümüdür - unsampling için gürültü/tohum eklemek herhangi bir etki yapmaz (bildiğim kadarıyla). CFG önemlidir - genel olarak, bu adımda CFG ne kadar yüksek olursa, video orijinalinize o kadar yakın görünür. Daha yüksek CFG, unsampler'ın girdiye daha sıkı şekilde uymasını zorlar.
En önemli şey, yakınsayan bir örnekleyici kullanmaktır! Bu yüzden daha fazla rastgelelik/istikrarsızlık sonucu veren euler a yerine euler kullanıyoruz. Her adımda gürültü ekleyen atasal örnekleyiciler, unsampling'in temiz bir şekilde yakınsamamasına neden olur. Bu konuda daha fazla okumak isterseniz, her zaman faydalı bulmuşumdur. @spacepxl reddit'te, kullanım durumuna bağlı olarak DPM++ 2M Karras'ın daha doğru bir örnekleyici olabileceğini öneriyor.
Herhangi bir zamanlayıcı burada gayet iyi çalışacaktır - Align Your Steps (AYS) 16 adımla iyi sonuçlar verir, bu yüzden hesaplama süresini azaltmak için bunu tercih ettim. Daha fazla adım daha tam bir yakınsama sağlar ancak azalan getirilerle.
Flip Sigma, unsampling'in gerçekleşmesini sağlayan sihirli düğümdür! Sigma zamanlamasını ters çevirerek, temiz bir girdi görüntüsünden temsil gürültüsüne doğru difüzyon sürecini tersine çeviririz.
Nedense bu yöntemde prompting oldukça önemlidir. İyi bir prompt, özellikle dönüşümü daha fazla zorlamak istediğinizde videonun uyumunu gerçekten artırabilir. Bu örnek için hem unsampler hem de resampler'a aynı koşullandırmayı verdim. Genelde iyi çalışıyor - ancak unsampler'a boş koşullandırma koymaktan hiçbir şey sizi alıkoymaz - stil transferini iyileştirdiğini, belki de biraz tutarlılık kaybıyla, buluyorum.
Resampling için, gürültü eklemenin kapalı olduğundan emin olmak önemlidir (ancak AnimateDiff örnek ayarlarında boş gürültüye sahip olmak aynı etkiye sahiptir - iş akışım için her ikisini de yaptım). Resampling sırasında gürültü eklerseniz, en azından varsayılan ayarlarla tutarsız, gürültülü bir sonuç elde edersiniz. Aksi takdirde, oldukça düşük bir CFG ile zayıf ControlNet ayarlarıyla başlamanızı öneririm, çünkü bu, prompt'un stili etkilemesine izin verirken en tutarlı sonuçları verir gibi görünüyor.
Geri kalan ayarlar kişisel tercihimdir. Bu iş akışını mümkün olduğunca basitleştirdiğimi, ancak yine de ana bileşenleri ve ayarları içerdiğini düşünüyorum.
Varsayılan iş akışı SD1.5 modelini kullanır. Ancak, kontrol noktası, VAE, AnimateDiff modeli, ControlNet modeli ve adım zamanlama modelini SDXL olarak değiştirerek SDXL'e geçiş yapabilirsiniz.
Bu, video tutarlılığını kontrol etmenin tamamen yeni bir yolu gibi geliyor, bu yüzden keşfedilecek çok şey var. Önerilerimi isterseniz:
Inner-Reflections
© Telif Hakkı 2024 RunComfy. Tüm Hakları Saklıdır.