ComfyUI  >  Przepływy pracy  >  AnimateDiff + ControlNet + AutoMask | Styl Komiksowy

AnimateDiff + ControlNet + AutoMask | Styl Komiksowy

W tym workflow ComfyUI wykorzystujemy niestandardowe węzły, takie jak Animatediff, ControlNet (z Depth i OpenPose) oraz Auto Mask, aby płynnie zmieniać styl wideo. Proces ten przekształca realistyczne postacie w anime, jednocześnie starannie zachowując oryginalne tła.

ComfyUI Vid2Vid Workflow

ComfyUI AnimateDiff, ControlNet and Auto Mask Workflow
Chcesz uruchomić ten przepływ pracy?
  • W pełni funkcjonalne przepływy pracy
  • Brak brakujących węzłów lub modeli
  • Brak wymaganego ręcznego ustawiania
  • Cechuje się oszałamiającymi wizualizacjami

ComfyUI Vid2Vid Przykłady

ComfyUI Vid2Vid Opis

1. ComfyUI AnimateDiff, ControlNet i Auto Mask Workflow

Ten workflow ComfyUI wprowadza potężne podejście do zmiany stylu wideo, skierowane głównie na przekształcanie postaci w styl anime przy zachowaniu oryginalnych teł. Ta transformacja jest wspierana przez kilka kluczowych komponentów, w tym AnimateDiff, ControlNet i Auto Mask.

AnimateDiff jest zaprojektowany do technik animacji różnicowej, umożliwiając utrzymanie spójnego kontekstu w animacjach. Ten komponent skupia się na wygładzaniu przejść i zwiększaniu płynności ruchu w restylizowanej zawartości wideo.

ControlNet odgrywa kluczową rolę w precyzyjnym odwzorowywaniu i manipulacji ludzkimi pozami. Wykorzystuje zaawansowane szacowanie pozycji, aby dokładnie uchwycić i kontrolować niuanse ruchu ludzkiego, umożliwiając przekształcanie postaci w formy anime przy zachowaniu ich oryginalnych poz.

Auto Mask jest zaangażowany w automatyczne segmentowanie, biegłe w izolowaniu postaci od ich tła. Ta technologia pozwala na selektywną zmianę stylu elementów wideo, zapewniając, że transformacje postaci są wykonywane bez zmiany otaczającego środowiska, zachowując integralność oryginalnych teł.

Ten workflow ComfyUI realizuje konwersję standardowej zawartości wideo na stylizowane animacje, koncentrując się na efektywności i jakości generowania postaci w stylu anime.

2. Przegląd AnimateDiff

2.1. Wprowadzenie do AnimateDiff

AnimateDiff powstaje jako narzędzie AI służące do animowania statycznych obrazów i tekstowych promptów w dynamiczne wideo, wykorzystując modele Stable Diffusion i specjalizowany moduł ruchu. Ta technologia automatyzuje proces animacji, przewidując płynne przejścia między klatkami, czyniąc go dostępnym dla użytkowników bez umiejętności kodowania czy zasobów obliczeniowych poprzez darmową platformę online.

2.2. Kluczowe funkcje AnimateDiff

2.2.1. Kompleksowe wsparcie modelu: AnimateDiff jest kompatybilny z różnymi wersjami, w tym AnimateDiff v1, v2, v3 dla Stable Diffusion V1.5 oraz AnimateDiff sdxl dla Stable Diffusion SDXL. Umożliwia jednoczesne wykorzystanie wielu modeli ruchu, co ułatwia tworzenie złożonych i warstwowych animacji.

2.2.2. Rozmiar partii kontekstowej determinuje długość animacji: AnimateDiff umożliwia tworzenie animacji o nieskończonej długości poprzez dostosowanie rozmiaru partii kontekstowej. Ta funkcja pozwala użytkownikom dostosować długość i przejścia animacji do ich specyficznych wymagań, zapewniając wysoce elastyczny proces animacji.

2.2.3. Długość kontekstu dla płynnych przejść: Celem stałej długości kontekstu w AnimateDiff jest zapewnienie płynnych przejść między różnymi segmentami animacji. Poprzez dostosowanie stałej długości kontekstu, użytkownicy mogą kontrolować dynamikę przejść między scenami—dłuższe długości dla płynniejszych, bardziej bezszwowych przejść, a krótsze dla szybszych, bardziej wyrazistych zmian.

2.2.4. Dynamika ruchu: W AnimateDiff v2 dostępne są specjalizowane motion LoRAs do dodawania filmowych ruchów kamery do animacji. Ta funkcja wprowadza dynamiczną warstwę do animacji, znacznie zwiększając ich atrakcyjność wizualną.

2.2.5. Zaawansowane funkcje wsparcia: AnimateDiff jest zaprojektowany do współpracy z różnymi narzędziami, w tym ControlNet, SparseCtrl i IPAdapter, oferując znaczące korzyści dla użytkowników dążących do rozszerzenia kreatywnych możliwości swoich projektów.

3. Przegląd ControlNet

3.1. Wprowadzenie do ControlNet

ControlNet wprowadza ramy do wzbogacania modeli dyfuzji obrazów z warunkowymi wejściami, mając na celu udoskonalenie i kierowanie procesem syntezy obrazów. Osiąga to poprzez duplikowanie bloków sieci neuronowej w danym modelu dyfuzji na dwa zestawy: jeden pozostaje "zablokowany", aby zachować oryginalną funkcjonalność, a drugi staje się "trenowalny", dostosowując się do specyficznych warunków. Ta podwójna struktura pozwala deweloperom na włączenie różnych warunkowych wejść, korzystając z modeli takich jak OpenPose, Tile, IP-Adapter, Canny, Depth, LineArt, MLSD, Normal Map, Scribbles, Segmentation, Shuffle i T2I Adapter, tym samym bezpośrednio wpływając na generowany output. Dzięki temu mechanizmowi ControlNet oferuje deweloperom potężne narzędzie do kontrolowania i manipulowania procesem generowania obrazów, zwiększając elastyczność modelu dyfuzji i jego zastosowalność do różnorodnych zadań kreatywnych.

Preprocesory i integracja modelu

3.1.1. Konfiguracja preprocessingu: Rozpoczęcie pracy z ControlNet obejmuje wybór odpowiedniego preprocessora. Włączenie opcji podglądu jest zalecane dla wizualnego zrozumienia wpływu preprocessingu. Po preprocessingu, workflow przechodzi do wykorzystania przetworzonego obrazu do dalszych kroków przetwarzania.

3.1.2. Dopasowanie modelu: Upraszczając proces wyboru modelu, ControlNet zapewnia kompatybilność poprzez dopasowanie modeli do ich odpowiednich preprocessory na podstawie wspólnych słów kluczowych, co ułatwia bezproblemowy proces integracji.

3.2. Kluczowe funkcje ControlNet

Dogłębna eksploracja modeli ControlNet

3.2.1. OpenPose Suite: Zaprojektowany do precyzyjnego wykrywania pozycji ludzkich, OpenPose suite obejmuje modele do wykrywania pozycji ciała, mimiki twarzy i ruchów rąk z wyjątkową dokładnością. Różne preprocessory OpenPose są dostosowane do specyficznych wymagań detekcji, od podstawowej analizy pozycji do szczegółowego uchwycenia niuansów twarzy i rąk.

3.2.2. Model Tile Resample: Zwiększając rozdzielczość i szczegółowość obrazu, model Tile Resample jest optymalnie używany w połączeniu z narzędziem do skalowania, mając na celu wzbogacenie jakości obrazu bez kompromisów w zakresie integralności wizualnej.

3.2.3. Model IP-Adapter: Ułatwiając innowacyjne wykorzystanie obrazów jako promptów, IP-Adapter integruje elementy wizualne z obrazów referencyjnych w generowane outputy, łącząc możliwości dyfuzji tekst-do-obrazu dla wzbogaconej zawartości wizualnej.

3.2.4. Wykrywacz krawędzi Canny: Ceniony za swoje możliwości wykrywania krawędzi, model Canny podkreśla strukturalną esencję obrazów, umożliwiając kreatywne reinterpretacje wizualne przy jednoczesnym zachowaniu rdzenia kompozycji.

3.2.5. Modele percepcji głębi: Dzięki różnorodnym preprocessorom głębi, ControlNet jest biegły w uzyskiwaniu i stosowaniu wskazówek dotyczących głębi z obrazów, oferując warstwową perspektywę głębi w generowanych wizualizacjach.

3.2.6. Modele LineArt: Konwertują obrazy na artystyczne rysunki liniowe za pomocą preprocessorów LineArt, zaspokajając różnorodne preferencje artystyczne od anime po realistyczne szkice, ControlNet spełnia spektrum stylowych pragnień.

3.2.7. Przetwarzanie szkiców: Dzięki preprocessorom takim jak Scribble HED, Pidinet i xDoG, ControlNet przekształca obrazy w unikalne sztuki szkiców, oferując różne style do wykrywania krawędzi i artystycznych reinterpretacji.

3.2.8. Techniki segmentacji: Zdolności segmentacyjne ControlNet dokładnie klasyfikują elementy obrazu, umożliwiając precyzyjną manipulację na podstawie kategoryzacji obiektów, idealne do złożonych konstrukcji scen.

3.2.9. Model Shuffle: Wprowadzając metodę innowacji schematów kolorystycznych, model Shuffle losowo zmienia obrazy wejściowe, aby generować nowe wzory kolorystyczne, kreatywnie zmieniając oryginał przy zachowaniu jego esencji.

3.2.10. Innowacje T2I Adapter: Modele T2I Adapter, w tym Color Grid i CLIP Vision Style, wprowadzają ControlNet w nowe domeny kreatywne, mieszając i dostosowując kolory i style do tworzenia wizualnie przekonujących outputów, które szanują schemat kolorystyczny lub atrybuty stylu oryginału.

3.2.11. MLSD (Mobile Line Segment Detection): Specjalizujący się w wykrywaniu linii prostych, MLSD jest nieoceniony dla projektów skupiających się na architekturze i wnętrzach, priorytetując klarowność i precyzję strukturalną.

3.2.12. Przetwarzanie map normalnych: Wykorzystując dane dotyczące orientacji powierzchni, preprocessory map normalnych replikują strukturę 3D obrazów referencyjnych, zwiększając realizm generowanej zawartości poprzez szczegółową analizę powierzchni.

Więcej samouczków ComfyUI

Chcesz więcej przepływów pracy ComfyUI?

RunComfy

© Prawa autorskie 2024 RunComfy. Wszelkie prawa zastrzeżone.

RunComfy jest wiodącą ComfyUI platformą, oferującą ComfyUI online środowisko i usługi, wraz z przepływami pracy ComfyUI cechującymi się oszałamiającymi wizualizacjami.