ComfyUI  >  Рабочие процессы  >  Hallo2 | Портретная анимация синхронизации губ

Hallo2 | Портретная анимация синхронизации губ

Hallo2 — это продвинутая модель AI, которая генерирует высококачественные портретные анимации с синхронизацией губ, управляемые аудио-входом. Применяя такие техники, как диффузионные модели, кодирование аудио и обнаружение лиц, Hallo2 создаёт анимации в 4K с точно синхронизированными движениями рта и выражениями. Бесшовно интегрированная в платформу ComfyUI, Hallo2 позволяет пользователям создавать реалистичные портретные анимации с синхронизацией губ.

ComfyUI Hallo2 Lip-Sync Рабочий процесс

Hallo2: Lip-Sync Portrait Driven by Audios
Хотите запустить этот рабочий процесс?
  • Полностью функциональные рабочие процессы
  • Нет недостающих узлов или моделей
  • Не требуется ручная настройка
  • Отличается потрясающей визуализацией

ComfyUI Hallo2 Lip-Sync Примеры

ComfyUI Hallo2 Lip-Sync Описание

Техника Hallo2 была разработана Цзяхао Цуй, Хуй Ли, Яо Яо, Хао Чжу, Ханлин Шан, Кайхуэй Чэн, Ханг Чжоу, Сию Чжу и Цзиндон Ван из Фуданьского университета и Baidu Inc. Для более подробной информации посетите . Узлы и рабочий процесс ComfyUI_Hallo2 были разработаны smthemex. Для получения более подробной информации посетите . Все заслуги их вкладу.

1. О Hallo2

Hallo2 — это передовая модель для генерации высококачественных, продолжительных, 4K разрешения аудио-управляемых портретных анимационных видео. Она основывается на оригинальной модели Hallo с несколькими ключевыми улучшениями:

  1. Поддерживает генерацию гораздо более длинных видео, до десятков минут или даже часов
  2. Генерирует видео в разрешении 4K
  3. Позволяет контролировать выражение и позу с помощью текстовых подсказок в дополнение к аудио

Hallo2 достигает этого, используя передовые техники, такие как увеличение данных для поддержания согласованности на протяжении долгих периодов, векторное квантование латентных кодов для разрешения 4K и улучшенный процесс удаления шума, управляемый как аудио, так и текстом.

2. Технические особенности Hallo2

Hallo2 сочетает несколько передовых AI моделей и техник для создания своих высококачественных портретных видео:

  1. Диффузионная модель: Это основное "движок", который генерирует кадры видео. Он начинается с случайного шума и постепенно уточняет его, чтобы соответствовать желаемому результату, управляемый аудио и текстовыми подсказками.
  2. 3D U-Net: Это тип нейронной сети, который действует как "скульптор" в процессе диффузии. Он смотрит на текущий шумный кадр, аудио и текстовые инструкции и предлагает, как изменить шум, чтобы он больше походил на окончательный портрет.
  3. Аудио кодировщик: Hallo2 использует модель под названием Wav2Vec2 в качестве своих "ушей" для понимания аудио, преобразуя сырой звуковой сигнал в компактное представление, которое захватывает тон, скорость и содержание речи.
  4. Обнаружение лиц: Чтобы помочь сосредоточиться на анимации лица, Hallo2 использует модель обнаружения лиц для автоматического нахождения лица портрета в референсном изображении. Затем он знает, где применять движения губ и выражения.
  5. Компрессор изображений: Для эффективной работы с изображениями высокого разрешения 4K, Hallo2 использует специальный тип модели автоэнкодера (VQ-VAE) для сжатия их в меньшее "латентное" представление, а затем декодирует их обратно в 4K в конце. Это похоже на то, как JPEG сжимает размеры файлов изображений, сохраняя качество.
  6. Увеличение данных: Чтобы поддерживать качество в течение долгих видео, Hallo2 применяет некоторые умные "увеличения данных" к ранее сгенерированным кадрам перед их использованием для влияния на следующий кадр. Эти включают в себя случайное удаление случайных участков или добавление лёгкого шума. Это помогает предотвратить накопление ошибок, которые в противном случае могли бы накапливаться и портить согласованность со временем.

Итак, в итоге - Hallo2 принимает аудио и портретное изображение, имеет AI "агента", который создаёт видео кадры, чтобы они соответствовали им, оставаясь верными оригинальному портрету, и использует некоторые дополнительные трюки, чтобы всё оставалось синхронизированным и согласованным даже в длинных видео. Все эти части работают вместе в многоступенчатом конвейере для достижения впечатляющих результатов, которые вы видите.

3. Как использовать рабочий процесс ComfyUI Hallo2

Hallo2 был интегрирован в ComfyUI через пользовательский рабочий процесс с несколькими специализированными узлами. Вот как его использовать:

  1. Загрузите ваше референсное портретное изображение, используя узел LoadImage. Это должно быть чёткое изображение лица в анфас. (Советы: Чем лучше оформлен и освещён ваш референсный портрет, тем лучше будут результаты. Избегайте профилей сбоку, перекрытий, загруженных фонов и т.д.)
  2. Загрузите ваше управляющее аудио, используя узел LoadAudio. Оно должно соответствовать настроению, которое вы хотите, чтобы портрет выражал.
  3. Подключите изображение и аудио к узлу HalloPreImgAndAudio. Это предварительно обрабатывает изображение и аудио в эмбеддинги. Ключевые параметры:
    • audio_separator: Модель для отделения речи от фонового шума. Обычно оставляйте по умолчанию.
    • face_expand_ratio: Насколько расширять обнаруженную область лица. Более высокие значения включают больше волос/фона.
    • width/height: Разрешение генерации. Более высокие значения медленнее, но более детализированы. 512-1024 квадрат — хороший баланс.
    • fps: Целевой FPS видео. 25 — хороший выбор по умолчанию.
  4. Загрузите основную модель Hallo2, используя узел HalloLoader. Укажите на ваш контрольный пункт Hallo2, VAE и файлы модуля движения.
  5. Подключите предварительно обработанные эмбеддинги изображения и аудио вместе с загруженной моделью к узлу HalloSampler. Это выполняет фактическую генерацию видео. Ключевые параметры:
    • seed: Случайное зерно, которое определяет незначительные детали. Измените его, если вам не понравился первый результат.
    • pose_scale/face_scale/lip_scale: Насколько масштабировать интенсивность позы, выражения лица и движений губ. 1.0 = полная интенсивность, 0.0 = заморожено.
    • cfg: Масштаб руководства без классификатора. Больше = более строго следует условиям, но менее разнообразно.
    • steps: Количество шагов удаления шума. Больше шагов = лучшее качество, но медленнее.
  6. На этом этапе вы можете просмотреть сгенерированное видео. Чтобы дополнительно улучшить качество с помощью супер-разрешения, добавьте узлы HallosUpscaleloader и HallosVideoUpscale в конец цепочки. Загрузчик увеличения читает предварительно обученную модель увеличения, а узел увеличения фактически выполняет увеличение до 4K.

Хотите больше рабочих процессов ComfyUI?

RunComfy

© Авторское право 2024 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией.