Техника Hallo2 была разработана Цзяхао Цуй, Хуй Ли, Яо Яо, Хао Чжу, Ханлин Шан, Кайхуэй Чэн, Ханг Чжоу, Сию Чжу и Цзиндон Ван из Фуданьского университета и Baidu Inc. Для более подробной информации посетите . Узлы и рабочий процесс ComfyUI_Hallo2 были разработаны smthemex. Для получения более подробной информации посетите . Все заслуги их вкладу.
Hallo2 — это передовая модель для генерации высококачественных, продолжительных, 4K разрешения аудио-управляемых портретных анимационных видео. Она основывается на оригинальной модели Hallo с несколькими ключевыми улучшениями:
Hallo2 достигает этого, используя передовые техники, такие как увеличение данных для поддержания согласованности на протяжении долгих периодов, векторное квантование латентных кодов для разрешения 4K и улучшенный процесс удаления шума, управляемый как аудио, так и текстом.
Hallo2 сочетает несколько передовых AI моделей и техник для создания своих высококачественных портретных видео:
Итак, в итоге - Hallo2 принимает аудио и портретное изображение, имеет AI "агента", который создаёт видео кадры, чтобы они соответствовали им, оставаясь верными оригинальному портрету, и использует некоторые дополнительные трюки, чтобы всё оставалось синхронизированным и согласованным даже в длинных видео. Все эти части работают вместе в многоступенчатом конвейере для достижения впечатляющих результатов, которые вы видите.
Hallo2 был интегрирован в ComfyUI через пользовательский рабочий процесс с несколькими специализированными узлами. Вот как его использовать:
LoadImage
. Это должно быть чёткое изображение лица в анфас. (Советы: Чем лучше оформлен и освещён ваш референсный портрет, тем лучше будут результаты. Избегайте профилей сбоку, перекрытий, загруженных фонов и т.д.)LoadAudio
. Оно должно соответствовать настроению, которое вы хотите, чтобы портрет выражал.HalloPreImgAndAudio
. Это предварительно обрабатывает изображение и аудио в эмбеддинги. Ключевые параметры:
audio_separator
: Модель для отделения речи от фонового шума. Обычно оставляйте по умолчанию.face_expand_ratio
: Насколько расширять обнаруженную область лица. Более высокие значения включают больше волос/фона.width
/height
: Разрешение генерации. Более высокие значения медленнее, но более детализированы. 512-1024 квадрат — хороший баланс.fps
: Целевой FPS видео. 25 — хороший выбор по умолчанию.HalloLoader
. Укажите на ваш контрольный пункт Hallo2, VAE и файлы модуля движения.HalloSampler
. Это выполняет фактическую генерацию видео. Ключевые параметры:
seed
: Случайное зерно, которое определяет незначительные детали. Измените его, если вам не понравился первый результат.pose_scale
/face_scale
/lip_scale
: Насколько масштабировать интенсивность позы, выражения лица и движений губ. 1.0 = полная интенсивность, 0.0 = заморожено.cfg
: Масштаб руководства без классификатора. Больше = более строго следует условиям, но менее разнообразно.steps
: Количество шагов удаления шума. Больше шагов = лучшее качество, но медленнее.HallosUpscaleloader
и HallosVideoUpscale
в конец цепочки. Загрузчик увеличения читает предварительно обученную модель увеличения, а узел увеличения фактически выполняет увеличение до 4K.© Авторское право 2024 RunComfy. Все права защищены.