ComfyUI > Рабочие процессы > Hunyuan Video | Текст в видео

Hunyuan Video | Текст в видео

Hunyuan Video — это модель с открытым исходным кодом для создания видео, разработанная компанией Tencent. Она обеспечивает производительность генерации видео, сопоставимую или превосходящую ведущие закрытые модели. Используя передовые методы, такие как курирование данных, совместное обучение изображений и видео и оптимизированная инфраструктура, Hunyuan Video позволяет создавать высококачественные видео в большом масштабе.

Узлы ComfyUI-HunyuanVideoWrapper были разработаны Kijai. Для получения дополнительной информации о Hunyuan Video и проектах Kijai, пожалуйста, посетите репозиторий GitHub.

ComfyUI Hunyuan Video Рабочий процесс

Хотите запустить этот рабочий процесс?

Полностью функциональные рабочие процессы
Нет недостающих узлов или моделей
Не требуется ручная настройка
Отличается потрясающей визуализацией

ComfyUI Hunyuan Video Примеры

ComfyUI Hunyuan Video Описание

— это инновационная модель с открытым исходным кодом для создания видео, предлагающая производительность, сравнимую или даже превосходящую лучшие закрытые модели, разработанная компанией Tencent, ведущей технологической компанией. Hunyuan Video использует передовые технологии для обучения модели, такие как курирование данных, совместное обучение изображений и видео, а также эффективная инфраструктура для обучения и вывода моделей в большом масштабе. Hunyuan Video является крупнейшей моделью генерации видео с открытым исходным кодом, содержащей более 13 миллиардов параметров.

Основные особенности Hunyuan Video включают

Hunyuan Video предлагает унифицированную архитектуру для генерации как изображений, так и видео. Она использует специальный дизайн модели Transformer под названием "Dual-stream to Single-stream". Это означает, что модель сначала обрабатывает видео и текстовую информацию отдельно, а затем объединяет их для создания окончательного результата. Это помогает модели лучше понимать связь между визуальными элементами и текстовым описанием.
Текстовый энкодер в Hunyuan Video основан на мультимодальной модели большого языка (MLLM). По сравнению с другими популярными текстовыми энкодерами, такими как CLIP и T5-XXL, MLLM лучше выравнивает текст с изображениями. Он также может предоставлять более детальные описания и рассуждения о содержании. Это помогает Hunyuan Video создавать видео, которые более точно соответствуют входному тексту.
Для эффективной обработки видео с высоким разрешением и высокой частотой кадров Hunyuan Video использует 3D вариационный автокодер (VAE) с CausalConv3D. Этот компонент сжимает видео и изображения в более компактное представление, называемое латентным пространством. Работая в этом сжатом пространстве, Hunyuan Video может обучаться и генерировать видео в их оригинальном разрешении и частоте кадров без использования слишком больших вычислительных ресурсов.
Hunyuan Video включает модель переписывания подсказок, которая может автоматически адаптировать вводимый пользователем текст для лучшего соответствия предпочтениям модели. Доступны два режима: Normal и Master. Режим Normal сосредоточен на улучшении понимания моделью инструкций пользователя, в то время как режим Master подчеркивает создание видео с более высоким визуальным качеством. Однако режим Master может иногда упускать некоторые детали текста в пользу улучшения визуального качества видео.

Используйте Hunyuan Video в ComfyUI

Эти узлы и связанные рабочие процессы были разработаны Kijai. Мы отдаем должное Kijai за эту инновационную работу. На платформе RunComfy мы просто представляем его вклад в сообщество.

Укажите вашу текстовую подсказку: В узле HunyuanVideoTextEncode введите желаемую текстовую подсказку в поле "prompt". приведены некоторые примеры подсказок для вашего ознакомления.
Настройте параметры выходного видео в узле HunyuanVideoSampler:
- Установите "width" и "height" на предпочитаемое разрешение
- Установите "num_frames" на желаемую длину видео в кадрах
- "steps" контролирует количество шагов денойзинга/семплирования (по умолчанию: 30)
- "embedded_guidance_scale" определяет силу направляющей подсказки (по умолчанию: 6.0)
- "flow_shift" влияет на длину видео (большие значения приводят к более коротким видео, по умолчанию: 9.0)

Хотите больше рабочих процессов ComfyUI?

CogVideoX Tora | Модель преобразования изображения в видео

Демонстрация видео с траекторией объекта для CogVideoX

LTX Video | Изображение+Текст в Видео

Создает видео из подсказок изображение+текст.

OmniGen | Изображение-в-изображение

OmniGen: Изменение изображений на основе эталонных изображений и подсказок

Mochi Edit UnSampling | Видео-в-Видео

Mochi Edit: Изменяйте видео с помощью текстовых подсказок и увеличения разрешения.

Stable Diffusion 3.5

Stable Diffusion 3.5 (SD3.5) для высококачественного и разнообразного генерирования изображений.

LivePortrait | Анимируйте портреты | Img2Vid

Анимируйте портреты с выражениями лица и движениями, используя одно изображение и референсное видео.

SVD + IPAdapter V1 | Изображение в Видео

Используйте IPAdapters для генерации статических изображений и Stable Video Diffusion для генерации динамических видео.

AnimateDiff + Batch Prompt Schedule | Текст в Видео

Batch Prompt schedule с AnimateDiff предлагает точный контроль над повествованием и визуальными элементами в создании анимации.