es un modelo de video de código abierto innovador que ofrece un rendimiento en generación de video comparable o incluso mejor que los principales modelos cerrados, desarrollado por Tencent, una empresa líder en tecnología. Hunyuan Video emplea tecnologías de vanguardia para el aprendizaje del modelo, como la curación de datos, el entrenamiento conjunto de modelos de imagen-video y una infraestructura eficiente para el entrenamiento y la inferencia de modelos a gran escala. Hunyuan Video cuenta con el modelo generativo de video de código abierto más grande con más de 13 mil millones de parámetros.
Las características clave de Hunyuan Video incluyen
- Hunyuan Video ofrece una arquitectura unificada para generar tanto imágenes como videos. Utiliza un diseño especial de modelo Transformer llamado "Dual-stream to Single-stream". Esto significa que el modelo primero procesa la información de video y texto por separado, y luego los combina para crear el resultado final. Esto ayuda al modelo a entender mejor la relación entre las visuales y la descripción del texto.
- El codificador de texto en Hunyuan Video está basado en un Modelo de Lenguaje Multimodal (MLLM). En comparación con otros codificadores de texto populares como CLIP y T5-XXL, MLLM es mejor para alinear el texto con las imágenes. También puede proporcionar descripciones más detalladas y razonamientos sobre el contenido. Esto ayuda a Hunyuan Video a generar videos que coinciden más exactamente con el texto de entrada.
- Para manejar eficientemente videos de alta resolución y alta tasa de fotogramas, Hunyuan Video utiliza un Autoencoder Variacional 3D (VAE) con CausalConv3D. Este componente comprime los videos e imágenes en una representación más pequeña llamada espacio latente. Al trabajar en este espacio comprimido, Hunyuan Video puede entrenar y generar videos a su resolución y tasa de fotogramas originales sin usar demasiados recursos computacionales.
- Hunyuan Video incluye un modelo de reescritura de indicaciones que puede adaptar automáticamente el texto de entrada del usuario para adecuarse mejor a las preferencias del modelo. Hay dos modos disponibles: Normal y Master. El modo Normal se enfoca en mejorar la comprensión del modelo de las instrucciones del usuario, mientras que el modo Master enfatiza la creación de videos con mayor calidad visual. Sin embargo, el modo Master puede a veces pasar por alto ciertos detalles en el texto a favor de hacer que el video se vea mejor.
Usa Hunyuan Video en ComfyUI
Estos nodos y flujos de trabajo relacionados de fueron desarrollados por Kijai. Damos todo el crédito a Kijai por este trabajo innovador. En la plataforma RunComfy, simplemente estamos presentando sus contribuciones a la comunidad.
- Proporcione su indicación de texto: En el nodo HunyuanVideoTextEncode, ingrese su indicación de texto deseada en el campo "prompt". hay algunos ejemplos de indicaciones para su referencia.
- Configure los ajustes de salida de video en el nodo HunyuanVideoSampler:
- Establezca el "width" y "height" a su resolución preferida
- Establezca el "num_frames" a la longitud de video deseada en fotogramas
- "steps" controla el número de pasos de eliminación de ruido/muestreo (predeterminado: 30)
- "embedded_guidance_scale" determina la fuerza de la guía de la indicación (predeterminado: 6.0)
- "flow_shift" afecta la longitud del video (valores más grandes resultan en videos más cortos, predeterminado: 9.0)