Hallo2技术由复旦大学和百度公司的崔佳豪、李辉、姚尧、朱昊、商涵林、程开辉、周航、朱思宇和王井东开发。更多信息,请访问。ComfyUI_Hallo2节点和工作流程由smthemex开发。更多详情,请访问。所有贡献归功于他们。
Hallo2是一个用于生成高质量、长时长、4K分辨率音频驱动肖像动画视频的前沿模型。它在原有Hallo模型的基础上进行了几项关键改进:
Hallo2通过使用高级技术,如数据增强,以保持长时间的一致性,向量量化潜在代码以实现4K分辨率,以及改进的去噪过程,由音频和文本共同指导实现这一目标。
Hallo2结合了几种先进的AI模型和技术来创建高质量的肖像视频:
总之 - Hallo2接收音频和肖像图像,有一个AI "代理"来雕刻视频帧以匹配它们,同时保持原始肖像的真实性,并使用一些额外的技巧来保持一切同步和连贯,即使在长视频中。这些部分在一个多步骤的管道中协同工作,产生你所看到的令人印象深刻的结果。
Hallo2已通过几个专用节点集成到ComfyUI中。使用方法如下:
LoadImage
节点加载您的参考肖像图像。这应该是一个清晰的正面肖像。(提示:您的参考肖像框架和照明越好,结果就越好。避免侧面轮廓、遮挡、繁忙的背景等。)LoadAudio
节点加载您的驱动音频。它应符合您希望肖像表现的情绪。HalloPreImgAndAudio
节点。这会将图像和音频预处理为嵌入。关键参数:
audio_separator
:用于将语音与背景噪声分离的模型。通常保持默认值。face_expand_ratio
:扩展检测到的面部区域的比例。较高的值包括更多的头发/背景。width
/height
:生成分辨率。较高的值较慢但更详细。512-1024平方是一个不错的平衡。fps
:目标视频FPS。25是一个不错的默认值。HalloLoader
节点加载核心Hallo2模型。指向您的Hallo2检查点、VAE和运动模块文件。HalloSampler
节点。这执行实际的视频生成。关键参数:
seed
:决定细节的随机种子。如果您不喜欢第一个结果,请更改它。pose_scale
/face_scale
/lip_scale
:姿态、面部表情和唇部动作强度的缩放比例。1.0 = 全强度,0.0 = 冻结。cfg
:无分类指导缩放。较高 = 更紧随条件但多样性较少。steps
:去噪步骤的数量。更多步骤 = 更好的质量但较慢。HallosUpscaleloader
和HallosVideoUpscale
节点。放大加载器读取预训练的放大模型,而放大器节点实际上执行到4K的放大。© 版权 2024 RunComfy. 保留所有权利。