ComfyUI  >  工作流  >  Hallo2 | 唇同步肖像动画

Hallo2 | 唇同步肖像动画

Hallo2是一个先进的AI模型,可以根据音频输入生成高质量的唇同步肖像动画。通过使用扩散模型、音频编码和人脸检测等技术,Hallo2能够创建4K动画,精确同步嘴部动作和表情。无缝集成在ComfyUI框架中,Hallo2使用户能够创建逼真的唇同步肖像动画。

ComfyUI Hallo2 Lip-Sync 工作流程

Hallo2: Lip-Sync Portrait Driven by Audios
想要运行这个工作流吗?
  • 完全可操作的工作流
  • 没有缺失的节点或模型
  • 无需手动设置
  • 具有惊艳的视觉效果

ComfyUI Hallo2 Lip-Sync 示例

ComfyUI Hallo2 Lip-Sync 描述

Hallo2技术由复旦大学和百度公司的崔佳豪、李辉、姚尧、朱昊、商涵林、程开辉、周航、朱思宇和王井东开发。更多信息,请访问。ComfyUI_Hallo2节点和工作流程由smthemex开发。更多详情,请访问。所有贡献归功于他们。

1. 关于Hallo2

Hallo2是一个用于生成高质量、长时长、4K分辨率音频驱动肖像动画视频的前沿模型。它在原有Hallo模型的基础上进行了几项关键改进:

  1. 支持生成更长的视频,最长可达数十分钟甚至数小时
  2. 生成4K分辨率的视频
  3. 除了音频外,还允许使用文本提示控制表情和姿态

Hallo2通过使用高级技术,如数据增强,以保持长时间的一致性,向量量化潜在代码以实现4K分辨率,以及改进的去噪过程,由音频和文本共同指导实现这一目标。

2. Hallo2的技术特征

Hallo2结合了几种先进的AI模型和技术来创建高质量的肖像视频:

  1. 扩散模型:这是生成视频帧的核心"引擎"。它从随机噪声开始,逐渐精炼至匹配所需输出,由音频和文本提示引导。
  2. 3D U-Net:这是一种神经网络,在扩散过程中充当"雕刻师"。它查看当前的噪声帧、音频和文本指令,并建议如何更改噪声,使其更像最终的肖像。
  3. 音频编码器:Hallo2使用一个名为Wav2Vec2的模型作为其"耳朵"来理解音频,将原始波形转换为捕捉语调、速度和语音内容的紧凑表示。
  4. 人脸检测器:为了帮助其专注于面部动画,Hallo2使用人脸检测模型自动定位参考图像中的肖像面部。然后它知道在哪里应用唇部和表情动作。
  5. 图像压缩器:为了高效处理高分辨率的4K图像,Hallo2使用一种特殊类型的自动编码器模型(VQ-VAE)将它们压缩成更小的"潜在"表示,然后在最后解码回4K。这就像JPEG在缩小图像文件大小的同时保持质量一样。
  6. 增强技巧:为了在长视频中保持质量,Hallo2在使用之前对先前生成的帧应用一些聪明的"数据增强"。这些包括偶尔擦除随机补丁或添加细微噪声。这有助于防止可能积累并破坏一致性的复合错误。

总之 - Hallo2接收音频和肖像图像,有一个AI "代理"来雕刻视频帧以匹配它们,同时保持原始肖像的真实性,并使用一些额外的技巧来保持一切同步和连贯,即使在长视频中。这些部分在一个多步骤的管道中协同工作,产生你所看到的令人印象深刻的结果。

3. 如何使用ComfyUI Hallo2工作流程

Hallo2已通过几个专用节点集成到ComfyUI中。使用方法如下:

  1. 使用LoadImage节点加载您的参考肖像图像。这应该是一个清晰的正面肖像。(提示:您的参考肖像框架和照明越好,结果就越好。避免侧面轮廓、遮挡、繁忙的背景等。)
  2. 使用LoadAudio节点加载您的驱动音频。它应符合您希望肖像表现的情绪。
  3. 将图像和音频连接到HalloPreImgAndAudio节点。这会将图像和音频预处理为嵌入。关键参数:
    • audio_separator:用于将语音与背景噪声分离的模型。通常保持默认值。
    • face_expand_ratio:扩展检测到的面部区域的比例。较高的值包括更多的头发/背景。
    • width/height:生成分辨率。较高的值较慢但更详细。512-1024平方是一个不错的平衡。
    • fps:目标视频FPS。25是一个不错的默认值。
  4. 使用HalloLoader节点加载核心Hallo2模型。指向您的Hallo2检查点、VAE和运动模块文件。
  5. 将预处理的图像和音频嵌入以及加载的模型连接到HalloSampler节点。这执行实际的视频生成。关键参数:
    • seed:决定细节的随机种子。如果您不喜欢第一个结果,请更改它。
    • pose_scale/face_scale/lip_scale:姿态、面部表情和唇部动作强度的缩放比例。1.0 = 全强度,0.0 = 冻结。
    • cfg:无分类指导缩放。较高 = 更紧随条件但多样性较少。
    • steps:去噪步骤的数量。更多步骤 = 更好的质量但较慢。
  6. 此时,您可以查看生成的视频。要通过超分辨率进一步提高质量,请在链的末端添加HallosUpscaleloaderHallosVideoUpscale节点。放大加载器读取预训练的放大模型,而放大器节点实际上执行到4K的放大。

想要更多 ComfyUI 工作流吗?

RunComfy

© 版权 2024 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。