ComfyUI  >  工作流  >  LatentSync| 唇同步模型

LatentSync| 唇同步模型

LatentSync 重新定义了唇同步,通过音频条件的潜在扩散模型,绕过中间运动表示,实现无缝的音视频对齐。通过利用稳定扩散(Stable Diffusion),它捕捉复杂的相关性,同时确保时间的平滑性。与基于像素的方法不同,LatentSync 通过其创新的时间表示对齐(TREPA)模块确保卓越的时间一致性。TREPA 模块有助于提供无与伦比的准确性和真实感。

ComfyUI LatentSync 工作流程

LatentSync| Advanced Lip Sync Video Generator
想要运行这个工作流吗?
  • 完全可操作的工作流
  • 没有缺失的节点或模型
  • 无需手动设置
  • 具有惊艳的视觉效果

ComfyUI LatentSync 示例

ComfyUI LatentSync 描述

LatentSync 是一个最先进的端到端唇同步框架,利用音频条件的潜在扩散模型生成逼真的唇同步。LatentSync 的独特之处在于其能够直接建模音频和视觉组件之间的复杂相关性,而无需依赖任何中间运动表示,革新了唇同步合成的方法。

LatentSync 流水线的核心是稳定扩散(Stable Diffusion)的集成,这是一种以其卓越的高质量图像捕捉和生成能力而闻名的强大生成模型。通过利用稳定扩散的能力,LatentSync 可以有效地学习和再现语音音频和相应唇部运动之间的复杂动态,从而产生高度准确和令人信服的唇同步动画。

基于扩散的唇同步方法的一个关键挑战是在生成的帧之间保持时间一致性,这对于真实结果至关重要。LatentSync 通过其突破性的时间表示对齐(TREPA)模块正面解决了这个问题,该模块专为增强唇同步动画的时间一致性而设计。TREPA 使用大规模自监督视频模型从生成的帧中提取时间表示。通过将这些表示与真实帧对齐,LatentSync 的框架确保了高度的时间一致性,从而产生与音频输入紧密匹配的平滑且令人信服的唇同步动画。

1.1 如何使用 LatentSync 工作流程?

LatentSync

这是 LatentSync 工作流程,左侧节点是上传视频的输入,中间是处理 LatentSync 节点,右侧是输出节点。

  • 上传您的视频到输入节点。
  • 上传您的对话音频输入。
  • 点击渲染!!!

1.2 视频输入

LatentSync

  • 点击并上传包含面部的参考视频。

视频调整为 25 FPS 以便与音频模型正确同步

1.3 音频输入

LatentSync

  • 点击并在此上传您的音频。

LatentSync 通过其创新的音视频生成方法为唇同步设定了新的标杆。通过结合精确性、时间一致性和稳定扩散(Stable Diffusion)的力量,LatentSync 改变了我们创造同步内容的方式。使用 LatentSync 重新定义唇同步的可能性。

想要更多 ComfyUI 工作流吗?

RunComfy

© 版权 2025 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。