ComfyUI > 工作流 > LatentSync| 唇同步模型

LatentSync| 唇同步模型

LatentSync 重新定义了唇同步，通过音频条件的潜在扩散模型，绕过中间运动表示，实现无缝的音视频对齐。通过利用稳定扩散（Stable Diffusion），它捕捉复杂的相关性，同时确保时间的平滑性。与基于像素的方法不同，LatentSync 通过其创新的时间表示对齐（TREPA）模块确保卓越的时间一致性。TREPA 模块有助于提供无与伦比的准确性和真实感。

ComfyUI-LatentSyncWrapper 节点及其相关工作流程完全由 ShmuelRonen 开发。我们给予 ShmuelRonen 所有应有的赞誉，以表彰其创新工作。在 RunComfy 平台上，我们只是向社区展示 ShmuelRonen 的贡献。需要注意的是，RunComfy 与 ShmuelRonen 目前没有正式的联系或合作。我们深深感谢 ShmuelRonen 的工作！

ComfyUI LatentSync 工作流程

LatentSync| Advanced Lip Sync Video Generator

想要运行这个工作流吗？

完全可操作的工作流
没有缺失的节点或模型
无需手动设置
具有惊艳的视觉效果

ComfyUI LatentSync 示例

ComfyUI LatentSync 描述

LatentSync 是一个最先进的端到端唇同步框架，利用音频条件的潜在扩散模型生成逼真的唇同步。LatentSync 的独特之处在于其能够直接建模音频和视觉组件之间的复杂相关性，而无需依赖任何中间运动表示，革新了唇同步合成的方法。

LatentSync 流水线的核心是稳定扩散（Stable Diffusion）的集成，这是一种以其卓越的高质量图像捕捉和生成能力而闻名的强大生成模型。通过利用稳定扩散的能力，LatentSync 可以有效地学习和再现语音音频和相应唇部运动之间的复杂动态，从而产生高度准确和令人信服的唇同步动画。

基于扩散的唇同步方法的一个关键挑战是在生成的帧之间保持时间一致性，这对于真实结果至关重要。LatentSync 通过其突破性的时间表示对齐（TREPA）模块正面解决了这个问题，该模块专为增强唇同步动画的时间一致性而设计。TREPA 使用大规模自监督视频模型从生成的帧中提取时间表示。通过将这些表示与真实帧对齐，LatentSync 的框架确保了高度的时间一致性，从而产生与音频输入紧密匹配的平滑且令人信服的唇同步动画。